anlak.com

Garip bir fenomen: Benford Kanunu

, Sunday, 27 July 2008
Gerçek hayattan alınmış sayısal verilerin ilk basamaklarının dağılımının beklenenin aksine düzenli olmadığını söylesem ne yapardınız? Ne yapacaksınız, "hmmm" diyip konuyu daha detaylı anlatmamı beklersiniz en fazla.

Örneğin Tanzanya'daki şehirlerin nüfuslarını listelediğimizi düşünün. Benford kanununa göre bu listedeki sayıların ilk basamağının 1 olma olasılığı, diğer rakamlardan bi' tanesi olma olasılığından daha büyüktür. Hatta gerçek hayattan alınmış verilerin ilk basamağındaki rakamların dağılımı şu şekildedir der:
dp
130.1%
217.6%
312.5%
49.7%
57.9%
66.7%
75.8%
85.1%
94.6%

Başka bir şekilde gösterecek olursak, doğal bir veride ilk basamakta rakamların görülme sıklığı şu şekildedir:
Böylesine enteresan bir olayın geçerliliğini bir örnekle inceleyelim. Vikipedi'deki Türkiye'deki göller başlığındaki göllerin yüzölçümlerinin ilk basamaklarının görülme sıklığını yukarıda çizdiğimiz grafik gösterelim (mavi: Benford beklenen değeri, kırmızı: Türkiye'deki göller verisi ):
Bir de göllerin yüzölçümüyle ilgili verinin logaritmik trend çizgisini* çizelim ki ilişkiyi daha iyi anlayalım:
Ne acayip di mi? Şimdi aynı işlemi Türkiye'deki illerin nufusu için yapalım:
Hahah çok eğlenceli. Peki hayatta bunun pratik uygulaması neler olabilir? Basitçe bir veri setinin insan üretimi olup olmadığını anlayabiliriz bu sayede. Vergi kaçıranları saptamak için muhasebe kayıtlarına basit bir analiz yapılıp şüpheli adaylar çıkartılabilir[1] ya da tam tersi vergi kaçırırken daha gerçekçi olsun diye sayıları Benford kanuna uyacak şekilde seçebiliriz. Hatta bir fotoğrafa sonradan müdahele edilip edilmedigini de benzer bir yolla anlayabiliriz.

Ek: Memin'in orjinal fikri olarak, aynı işlemi bilgisayarımda çalışan işlemlerin bellek kullanım değerlerine uyguladım. Sonuç gene şaşmadı. Her zamanki gibi mavi çizgi beklenen değer, kırmızı çizgi gerçek hayattan elde ettiğim veri.

* trend/eğilim çizgisi: Veriye en iyi şekilde uyan çizgi. elle de çizebileceğiniz gibi, Excel benzeri modern hesaplama araçları hatayı en aza indirecek biçimde bu işi sizin için yapar. Sadece bu terim başlı başına bir yazı konusu olabilir, meraklısına anahtar kelime: Linear Regression
  1. Mark J. Nigrini (May). "I've Got Your Number". Journal of Accountancy.

1 comment:

  1. Vilfredo Pareto denen adamin arastirmalari da ilgini cekebilir. http://en.wikipedia.org/wiki/Pareto_distribution

    Bir de tum bunlardan ilham almis “Long Tail” kitabinda da benzer prensibin yeni ekonomi penceresinden tuketici aliskanliklari, satis dagilimi vs. gibi alanlardaki verilerle karsilastirilmasi anlatiliyor.

    ReplyDelete