Zipf Kanunu


Yaşadığımız dünyayı anlamaya, algılamaya çalıştıkça ve ölçme kabiliyetimizi arttırdıkça, tesadüfi yahut kaotik olmasını beklediğimiz şeylerde bile bir düzen olduğunu keşfediyoruz. Buz kristallerinde, yaprak damarlarında, sineklerin uçarken çizdikleri yollarda, hatta rüzgârların esişinde, nehirlerin akışında bile ilk bakışta yakalanması oldukça zor bazı desenler keşfediyoruz. 
 
Günlük hayatta kullandığımız kelimeler de zaman içinde gelişen teknoloji sayesinde daha izlenebilir, daha hızlı ölçülebilir hale gelince yukarıda anlattığım desenlerden birisini daha keşfetti insanoğlu.
 
Alman asıllı Amerikalı dilbilimci ve filolog George Zipf, 1932 yılında (daha 30 yaşındayken) yayınladığı “Selected Studies of the Principle of Relative Frequency in Language” başlıklı makalesinde, hangi dilde yazılmış olursa olsun, belli bir metindeki kelimelerin kullanım sıklığıyla ilgili bir “desenin” bulunduğunu ortaya koydu. Zipf’in bulgularına göre kelimeler kullanım sıklığına göre sıralandıklarında ilk sıradaki kelime, yani en sık kullanılan kelime, ikinci sıradaki kelimenin iki katı kadar kullanılıyordu. Başka bir deyişle ikinci sıradaki kelime ilk sıradaki kelimenin yarısı kadar kullanılıyordu. Üçüncü sıradaki kelime ilk kelimenin üçte biri kadar, dördüncü sıradaki kelime ilk kelimenin dörtte biri kadar olacak şekilde bu düzen devam ediyordu.
 
Literatüre Zipf Kanunu olarak giren bu buluş, son derece ilginçti. Zira hangi metne bakarsanız bakın böyle bir düzen bulabileceğinizi söylüyordu. İşin daha da garibi, Zipf’in sıra-sıklık kuralının bir ülkedeki şehirlerin nüfuslarına da uygulanabiliyor olmasıydı. Bir ülkedeki en kalabalık şehrin nüfusu, yaklaşık olarak ikinci sıradaki şehrin nüfusunun iki katı kadar çıkıyordu. İnanılmaz bir şekilde, Zipf Kanunu’nun şehirler uygulaması, geçen yüzyıldaki her ülke için doğru çıktı. 
 
Bu ilginç kanunu, eldeki verilerle bir kez de ben “test etmek” istedim. Bu tecrübe için dört farklı veri seti seçtim:
 
  • Amerika’daki en kalabalık ilk kırk şehrin 2015 nüfuslarını Wikipedia’dan temin ettim.
  • Türkiye illerinin 2017 nüfuslarını TÜİK’in sunduğu Adrese Dayalı Nüfus Kayıt Sistemi verilerinden aldım.
  • AK Parti ve CHP’nin seçim beyannamelerini kendi sitelerinden aldım.
Verileri grafiğe dökmek için Excel kullandım.
 
İşte elde ettiğim neticeler:

 
Amerikan şehirlerinin 2015 nüfusları Zipf Kanunu’na gayet uygun şekilde dağılıyor. En kalabalık şehir olan 8,5 milyonluk New York’u yaklaşık 4 milyonluk nüfusuyla Los Angeles takip ediyor. Üçüncü sıradaki Chicago’nun nüfusu ise neredeyse Zipf’in öngördüğü rakama olan 2,8 milyondan sadece yüz bin eksik. Onuncu sıradaki şehrin nüfusu en kalabalık şehrin nüfusunun onda biri midir diye baktım, Kalifornia’nın San Jose şehri bir milyon civarındaki nüfusuyla Zipf’in öngörüsünün biraz üzerinde kalıyor.
 
 
Türkiye şehirlerinin nüfuslarının genel olarak Zipf Kanununa uyduğu söylenebilir. Zipf, 15 milyonluk İstanbul’un en yakın takipçisi Ankara’nın nüfusunun 7,5 milyon civarında olmasını beklerdi ama Ankara 5,5 milyonda kalıyor. Ancak üçüncü sıradaki İzmir 4,2 milyonluk nüfusuyla üçte bir oranına yaklaşıyor. Onuncu sıradaki Kocaeli 1,5 milyonluk nüfusuyla 15 milyonun onda birini, yirminci sıradaki Aydın 750 binlik nüfusuyla İstanbul nüfusunun yirmide birini tam isabetle tutturuyor.
 
 
AK Parti beyannamesinde geçen tüm kelimelerin sayısı: 90800. Tekrar eden kelimeleri çıkarttığımızda 17644 tekil kelime kullanıldığını görüyoruz. Tüm kelimeler geçiş sıklıklarına göre dizildiklerinde en çok kullanılan ilk on kelimenin “ve” (3798), “bir” (1008), “ile” (676), “bu” (620), “için” (597), “olarak” (511), “daha” (463), “yılında” (453), “olan” (402), “devam” (318) olduğu görülüyor. Bu metnin de Zipf Kanunu’na uyduğu söylenebilir. Onuncu sıradaki “devam” 318 kez geçerek ilk sıradaki “ve” kelimesinin onda birine yaklaşıyor. On üçüncü sıradan sonra tüm kelimeler beklenenden daha sık kullanılır oluyor. Yirminci sırada geçen “milyon” kelimesinin kullanım sıklığı, 243 ile beklenen 190’ın üzerinde kalıyor.
 
 
CHP beyannamesinde toplam 30622 kelime geçiyor. Tekrar eden kelimeleri çıkarttığımızda bulduğumuz tekil kelime sayısı 8904. CHP beyannamesinde en sık kullanılan ilk on kelimenin kullanım sıklıkları şöyle diziliyor: “ve” (1589), “bir” (466), “için” (217), “sağlayacağız” (199), “tüm” (182), “bu” (168), “ile” (156), “kamu” (149), “eğitim” (122), “iş” (120).  Bu metin de genel olarak Zipf Kanunu’na uyuyor. Her ne kadar ikinci sıradaki kelime olan “bir” beklenenden az görülse de on, yirmi, otuz ve kırkıncı sıradaki kelimeler kanununca öngörülen sayılara yakın sıklıkta zikrediliyor.
 
Böylece Zipf kanunun işlerliğini biz de bir kez daha teyit etmiş olduk. Henüz 48 yaşındayken kansere yenik düşerek vefat eden George Zipf’in müthiş keşfini alkışladık. Tabi bu müthiş keşfin akıllara düşürdüğü asıl soru bunun “neden” böyle olduğu. İnsanlar hangi şehre yerleşeceklerini yahut yazdıkları metinlerde hangi kelimeleri ne sıklıkta geçireceklerine Zipf kanuna göre karar vermedikleri aşikâr. Peki nasıl oluyor da böyle oluyor? 
 
Bu soruya hâlâ tatmin edici bir cevap bulunabilmiş değil.
 
Pi sayısının yaklaşık 3, 1415926535 olan değerini, yaklaşık 2.7182818 olan Euler sabitini yahut yaklaşık 1.61803 olan altın oranı biz insanlar icat etmedik ama bu değerleri keşfettik. Tabiatta, hayatımızda mahiyetini kavramakta zorlandığımız acayip bir düzen var. Yüksek zekâlar bu sırları peşinde tecessüs ile koşmaya devam ediyorlar. Yazımızı Galileo Galilei’nin meşhur sözleriyle bitirelim:
 
 
“Tabiat kanunları tanrının eliyle matematik dilinde yazılmışlardır." 
"Tabiatı anlamak için onun yazıldığı dili anlamanız gerekir ve o dil de matematiktir.”

 

 


Not: Zipf Kanunu'ndan haberdar olmama ve dolayısıyla bu yazının yazılmasına vesile olan, sevgili akademisyen dostum Murat Ulubay'a selamlarımı gönderiyorum.

Kaynakça: