pay

Google algoritması ve geçmişi, sıralama sadece matematikten mi ibaret?

Google'ın kurucuları, arama motorlarının ilk uygulamasından itibaren, web üzerindeki her sayfanın aldığı bağlantıların sayısına ve kalitesine dayalı bir sınıflandırma sisteminin mevcut diğer tekniklerden daha iyi sonuçlar üreteceğini fark ettiler. Bu hususun matematiksel tercümesi kaçınılmaz olarak sadece cebirsel ve olasılıksal hesaplamalardan kaynaklanmayan bazı parametrelerin algoritmaya girmesine yol açmıştır.

Google algoritması ve geçmişi, sıralama sadece matematikten mi ibaret?

İnternetin ilk günlerinde, ağ üzerinde bulunan ve sayısı giderek artan sitelerin kataloglanmasını sağlayacak bir sistem sunmak isteyenlerin temel kaygısı şuydu: "uygun“yani kapsanan konular ile her sitenin eklendiği kategori arasındaki yazışma. Daha sonra, sörfçüleri belirli bir ilgi konusunu aramak için bir İnternet sitesinin tüm sayfalarını karıştırma görevinden kurtaran bir araç olan arama motoruna olan ihtiyaç ortaya çıktı. Google'dan önce, arama motoru ortamı, basit anahtar kelimelerden başlayarak bilgileri bulmanıza olanak tanıyan dikkate değer sayıda alternatifle doluydu. Bu bilgiyi içeren sayfaları sıralamak için en çok kullanılan sistem, kaynakların sıralamasını temel alan sistemdi. defalarca aynı sayfada bir arama teriminin göründüğünü.

Google'ın kurucuları Sergey Brin ve Larry Page, hemen arama motorlarının ekstra bir şeye sahip olması gerektiğini düşündüler ve bu nedenle tam olarak şuna odaklandılar: sıralama işlevi. Amaç, yalnızca ilgili değil, aynı zamanda güvenilir, yani web'de güçlü bir varlığa sahip, güvenilir doğru bilgi kaynaklarının sıralaması olan sonuçlar üretmekti. Bu nedenle ikisinin matematiksel çalışmaları dikkatlerini "Markov zinciriBir sistemin t zamanındaki durumunu dikkate alabilen, aynı zamanda sistemin hemen önceki zamandaki durumuna dayalı olarak belirli bir yöne (başka bir duruma) geçişini tahmin edebilen bir olasılık teorisi aracı. Bu şekilde - yine de - diğer web sayfalarına işaret eden web sayfalarının bağlantılarını, sanki durum geçişleriymiş gibi şematize etmek, bu bağlantılara, geldikleri sayfaların sayısına ve otoritesine göre ağırlık vermek mümkündür. Markov süreçlerinde durumlar arasındaki bağlantıları temsil eden diyagramlar gözlemlendiğinde bu benzetme açıkça görülmektedir: sayılar sürecin bir durumdan diğerine değişme olasılığını ölçer ve oklar bu değişimin yönünü gösterir.

Kesinlikle bu yönde ilerleyen tek kişi olmayan Brin ve Page'in çalışmaları sayesinde, sıralama algoritmaları paradigması 1998'den bu yana kökten değişti ve neredeyse kesin olarak şu noktaya yerleşti: "Bağlantı Analizi SıralamasıWeb sayfalarını sınıflandırmak için hiper metin yapılarının kullanıldığı yer. Bir anlamda Y sayfasından X sayfasına verilen bağlantı, sayfanın kalitesinin bir onayı olarak görülebilir. Sıralama fonksiyonunun görevi bu bilgiyi çıkarmak ve sayfaların göreceli otoritesini yansıtan bir sıralama üretmektir.

2000'li yılların başında Google henüz dünyanın en çok kullanılan arama motoru değildi ve eski sıralama sistemlerine dayalı algoritmalar varlığını sürdürdü, tıpkı kaynakların tematik alanlara göre düzenlendiği ve sunulduğu portallar olan "web dizinleri" gibi. dizinler olarak veya daha spesifik düğümlere dallanan ağaçlar olarak. Matrisler, olasılık dağılımları, vektörler ve stokastik süreçler tanımının merkezinde yer almaktadır. Patent beklemede2001 yılında Brin ve Page tarafından PageRank. Başlangıç ​​değişkenlerinin değerleri ayarlandıktan sonra algoritma, her anahtar kelime öbeği için bir sonuç sınıflandırması oluşturabilir. Cebirsel ve olasılıksal hesaplamalar, dünya çapındaki ağdaki sayfaların konumlandırılmasını yönetir. Yine de yanlış olan bir şeyler var.

Google personeli, aslında algoritmayı aldatarak sıralamada üst sıralara çıkma talimatlarını verdiklerinin farkındadır. İçerik oluşturucular tüm talimatları harfiyen uygular, yetkili bağlantılar alışverişinde bulunmak için rekabet eder ve sayfalarını belirli konularla ilgili anahtar kelimelerle doldurur, ancak daha sonra sitede başka bir şey hakkında konuşurlar. Birisi ürün ve hizmet satmak için "trend konuları" (en çok aranan konular) yem olarak kullanıyor. Suçlular bunları bilgisayar virüslerini aşılamak için kullanıyor. Kısaca: o SpamDaha önce neredeyse yalnızca e-posta yoluyla iletilen , artık kesin olarak web'e ulaştı. Ancak yanlışlık yalnızca az ya da çok bariz olanı değildir. spam (hala önemli sayıda kurban olduğunu iddia ediyor). Reklamcılık, kurumsal iletişim, metin yazarlığı ve hatta gazetecilik veya eğlence dünyası bile "ön sırada yer almak" için yarışıyor ve bunu gelecekte kısaltmayla tanımlanacak olan kavrama - belki de çok fazla - odaklanarak yapıyor. SEO (Arama motoru optimizasyonu).

Yeni bir algoritmaya ya da belki insan müdahalesine ihtiyacımız var. Google, iki katkının bir karışımını tercih ediyor ve Yahoo!'dan satın alıyor! – 2005 yılında – patenti Güven Sıralaması, spam sayfalarını "yararlı" içeriğe sahip olanlardan ayırt edebilen bir bağlantı analizi algoritmasıdır. TrustRank, PageRank ile eşleştirilir ve kısmen insan faktörü, bunun "kalite değerlendiricileri” Google tarafından. İnsan müdahalesi doğrudan değil dolaylıdır; bir grup insana (Google çalışanları olmayan) göre tatmin edici olmayan sonuçların düzeltilmesine hizmet eder. Sıçrama tamamlandı. Matematik biraz kenara çekilir ve devreye insan beyni girer. Google kalite değerlendiricileri aşağıdakilere göre derecelendirmeler sağlar: kesin kurallar, ancak gerçek kullanıcıları, gerçek bilgi ihtiyaçlarını temsil eder ve matematiksel veya olasılıksal hesaplamaların sonucunu değil, insan muhakemesini kullanır. Tüm bunlar, bir kez daha kısaltmayla özetlenebilecek parametreler aracılığıyla algoritmaya eklenir: EAT (Uzmanlık, Yetki, Güvenilirlik) veya Yetki, yeterlilik ve güvenilirlik.

Bu noktada SERP (Arama Motoru Sonuç Sayfası) oluşturma sürecinde insan müdahalesinin dolaylı da olsa çok önemli bir rol oynadığı açık olmalıdır. Peki, arama motorunun belirlenmiş alanına bir anahtar kelimeyi her yazdığımızda Google'ın algoritmasının izlediği prosedür nedir? Öncelikle "kelimeninin anlamı konusunda gerekli bir açıklama yapmak gerekiyor"algoritma“. Matematiksel "logaritma" terimiyle (bununla hiçbir ilgisi yoktur) çok sık karıştırılmasına ek olarak, yanlış bir şekilde yapay, zorunlu olarak karmaşık veya tamamen teknolojik yönleri ilgilendiren bir şey olarak kabul edilir. Bunun yerine, bazı özelliklerinden anlamsal olarak arındırıldığında basitçe " ile eşanlamlı olabilecek bir kelimedir.prosedür“. Evet, çünkü bir bakıma pasta tarifi bile bir algoritma örneği olarak görülebilir. Bir kullanım kılavuzu daha da fazlası olurdu. Peki o halde bir algoritmayı "özel prosedür" yapan şey nedir? Sonlu sayıda talimattan oluşması (dolayısıyla bir terime sahip olması), bunların benzersiz bir şekilde yorumlanabilmesi ve aynı spesifikasyonlardan yola çıkarak her zaman aynı sonuçlara yol açması. Ayrıca genel bir karaktere sahip olmalı, yani atıfta bulunduğu kümenin tüm problemlerine uygulanabilir olmalıdır. Bilgisayar gazeteciliği dilinde, ne kadar teknik olursa olsun, algoritma terimi artık bir otomata beslenebilecek herhangi bir talimat dizisini kapsayacak şekilde genişletildi.

Google aramasının sonuç sayfasına kadarki temel adımları

Google algoritması, taranan web sitemizin sayfalarını indeksledikten sonra bir cümlenin/anahtar kelimenin yazılmasının ardından şu şekilde ilerler:

  • Tam eşlemeli anahtar kelime/ifade araması (uygun)
  • Anlamsal eşleşen kelime öbeği/anahtar kelime araması (anlam)
  • Algoritmalar kullanarak web sayfalarının sıralı bir listesini oluşturmak (konumlandırma)

Tüm bu adımlar çok hızlıdır çünkü bir arama motorunun yapısı, "veri merkezleri" olarak adlandırılan, tek görevlerde uzmanlaşmış yüksek performanslı bilgisayarlar içeren devasa depolardan (sunuculardan) yararlanır. Gerçek arama, dünyadaki ortak kaynakların (web sayfalarının) bulunduğu tüm bilgisayarlara girilerek değil, yalnızca indekslenen tüm sitelerin içeriklerinin bir kopyasına sahip olan bu veri merkezlerinde yoğunlaşan az sayıda makineye girilerek gerçekleşir. . Mesela dünyanın her yerinde ben Google veri merkezi – ortaklarınınkiler de dahil olmak üzere – “yalnızca” 34'tür. Markov zincirleri doğrudan değil, grafiğin matris temsili yoluyla (bu bize yalnızca bir web modeli olarak hizmet eder) araştırılır. Aslında algoritma süreçlerinin matematiksel çevirisi, arama motorundan yanıt alırken görmeye alışık olduğumuz hızı garanti eder.

Google, kendiliğinden veya bizden gelen bir raporu takiben (Google Search Console adı verilen bir araç aracılığıyla) sitemizi taramaya ve veri merkezi sunucularında bir kopyasını oluşturmaya karar verebilir. Tüm sayfalar dizine eklenmez, yalnızca parametrelerine göre (tümü doğrulanabilir) sorun oluşturmayan sayfalar dizine eklenir. SonraindekslemeGoogle'da arama yapan kullanıcıların isteği üzerine gerçekleşir. yerleştirme, algoritmanın müdahalesinin sonucu. Her sayfa konumlandırması belirli bir kelime öbeği veya anahtar kelimeyle ilgilidir. Bu elbette mutlak bir konumlandırma değil. Ayrıca, aramanın başlatıldığı coğrafi konuma ve kullanıcının tarayıcının saklamasına ve paylaşmasına izin verdiği çeşitli kişisel bilgilere bağlı olarak da değişir.

Arama motoru sonuç sayfalarının (SERP) sıralı listesini üreten her zaman algoritmalardır; bir kaynağı ödüllendiren ve diğerini reddeden içeriği seçmekten sorumlu gerçek kişilerin bulunduğu bir ofis yoktur. Beninsan müdahalesiDaha önce açıklandığı gibi değerlendiricilerin geri bildirimleriyle sınırlıdır (arama kalitesi değerlendiricileri) ve bu geri bildirim her zaman otomatik makine öğrenimiyle uyumlu parametrelere dönüştürülür.

Yoruma