シェア

Google のアルゴリズムとその歴史、ランキングは単なる数学ですか?

Google の創設者たちは、検索エンジンを初めて実装したときから、Web 上の各ページが受け取ったリンクの数と質に基づいた分類システムが、他の既存の技術よりも優れた結果を生み出すことに気づきました。この側面を数学的に変換すると、必然的に、代数的および確率的計算だけではなく、いくつかのパラメーターのアルゴリズムに組み込まれることになります。

Google のアルゴリズムとその歴史、ランキングは単なる数学ですか?

インターネットの初期の頃、ネットワーク上に存在する増え続けるサイトをカタログ化するシステムを提供したいと考えていた人々の主な関心事は、「マッチング」、つまり、取り上げられたトピックと各サイトが挿入されたカテゴリとの対応関係。その後、検索エンジンの必要性が生じました。これは、関心のある特定のトピックを検索するためにインターネット サイトのすべてのページをめくってサーファーを解放するツールです。 Google が登場する以前は、検索エンジンには驚くほど多くの代替手段が存在しており、単純なキーワードから情報を見つけることができました。この情報を含むページを並べ替えるために最も使用されたシステムは、次の情報に基づいてソースのランキングを作成するシステムでした。 何度か 検索語が同じページに表示されたこと。

Google の創設者であるサーゲイ ブリンとラリー ペイジは、自社の検索エンジンには何か特別なものが必要であるとすぐに考え、そのためまさに次のことに集中しました。 ランキング機能。目標は、関連性があるだけでなく信頼できる結果、つまり、Web 上で強い存在感を示す、正しい情報の信頼できるソースのランキングを作成することでした。したがって、二人の数学的研究は、彼らの注意を「マルコフ連鎖これは確率論のツールで、時刻 t におけるシステムの状態を考慮できるだけでなく、直前の時刻におけるシステムの状態に基づいて、特定の方向 (別の状態) への遷移を予測することもできます。この方法では、それでも、他の Web ページを指す Web ページのリンクを状態遷移であるかのように図式化し、リンク元のページの数と権限に基づいてこれらのリンクに重みを与えることができます。この類似性は、マルコフ過程の状態間の接続を表す図を見ると明らかです。数値は、過程がある状態から別の状態に変化する確率を定量化し、矢印はこの変化の方向を示します。

この方向に進んだのは確かに唯一ではありませんが、ブリンとペイジの研究のおかげで、1998 年以降、ランキング アルゴリズムのパラダイムは根本的に変化し、ほぼ決定的に、「リンク分析ランキングここでは、Web ページを分類するためにハイパーテキスト構造が使用されています。ある意味、ページ Y からページ X へのリンクは、ページの品質を承認したものとみなすことができます。ランキング関数の役割は、この情報を抽出し、ページの相対的な権威を反映したランキングを作成することです。

2000 年代初頭、Google はまだ世界で最も使用されている検索エンジンではなく、リソースがテーマ分野ごとに編成されて表示されるポータルである「Web ディレクトリ」と同様に、時代遅れのランキング システムに基づくアルゴリズムが生き残っていました。インデックスとして、またはより具体的なノードに分岐するツリーとして。行列、確率分布、ベクトル、確率過程が説明の中心となります。 特許出願中、2001年、ブリンとペイジによる PageRankの。開始変数の値が設定されると、アルゴリズムはキー フレーズごとに結果の分類を生成できます。代数的および確率的計算により、ワールド ワイド ウェブ上のページの位置が決まります。しかし、何かが間違っています。

Googleのスタッフは、本質的にはアルゴリズムを欺き、最終的にランキングのトップになるための指示を出していたことに気づいている。コンテンツ作成者は、文書に書かれたすべての指示に従い、信頼できるリンクを交換し、特定のトピックに関連するキーワードをページに埋め込むために競争しますが、その後、サイト上では別のことについて話します。誰かが「トレンドトピック」(最も検索されたトピック)を餌として製品やサービスを販売します。犯罪者はそれらを使用してコンピューター ウイルスを接種します。一言で言えば、それは スパムは、これまでほぼ電子メールのみで伝えられていましたが、決定的に Web に登場しました。しかし、その間違いは、多かれ少なかれ明らかな間違いだけではありません。 スパム(依然としてかなりの数の被害者が発生しています)。広告、企業コミュニケーション、コピーライティング、さらにはジャーナリズムやエンターテイメントの世界でさえ、「最前列の席」を確保しようとひしめき合い、将来的には頭字語によって識別されるであろうその概念に、おそらく過度に焦点を当ててそうしているのです。 SEO (検索エンジン最適化)。

新しいアルゴリズム、あるいはおそらく人間の介入が必要です。 Google は 2005 つの貢献を組み合わせて Yahoo! から購入することを選択します。 – XNUMX年 – の特許 TrustRank、スパムページと「有用な」コンテンツを含むページを区別できるリンク分析アルゴリズム。 TrustRank は PageRank とペアになっており、部分的には以下に基づいています。 人的要因、人間工学、「」のそれ品質評価者” by Google。人間の介入は即時ではなく間接的であり、(Google 従業員ではない)人々のグループに従って不満足な結果を修正するのに役立ちます。飛躍は終わった。数学は少し脇に置いて、人間の脳が活躍します。 Google の品質評価者は以下に従って評価を提供します 正確なガイドラインただし、実際のユーザー、実際の情報ニーズを表し、数学的または確率的な計算の結果ではなく人間の判断を使用します。これらすべては、EAT (専門性、権限、信頼性) という頭字語でもう一度要約できるパラメータを通じてアルゴリズムに挿入されます。 権威、能力、信頼性.

この時点で、SERP (検索エンジン結果ページ) の作成プロセスにおける人間の介入が、間接的ではありますが、非常に重要な役割を果たしていることが明らかになるはずです。では、私たちが検索エンジンの指定されたスペースにキーワードを入力するたびに、Google のアルゴリズムはどのような手順を踏むのでしょうか?まず第一に、「」という言葉の意味について必要な説明をする必要があります。アルゴリズム”。数学用語「対数」とあまりにも頻繁に混同されることに加えて、それとは何の関係もありませんが、それは人工的で必然的に複雑なもの、または純粋に技術的な側面に関係するものであると誤って考えられています。代わりに、意味的にその特徴の一部が取り除かれ、単に「」の同義語になり得る単語です。手順”。そうです。ある意味では、ケーキを作るレシピさえもアルゴリズムの一例と見なすことができるからです。取扱説明書ならなおさらでしょう。しかし、アルゴリズムを「特別な手順」にするものは何でしょうか?それは有限数の命令で構成されており (したがって用語がある)、これらは一意に解釈可能であり、同じ仕様から出発すると常に同じ結果が得られるという事実です。さらに、それは一般的な性質を持たなければなりません。つまり、それが参照する集合のすべての問題に適用できなければなりません。コンピュータジャーナリズムの用語では、たとえ専門的であっても、アルゴリズムという用語は現在、オートマトンに供給できるあらゆる命令シーケンスに拡張されています。

結果ページに至るまでの Google 検索の主な手順

Google アルゴリズムは、クロールされた Web サイトのページのインデックスを作成した後、フレーズ/キーワードの入力に従って次のように処理を進めます。

  • 完全一致のキーワード/フレーズ検索 (マッチング)
  • 意味一致フレーズ/キーワード検索 (意味)
  • アルゴリズムを使用して Web ページの順序付きリストを作成する (ポジショニング)

検索エンジンの構造は、単一タスク (サーバー) に特化した高性能コンピューターを含む巨大な倉庫、いわゆる「データ センター」を利用するため、これらすべての手順は非常に高速です。実際の検索は、共有リソース (Web ページ) が存在する世界中のすべてのコンピュータを入力することによって行われるのではなく、インデックス付けされたすべてのサイトのコンテンツのコピーを保持しているこれらのデータ センターに集中している少数のコンピュータでのみ行われます。 。世界中で、例えば私は Google データセンター – パートナーのものも含めて – は「のみ」 34 です。マルコフ連鎖は直接ではなく、グラフの行列表現を通じて調査されます (ウェブのモデルとしてのみ機能します)。本質的に、アルゴリズムのプロセスの数学的変換により、検索エンジンから応答を取得する際に見慣れた速度が保証されます。

Google は、自発的に、または (Google Search Console と呼ばれるツール経由で) 当社からの報告に従って、当社のサイトをスキャンし、そのコピーをデータセンターのサーバーに作成することを決定する場合があります。すべてのページにインデックスが付けられるわけではありません。パラメータに従って (すべて検証可能)、問題が発生しないページのみがインデックスに付けられます。後にインデックス作成、Google を通じて検索するユーザーのリクエストに応じて発生します。 配置、アルゴリズムの介入の結果。各ページの位置は特定の語句またはキーワードに関連しています。これは明らかに絶対的な位置づけではありません。また、検索が開始される地理的位置や、ユーザーがブラウザーに保存および共有を許可したさまざまな個人情報によっても異なります。

検索エンジン結果ページ (SERP) の順序付きリストを生成するのは常にアルゴリズムであり、あるソースに報酬を与え、別のソースを破棄するコンテンツの選択を担当する実際の担当者がいるオフィスはありません。 L'人間の介入、すでに説明したように、評価者のフィードバックに限定されます (検索品質評価者) そして、このフィードバックは常に自動機械学習と互換性のあるパラメータに変換されます。

レビュー