分享

谷歌算法及其历史,排名只是数学吗?

谷歌的创始人从第一次实施他们的搜索引擎时就意识到,基于网络上每个页面收到的链接数量和质量的分类系统将比其他现有技术产生更好的结果。这方面的数学转化不可避免地导致一些参数进入算法,这些参数不仅来自代数和概率计算

谷歌算法及其历史,排名只是数学吗?

在互联网的早期,那些想要提供一个系统来对网络上不断增长的站点进行编目的人主要关心的是“匹配“,即所涵盖的主题与每个站点插入的类别之间的对应关系。随后,对搜索引擎的需求出现了,这种工具可以使冲浪者免于翻阅互联网站点的所有页面以搜索感兴趣的特定主题的任务。在谷歌出现之前,搜索引擎领域充斥着大量的替代方案,这使您可以从简单的关键字开始查找信息。为了对包含此信息的页面进行排序,最常用的系统是基于以下内容构建源排名的系统: 次数 搜索词出现在同一页面上。

Google 的创始人谢尔盖·布林 (Sergey Brin) 和拉里·佩奇 (Larry Page) 立即认为他们的搜索引擎应该有一些额外的东西,因此专注于 排名功能。目标是产生不仅具有相关性而且具有权威性的结果,即对正确信息的可靠来源进行排名,并在网络上具有强大的影响力。两人的数学研究因此而引起了他们对“马尔可夫链“,一种概率论工具,能够考虑系统在时间 t 的状态,而且还能够根据系统前一时间的状态来预测其向某个方向(另一个状态)的转变。通过这种方式,仍然可以将指向其他网页的网页链接图解化,就好像它们是状态转换一样,并根据这些链接来自的页面的数量和权限赋予这些链接权重。通过观察表示马尔可夫过程中状态之间的联系的图表,可以明显看出这种类比:数字量化了过程从一种状态变为另一种状态的概率,箭头指示了这种变化的方向。

感谢 Brin 和 Page 的工作(他们当然不是唯一朝这个方向发展的人),自 1998 年以来,排名算法的范式已经发生了根本性的变化,并且几乎已经确定地确定为“链接分析排名”,其中超文本结构用于对网页进行分类。从某种意义上来说,从Y页到X页的链接可以看作是对页面质量的认可排名功能的作用是提取此信息并生成反映页面相对权威度的排名。

2000 年代初,Google 还不是世界上使用最多的搜索引擎,基于过时排名系统的算法得以幸存,“网络目录”(资源按主题领域组织并呈现的门户网站)也得以幸存。作为索引或分支到更具体节点的树。矩阵、概率分布、向量和随机过程是描述的核心 专利申请,2001 年,布林和佩奇为他们的 PageRank。一旦设置了起始变量的值,算法就能够为每个关键短语生成结果分类。代数和概率计算控制着万维网上的页面定位。但还是有什么不对劲的地方。

谷歌员工意识到,他们实际上已经提供了最终排名靠前的指令,欺骗了算法。内容创建者严格遵循所有说明,竞争交换权威链接,并在其页面中填充与某些主题相关的关键字,但随后,他们在网站上谈论其他内容。有人使用“热门话题”(搜索最多的话题)作为诱饵来销售产品和服务。犯罪分子利用它们来接种计算机病毒。简而言之:它 垃圾邮件以前几乎完全通过电子邮件传达的内容现在终于登陆了网络。但这种错误不仅是或多或少明显的错误之一 垃圾邮件(仍然有大量受害者)。即使是广告、企业传播、文案写作,甚至新闻或娱乐界也在争夺“前排座位”,并且通过关注——也许太多——这个概念来做到这一点,而这个概念在未来将通过缩写词来识别。 搜索引擎优化 (搜索引擎优化)。

我们需要一种新的算法,或者也许是人工干预。谷歌选择混合两种贡献并从雅虎购买! – 2005年 – 专利 信任等级,一种链接分析算法,能够区分垃圾邮件页面和具有“有用”内容的页面。 TrustRank 与 PageRank 配对,部分基于 人的因素,即“质量评估者”谷歌。人为干预是间接的,而不是立即的,根据一群人(不是谷歌员工)的说法,它可以纠正不令人满意的结果。飞跃完成了。数学退到一边,人类大脑开始发挥作用。 Google 质量评估者根据以下标准提供评级 精确的指导方针,但代表真实的用户、真实的信息需求并使用人类的判断,而不是数学或概率计算的结果。所有这些都通过参数插入到算法中,这些参数可以再次用缩写词概括:EAT(专业知识、权威、可信度)或 权威、能力和可靠性.

至此应该清楚的是,在创建 SERP(搜索引擎结果页面)的过程中,人为干预虽然是间接的,但起着非常重要的作用。那么,每次我们在搜索引擎的指定空间中输入关键字时,Google 的算法会遵循什么过程呢?首先,有必要对“”一词的含义进行必要的澄清。算法”。除了经常与数学术语“对数”混淆之外(与它无关),它还被错误地认为是人为的、必然复杂的或纯粹涉及技术方面的东西。相反,这个词在语义上剥离了它的一些特征,可能只是“的同义词”程序”。是的,因为,从某种意义上说,即使是制作蛋糕的食谱也可以被视为算法的一个例子。如果有使用说明书就更是如此。但到底是什么让算法成为“特殊程序”呢?事实上,它是由有限数量的指令组成的(因此它有一个术语),这些指令是唯一可解释的,并且它们总是从相同的规范出发产生相同的结果。此外,它必须具有通用性,即它必须适用于它所涉及的集合的所有问题。在计算机新闻语言中,无论技术如何,术语“算法”现在已扩展到可以输入自动机的任何指令序列。

Google 搜索到结果页面的关键步骤

谷歌算法在对我们抓取的网站的页面建立索引后,按照以下方式进行,输入短语/关键字:

  • 精确匹配关键字/短语搜索(匹配)
  • 语义匹配短语/关键词搜索()
  • 使用算法生成网页的有序列表(定位)

所有这些步骤都非常快,因为搜索引擎的结构利用了所谓的“数据中心”,即包含高性能计算机的巨大仓库,专门处理单一任务(服务器)。实际的搜索并不是通过输入世界上所有共享资源(网页)的计算机来进行的,而是仅在集中在这些数据中心的少数计算机中进行,这些计算机具有所有索引站点内容的副本。例如,在世界各地,我 谷歌数据中心 – 包括其合作伙伴 – “仅” 34. 马尔可夫链不是直接探索的,而是通过图的矩阵表示(它仅作为网络模型)来探索。本质上,算法过程的数学转换保证了我们从搜索引擎获取响应时所习惯的速度。

谷歌可能会自发地或根据我们的报告(通过名为谷歌搜索控制台的工具)决定扫描我们的网站并在其数据中心服务器上制作副本。并非所有页面都被索引,但只有那些根据其参数(所有可验证)不存在问题的页面才被索引。之后索引,应通过 Google 搜索的用户的要求发生 - 定位,算法干预的结果。每个页面定位都与特定短语或关键字相关。这显然不是绝对的定位。它还会根据搜索开始的地理位置以及用户允许浏览器存储和共享的各种个人信息而有所不同。

生成搜索引擎结果页面 (SERP) 的有序列表的始终是算法,没有真正的办公室由专人负责选择奖励一个来源并丢弃另一个来源的内容。 L'人为干预正如已经解释过的,仅限于评估者的反馈(搜索质量评估者)并且这种反馈总是被转换成与自动机器学习兼容的参数。

评论