Поделиться

Алгоритм Google и его история: ранжирование — это просто математика?

Основатели Google с самого начала внедрения своей поисковой системы осознали, что система классификации, основанная на количестве и качестве ссылок, получаемых каждой страницей в сети, даст лучшие результаты, чем другие существующие методы. Математическая трансляция этого аспекта неизбежно привела к введению в алгоритм некоторых параметров, возникающих не только в результате алгебраических и вероятностных расчетов.

Алгоритм Google и его история: ранжирование — это просто математика?

На заре Интернета главной заботой тех, кто хотел предложить систему для каталогизации растущего числа сайтов, присутствующих в сети, была проблема:согласование«, то есть соответствие между затронутыми темами и категорией, в которую вставлен каждый сайт. Впоследствии возникла необходимость в поисковой системе — инструменте, избавляющем пользователей от необходимости листать все страницы интернет-сайта в поисках конкретной интересующей темы. До появления Google поисковая система была заполнена значительным количеством альтернатив, которые позволяли находить информацию, начиная с простых ключевых слов. Для упорядочивания страниц, содержащих эту информацию, наиболее часто использовалась система, которая строила ранжирование источников на основе количество раз что поисковый запрос появился на той же странице.

Сергей Брин и Ларри Пейдж, основатели Google, сразу подумали, что в их поисковой системе должно быть что-то дополнительное, и поэтому сконцентрировались именно на функция ранжирования. Цель заключалась в том, чтобы получить результаты, которые были бы не только актуальными, но и авторитетными, то есть рейтинг надежных источников правильной информации с сильным присутствием в Интернете. Таким образом, математические исследования этих двоих привлекли их внимание к «Цепь Маркова«, инструмент теории вероятностей, способный рассматривать состояние системы в момент времени t, а также предсказывать ее переход в определенном направлении (другое состояние), основываясь на состоянии системы в непосредственно предшествующий момент времени. Таким образом (по-прежнему) можно схематизировать ссылки веб-страниц, которые указывают на другие веб-страницы, как если бы они были переходами состояний, придавая этим ссылкам вес в зависимости от количества и авторитетности страниц, с которых они происходят. Аналогия очевидна при рассмотрении диаграмм, изображающих связи между состояниями в марковских процессах: числа количественно определяют вероятность перехода процесса из одного состояния в другое, а стрелки указывают направление этого изменения.

Благодаря работе Брина и Пейджа, которая, конечно, была не единственной, которая пошла в этом направлении, парадигма алгоритмов ранжирования с 1998 года радикально изменилась и практически окончательно остановилась на «Рейтинг анализа ссылок«, где гипертекстовые структуры используются для классификации веб-страниц. В определенном смысле ссылку со страницы Y на страницу X можно рассматривать как подтверждение качества страницы. Задача функции ранжирования — извлечь эту информацию и создать рейтинг, отражающий относительную авторитетность страниц.

В начале 2000-х годов Google еще не был самой используемой поисковой системой в мире, и алгоритмы, основанные на устаревших системах ранжирования, сохранились, как и «веб-каталоги», порталы, на которых ресурсы организованы по тематическим областям и представлены. как индексы или как деревья, которые разветвляются на более конкретные узлы. Матрицы, распределения вероятностей, векторы и случайные процессы находятся в центре описания патентная заявка, в 2001 году, Брин и Пейдж за их PageRank. После того, как значения стартовых переменных установлены, алгоритм способен генерировать классификацию результатов для каждой ключевой фразы. Алгебраические и вероятностные расчеты управляют позиционированием страниц во всемирной паутине. И все же что-то не так.

Сотрудники Google понимают, что, по сути, они дали инструкции, чтобы оказаться на вершине рейтинга, обманув алгоритм. Создатели контента четко следуют всем инструкциям, соревнуются за обмен авторитетными ссылками и наполняют свои страницы ключевыми словами, относящимися к определенным темам, но потом на сайте говорят о чем-то другом. Кто-то использует «трендовые темы» (темы, которые чаще всего ищут) в качестве приманки для продажи товаров и услуг. Преступники используют их для заражения компьютерных вирусов. Короче говоря: это спам, ранее передававшийся почти исключительно по электронной почте, наконец-то появился в сети. Но неточность — это не только более или менее очевидная из спам (который до сих пор уносит значительное число жертв). Даже мир рекламы, корпоративных коммуникаций, копирайтинга и даже журналистики или развлечений борется за то, чтобы занять «место в первом ряду», и делает это, сосредотачиваясь – возможно, слишком сильно – на той концепции, которая в будущем будет идентифицироваться через аббревиатуру SEO (Search Engine Optimization).

Нам нужен новый алгоритм или, возможно, вмешательство человека. Google выбирает сочетание этих двух вкладов и покупает у Yahoo! – в 2005 году – патент TrustRank, алгоритм анализа ссылок, способный отличать спам-страницы от страниц с «полезным» контентом. TrustRank связан с PageRank и частично основан на человеческий фактор, что из «оценщики качества» от Google. Вмешательство человека является косвенным, а не немедленным, оно служит для исправления неудовлетворительных результатов по мнению группы людей (не являющихся сотрудниками Google). Прыжок сделан. Математика немного отходит в сторону, и в игру вступает человеческий мозг. Оценщики качества Google выставляют оценки в соответствии с точные рекомендации, но представляя реальных пользователей, реальные информационные потребности и используя человеческое суждение, а не результат математических или вероятностных расчетов. Все это вводится в алгоритм через параметры, которые можно еще раз обобщить в аббревиатуре: EAT (Экспертиза, Авторитет, Надежность) или авторитет, компетентность и надежность.

На этом этапе должно быть ясно, что вмешательство человека в процесс создания SERP (страницы результатов поисковой системы), хотя и косвенное, играет очень важную роль. Итак, какова процедура, которой следует алгоритм Google каждый раз, когда мы вводим ключевое слово в отведенное для поисковой системы место? Прежде всего необходимо сделать необходимое уточнение значения слова "алгоритм«. Помимо того, что его слишком часто путают с математическим термином «логарифм», который не имеет к нему никакого отношения, его ошибочно считают чем-то искусственным, обязательно сложным или касающимся чисто технологических аспектов. Напротив, это слово, которое, семантически лишенное некоторых своих характеристик, могло бы быть просто синонимом «процедура«. Да, потому что в определенном смысле даже рецепт приготовления торта можно рассматривать как пример алгоритма. Инструкция по эксплуатации была бы тем более. Но что же тогда делает алгоритм «специальной процедурой»? Тот факт, что он состоит из конечного числа инструкций (следовательно, у него есть термин), что они однозначно интерпретируются и что они всегда приводят к одним и тем же результатам, начиная с одних и тех же спецификаций. Более того, он должен иметь общий характер, то есть быть применимым ко всем проблемам той совокупности, к которой он относится. На языке компьютерной журналистики, каким бы техническим он ни был, термин «алгоритм» теперь расширен до любой последовательности инструкций, которую можно передать автомату.

Ключевые шаги поиска Google до страницы результатов

Алгоритм Google после индексации страниц нашего просканированного веб-сайта действует следующим образом после ввода фразы/ключевого слова:

  • Поиск по ключевому слову/фразе с точным соответствием (согласование)
  • Поиск семантического соответствия фразы/ключевого слова (смысл)
  • Создание упорядоченного списка веб-страниц с использованием алгоритмов (позиционирование)

Все эти шаги выполняются очень быстро, поскольку в структуре поисковой системы используются так называемые «центры обработки данных» — гигантские склады, содержащие высокопроизводительные компьютеры, специализирующиеся на выполнении отдельных задач (серверы). Фактический поиск происходит не путем ввода всех компьютеров в мире, на которых имеются общие ресурсы (веб-страницы), а только на небольшом количестве машин, сосредоточенных в этих центрах обработки данных, которые имеют копию содержимого всех проиндексированных сайтов. . Во всем мире, например, я Центр обработки данных Google – включая и своих партнеров – «всего» 34. Цепи Маркова исследуются не напрямую, а через матричное представление графа (который служит нам лишь моделью сети). По сути, математическая трансляция процессов алгоритма гарантирует ту скорость, которую мы привыкли видеть при получении ответа от поисковой системы.

Google может решить просканировать наш сайт и сделать его копию на серверах своего центра обработки данных либо спонтанно, либо после нашего отчета (с помощью инструмента под названием Google Search Console). Индексируются не все страницы, а только те, которые по своим параметрам (все проверяемые) не представляют проблем. Послеиндексирование, происходит – по запросу пользователей, которые выполняют поиск через Google – на позиционирование, результат вмешательства алгоритма. Позиционирование каждой страницы связано с определенной фразой или ключевым словом. Очевидно, это не абсолютное позиционирование. Оно также варьируется в зависимости от географического местоположения, откуда начинается поиск, и от различной личной информации, которую пользователь разрешил браузеру хранить и передавать.

Всегда алгоритмы создают упорядоченный список страниц результатов поисковой системы (SERP), нет офиса с реальными людьми, ответственными за выбор контента, который вознаграждает один источник и отклоняет другой. Л'вмешательство человека, как уже объяснялось, ограничивается отзывами оценщиков (поиск оценщиков качества), и эта обратная связь всегда переводится в параметры, совместимые с автоматическим машинным обучением.

Обзор