En los inicios de Internet, la principal preocupación de quienes querían ofrecer un sistema para catalogar el creciente número de sitios presentes en la red era la de "pareo“, es decir, la correspondencia entre los temas tratados y la categoría dentro de la cual se inserta cada sitio. Posteriormente surgió la necesidad del motor de búsqueda, una herramienta que liberaba a los navegantes de la tarea de hojear todas las páginas de un sitio de Internet en busca del tema concreto de interés. Antes de Google, el panorama de los motores de búsqueda estaba poblado por una notable cantidad de alternativas, que permitían encontrar información a partir de simples palabras clave. Para ordenar las páginas que contenían esta información, el sistema más utilizado fue el que construía un ranking de las fuentes en función de numero de veces que un término de búsqueda apareció en la misma página.
Sergey Brin y Larry Page, los fundadores de Google, inmediatamente pensaron que su motor de búsqueda debería tener algo más y por eso se concentraron precisamente en función de clasificación. El objetivo era producir resultados que no sólo fueran relevantes, sino también autorizados, es decir, una clasificación de fuentes fiables de información correcta, con una fuerte presencia en la web. Por lo tanto, los estudios matemáticos de los dos llamaron su atención sobre el "cadena de markov“, una herramienta de la teoría de la probabilidad capaz de considerar el estado de un sistema en el momento t, pero también de predecir su transición hacia una determinada dirección (otro estado), en función del estado del sistema en el momento inmediatamente anterior. De esta manera -aún- es posible esquematizar los enlaces de páginas web que apuntan a otras páginas web como si fueran transiciones de estado, dando un peso a estos enlaces en función del número y autoridad de las páginas de las que provienen. La analogía es evidente al observar los diagramas que representan las conexiones entre estados en los procesos de Markov: los números cuantifican la probabilidad de que el proceso cambie de un estado a otro y las flechas indican la dirección de este cambio.
Gracias al trabajo de Brin y Page, que ciertamente no fue el único que fue en esta dirección, el paradigma de los algoritmos de clasificación, desde 1998, ha cambiado radicalmente y se ha asentado, casi definitivamente, en "Clasificación de análisis de enlaces“, donde se utilizan estructuras de hipertexto para clasificar páginas web. En cierto sentido, un enlace de la página Y a la página X puede verse como una aprobación de la calidad de la página. El trabajo de la función de clasificación es extraer esta información y producir una clasificación que refleje la autoridad relativa de las páginas.
A principios de los años 2000, Google todavía no era el motor de búsqueda más utilizado en el mundo y los algoritmos basados en sistemas de ranking obsoletos sobrevivían, al igual que los "directorios web", portales en los que se organizan y presentan los recursos por áreas temáticas. como índices o como árboles que se ramifican en nodos más específicos. Matrices, distribuciones de probabilidad, vectores y procesos estocásticos están en el centro de la descripción de patente presentada, en 2001, por Brin y Page por su PageRank. Una vez establecidos los valores de las variables iniciales, el algoritmo es capaz de generar una clasificación de resultados para cada frase clave. Los cálculos algebraicos y probabilísticos gobiernan el posicionamiento de las páginas en la red mundial. Sin embargo, algo anda mal.
El personal de Google se da cuenta de que esencialmente han proporcionado las instrucciones para terminar en la cima de su clasificación, engañando al algoritmo. Los creadores de contenido siguen todas las instrucciones al pie de la letra, compiten para intercambiar enlaces autorizados y llenan sus páginas con palabras clave relacionadas con ciertos temas, pero luego, en el sitio, hablan de otra cosa. Alguien utiliza "temas de tendencia" (temas más buscados) como cebo para vender productos y servicios. Los delincuentes los utilizan para inocular virus informáticos. En resumen: es correo no deseado (spam), que antes se transmitía casi exclusivamente por correo electrónico, ha aterrizado definitivamente en la web. Pero la incorrección no es sólo la más o menos obvia de la spam (que todavía se cobra un número importante de víctimas). Incluso el mundo de la publicidad, la comunicación corporativa, el copywriting e incluso el periodismo o el entretenimiento pugna por tener “un asiento en primera fila” y lo hace centrándose -quizás demasiado- en ese concepto que en el futuro se identificará mediante las siglas SEO (Posicionamiento en buscadores).
Necesitamos un nuevo algoritmo, o quizás intervención humana. Google opta por una combinación de las dos contribuciones y compra a Yahoo! – en 2005 – la patente de TrustRank, un algoritmo de análisis de enlaces capaz de distinguir las páginas spam de aquellas con contenido "útil". TrustRank está emparejado con PageRank y, en parte, se basa en Factor humano, la de la "evaluadores de calidad”por Google. La intervención humana es indirecta, no inmediata, sirve para corregir resultados insatisfactorios según un grupo de personas (que no son empleados de Google). El salto está hecho. Las matemáticas se hacen un poco a un lado y entra en juego el cerebro humano. Los evaluadores de calidad de Google proporcionan calificaciones según pautas precisas, pero representando usuarios reales, necesidades reales de información y utilizando el criterio humano y no el resultado de cálculos matemáticos o probabilísticos. Todo ello se inserta en el algoritmo a través de parámetros que se pueden resumir una vez más en un acrónimo: EAT (Expertise, Authority, Trustworthiness) o autoridad, competencia y confiabilidad.
Llegados a este punto debe quedar claro que la intervención humana, en el proceso de creación de la SERP (Página de resultados del motor de búsqueda), aunque indirecta, juega un papel muy importante. Entonces, ¿cuál es el procedimiento que sigue el algoritmo de Google cada vez que escribimos una palabra clave en el espacio designado por el buscador? En primer lugar, es necesario hacer una aclaración necesaria sobre el significado de la palabra "algoritmo“. Además de confundirse demasiado a menudo con el término matemático "logaritmo", que no tiene nada que ver con él, se lo considera erróneamente como algo artificial, necesariamente complejo o que atañe a aspectos puramente tecnológicos. Se trata más bien de una palabra que, despojada semánticamente de algunas de sus características, podría ser simplemente sinónimo de "procedimiento“. Sí, porque, en cierto sentido, incluso una receta para hacer un pastel podría verse como un ejemplo de algoritmo. Un manual de instrucciones lo sería aún más. Pero ¿qué es entonces lo que convierte a un algoritmo en un “procedimiento especial”? El hecho de que esté formado por un número finito de instrucciones (por tanto, que tenga un término), que éstas sean unívocamente interpretables y que siempre conduzcan a los mismos resultados a partir de las mismas especificaciones. Además, debe tener carácter general, es decir, debe ser aplicable a todos los problemas del conjunto al que se refiere. En el lenguaje periodístico informático, por más técnico que sea, el término algoritmo se extiende ahora a cualquier secuencia de instrucciones que puedan transmitirse a un autómata.
Los pasos clave de una búsqueda en Google hasta la página de resultados
El algoritmo de Google, después de haber indexado las páginas de nuestro sitio web rastreado, procede de esta manera, tras escribir una frase/palabra clave:
- Búsqueda de frase/palabra clave de concordancia exacta (pareo)
- Búsqueda de frase/palabra clave de coincidencia semántica (sentido)
- Producir una lista ordenada de páginas web utilizando algoritmos (posicionamiento)
Todos estos pasos son muy rápidos porque la estructura de un motor de búsqueda utiliza los llamados "centros de datos", gigantescos almacenes que contienen ordenadores de alto rendimiento, especializados en tareas únicas (servidores). La búsqueda propiamente dicha no se realiza ingresando a todos los ordenadores del mundo donde hay recursos compartidos (páginas web), sino sólo en un pequeño número de máquinas concentradas en estos centros de datos que tienen una copia del contenido de todos los sitios indexados. . En todo el mundo, por ejemplo, yo centro de datos de google –incluidas las de sus socios– son “sólo” 34. Las cadenas de Markov no se exploran directamente, sino a través de una representación matricial del gráfico (que sólo nos sirve como modelo de la red). En esencia, la traducción matemática de los procesos del algoritmo garantiza la rapidez que estamos acostumbrados a ver en la obtención de una respuesta del buscador.
Google puede decidir escanear nuestro sitio y hacer una copia del mismo en los servidores de su centro de datos, ya sea de forma espontánea o tras un informe nuestro (a través de una herramienta llamada Google Search Console). No se indexan todas las páginas, sino sólo aquellas que, según sus parámetros (todos verificables), no presentan problemas. Después de laindexación, ocurre –a petición de los usuarios que realizan búsquedas a través de Google– en posicionamiento, resultado de la intervención del algoritmo. El posicionamiento de cada página está relacionado con una frase o palabra clave en particular. Obviamente no se trata de un posicionamiento absoluto. También varía en función de la ubicación geográfica desde donde se inicia la búsqueda y de la diversa información personal que el usuario ha permitido que el navegador almacene y comparta.
Siempre son los algoritmos los que producen la lista ordenada de páginas de resultados de los motores de búsqueda (SERP), no hay una oficina con personas reales responsables de seleccionar contenidos que premian una fuente y descartan otra. yointervención humana, como ya se explicó, se limita a la retroalimentación de los evaluadores (evaluadores de calidad de búsqueda) y esta retroalimentación siempre se traduce en parámetros compatibles con el aprendizaje automático.