Ir al contenido principal

Un algoritmo para gobernarlos a todos


Cuando José María Aznar llega a ser presidente del gobierno, Google acababa de nacer, pero aún ni se llamaba Google (por poner un antecedente que muchos tendremos en la cabeza seguramente por traumático). Durante un tiempo su partido aspiraba a aglutinar a toda la derecha, a ser el anillo de poder del liberalismo en España. El tiempo ha desgajado en varios partidos la derecha (porque la izquierda era difícil partirla en más facciones), pero los poderes de sus anillos siguen unidos de alguna forma. Y ahora vamos a relacionar Google con poder y el señor de los anillos. 

La referencia a Aznar la he usado porque debería hacernos pensar el poco tiempo que hace que existe este buscador y es bueno que sepamos que no es el único. Que hoy día se usan otros y que antes que Google, había más. 
Para que nos hagamos una idea, por aquí os dejo un listado de los buscadores que han existido y en verde los que siguen activos. 



La World Wide Web existía antes pero fue en 1989 cuando Tim Berners-Lee se dio cuenta de que los enlaces entre documentos podrían resultar útiles para distribuir y compartir información. Sin embargo hasta 1993, el contenido de la web se indexaba a mano. En Junio de ese año el investigador del MIT Matthew Gray escribió en lenguaje Perl el código Wanderer, el primer bot capaz de indexar de forma automática. Ese mismo verano el profesor Oscar Marius Nierstrasz escribió también en Perl un conjunto de script que copiaba periódicamente los índices de la web. Comenzaba así la automatización de la WWW. Poco después aparecen Lycos, Yahoo y el gigante Google. 

El factor diferenciador de Google, aunque no sólo, sería el algoritmo PageRank y es que realmente funciona muy bien. Hay pocos sitios del mundo donde google no se haya impuesto (Rusia, que usa Yandex, China que usa Baidu, Japón y Taiwan con Yahoo, surcoreanos con Naver y en República Checa Seznam). 

Los creadores de Google fueron Larry Page (Ingeniero informático por la U. de Michigan y Dr. en informática en Stanford) y Serguéi Brin (Graduado en informática y matemáticas por la U. de Maryland y Dr. en informática en Stanford). Se conocieron en Stanford. 

Las matemáticas han tenido mucho que decir en la creación de Google. Brin tenía una habilidad innata para las matemáticas y es hijo de dos matemáticos. Page, al poco de llegar a Stanford, asistió a una conferencia que le daría la idea de explorar las propiedades matemáticas de la WWW asemejando su estructura de hiperenlaces a un enorme grafo de relaciones binarias. 
No en vano el propio nombre de Google hace referencia a un juego de palabras “googol” que representa al 1 seguido de 100 ceros. 

Page se dió cuenta de que los hiperenlaces de las páginas de internet eran lo mismo que las citas de las publicaciones científicas, una forma de medir su relevancia. Así que escribió un rastreador al que llamó BackRub que le permitía explorar e indexar las páginas web de aquella estructura. Brin se unió en esta tarea, pero aún les faltaba algo más. Un algoritmo capaz de recoger los datos devueltos por su indexador para transformarlos en una medida de “impacto” o relevancia de la página. Y este sería el germen de PageRank. 

Básicamente se trata de localizar todos los enlaces que dirigen a una página, darles un valor proporcional a la importancia y ordenar las páginas en función de este valor. Si una página es referenciada muchas veces será porque tiene más importancia y/o valor y por tanto la pongo arriba del ranking intuyendo que será la que mejor se ajuste a una búsqueda determinada. 

BackRub y PageRank fueron puestos a prueba en 1996 en la red de Stanford y un años después se convirtió en una empresa al detectar la potencia comercial de la herramienta. 

Como la filosofía del algoritmo es fácil de intuir y actuar en consecuencia, muchas páginas no tardaron en hacer trampas para posicionarse mejor y los mejoradores de posicionamiento SEO no tardaron en llegar. En la actualidad Google cambia su algoritmo unas 500 veces al año y resulta difícil seguirles la pista. El peso que se da a cada hiperenlace va variando en función de varios criterios. Por destacar algunos que se han puesto en marcha: 

  • PANDA es una actualización lanzada en 2011 que penaliza el contenido de baja calidad por ser corto, contener información poco relevante o por estar mal redactado. 
  • PENGUIN se lanzó en 2012 e incluía una mejor detección de enlaces de poco valor, comprados, redes de artículos, directorios y básicamente cualquier dinámica de modificación de links de tu web. 
  • HUMMINGBIRD salió en 2013 y se centra en búsquedas semánticas y knowledge graph para buscar conexiones entre conceptos. 

Se trata en definitiva de que las páginas se posicionen por la calidad de su contenido y no por estrategias de conocimiento del algoritmo que falsean los datos pero no aportan nada. Pero no pensemos en Google como un gran benefactor. Es cierto que cuánto más útil nos sea el buscador, más lo vamos a usar, pero además el peso e importancia de un enlace se puede modificar también con la cantidad adecuada de dinero. 

Esto nos lleva a un problema. Si solamente usamos este buscador para encontrar información en la web nos estamos perdiendo toda la información en páginas mal posicionadas, las que no están posicionadas de ninguna forma en este buscador. En definitiva, estamos usando el anillo (buscador y algoritmo) único para buscar el resto de anillos de poner… pero igual nos estamos dejando muchos anillos preciosos por el camino que sin tener tanto poder pueden contener ideas e historias dignas de ser tenidas en cuenta.

Comentarios

  1. Fabuloso, Óscar. Hasta me ha temblado la barbilla con la frase final.

    Enhorabuena.

    ResponderEliminar

Publicar un comentario

Trazas de Comentarios

Entradas populares de este blog

Jerga de Laboratorio

La gente que trabaja en el laboratorio somos especialmente dados a abusar de la jerga de nuestra profesión (y no me refiero a un trozo de tela gruesa y tosca). El tipo de lenguaje que en el laboratorio nos puede llegar a ser familiar pero que saca de sus casillas al resto del mundo porque en ocasiones más que jerga se convierte en jerigonza. Así por ejemplo si decimos que estamos haciendo un pase para mañana hacer la corrida… no hablamos de toros. Y si dejamos algo a RT durante O/N… ahí ya te pierdes del todo. Bueno pues me he propuesto sacar una nueva sección que se va a llamar Jerga de Laboratorio. Intentaré que cada semana o dos semana (depende de lo ocupado que esté) salga una entrada explicando algunos de los conceptos y palabrotas que usamos por el mundo de las poyatas (anda, otra palabreja), Comencemos precisamente por ahí. Poyata El  @DrLitos  ya nos habló en su momento del arte de poyata en sus ediciones I y II ( Arte de poyata I ,  Arte de poyata II ) Y

Bots de Schrödinger

Hace unos días el periodista Javier Salas publicaba en el país este artículo titulado “ Sepultados bajo la mayor avalancha de estudios científicos ”. Y es que cada dos semanas se duplica el número de artículos sobre el susodicho tema COVID-19. Si desde 2009 se publicaban de media unos 3.000 artículos sobre coronavirus en todo el mundo y cada año, ahora se publican unos 700 cada día y van más de 20.000 en apenas 3 meses.  Con las personas confinadas en sus casas en medio mundo y retiradas de las calles, las plataformas de redes sociales se han convertido en una de las mejores herramientas para comprender la discusión social entorno a este y a cualquier otro tema. Estudiar las redes sociales puede ser útil e informativo para evaluar cómo se está haciendo frente a esta crisis global. Sin embargo, esa idea que a priori podría dar mucha información, debe ser analizada con detenimiento debido a que las Redes Sociales (RRSS) están pobladas de máquinas y cuentas automatizadas que pueden a

Psicohistoria, Preología y Termosociología

Siempre se ha dicho que el hombre es el único animal que tropieza dos veces con la misma piedra (Les puedo asegurar que eso no es cierto por dos razones. Una, yo siempre tropiezo 3 veces y dos, mi perro también tropieza siempre en el mismo sitio. No es muy listo el pobre). ¿Será ese complejo de equivocarnos siempre en lo mismo lo que nos lleva a estudiar Historia? Será con la esperanza de que quizás si vemos los errores de los antiguos, nosotros podamos prever los errores futuros. Sin embargo, no parece que una crisis sufrida en Egipto en el 1500 a.c. nos pueda ser un ejemplo para un problema de hoy en día.  ¿En que tiempo deberíamos de fijarnos?, ¿En que cultura?, ¿En que sistema político y económico?  Si queremos hacer de la historia pasada la escuela de la historia futura, necesitamos un método. Y ese método no puede ser otro que el método científico. Sin embargo esta idea tan peregrina de realizar previsiones de futuro en base al pasado y usando un método científico no e