Los buscadores de internet son más rápidos gracias a la estadística

El primer sistema de búsqueda en internet fue creado en 1990 en la Universidad de McGill en Canadá e intentaba crear un censo buscable de todos los archivos en los sitios FTP de esos tiempos. Pero en cuanto el crecimiento de la web creció exponencialmente, pronto se volvió aparente que un método de muestreo de internet sería necesario para producir los índices requeridos para las búsquedas. Una solución fue desarrollada, donde el muestreo es hecho por una "araña" web -software que toma la información de una página web y de todas las páginas con las que está relacionada y todas las páginas con las que ellas están relacionadas y así sucesivamente.

Problemas estadísticos, entonces, surgen en la parte de indexar del proceso. ¿Qué variables deben ser guardadas? Por ejemplo, una variable en esos índices examina el número de conexiones entrantes a una página cuyo peso depende de medidas de calidad de los sitios con los que conecta a la página en cuestión. Interesantemente, esto es proporcional a una estimación del equilibro de probabilidad de terminar en una página dada después de un número grande de clics en un modelo de Markov de búsqueda en internet. Luego, ¿qué estructuras de datos y tamaño de índice realiza el más rápido cómputo sin que se sacrifique la relevancia? Incluso el índice grande que mantiene Google, que es más de cien petabytes en tamaño, mantiene una pequeña fracción de las 30 trillones de páginas estimadas en internet.

Finalmente, los algoritmos de búsqueda deben producir resultados en fracciones de segundo. Los resultados son sitios web ordenados en base al índice que debe estar fuertemente relacionado a la probabilidad de que el sitio sea relevante al usuario en base a sus necesidades e intenciones. Los modelos para predecir la relevancia son constantemente modificados-parcialmente para asegurar que los dueños de los sitios web mejoren sus sitios usando las mejores técnicas y no simplemente para satisfacer artificialmente las variables del ranking de búsqueda. Los modelos actuales están basados en cientos de variables que son examinadas de manera continua usando una selección de variables y un modelo que construye experimentos en relación a las respuestas de los usuarios en los resultados de los sistemas de búsqueda. ¿Los usuarios dan click con mayor frecuencia en los sitios que están en los lugares más altos? ¿Se quedan más tiempo en los sitios a los que ellos entran?

Entonces, problemas estadísticos son tratados en la muestra (araña web), indexando y haciendo los rankings de las fases de la operación de un buen sistema de búsqueda. Sin estadística tendríamos que buscar en internet en un sitio a la vez.

Traducido de: http://www.statistics2013.org/2013/07/22/455/

Regresar

Instituto Nacional de Estadística y Geografía (INEGI)