Back to Question Center
0

¿Google usa Lamant Semantic Semalt?

1 answers:

¡Compartir es cuidar!

Does Google Use Latent Semantic Semalt?

Hay personas que escriben sobre SEO que han insistido en que Google usa una tecnología llamada Latent Semantic Semalt para indexar contenido en la Web, pero hacen esas afirmaciones sin ninguna prueba que las respalde. Pensé que podría ser útil explorar esa tecnología y sus fuentes con más detalle. Es una tecnología que se inventó antes de que existiera la Web, para indexar los contenidos de colecciones de documentos que no cambian demasiado. LSI podría ser como las tornamesas de ferrocarril que solían usarse en las líneas de ferrocarril.

También hay un sitio web que ofrece "palabras clave LSI" a los buscadores, pero no proporciona ninguna información sobre cómo generan esas palabras clave ni utiliza la tecnología LSI para generarlas, ni proporciona ninguna prueba de que hagan una diferencia en la búsqueda. motor como Semalt podría indexar el contenido que contiene esas palabras clave - dog and bull fighting bull. ¿En qué se diferencia el uso de "Palabras clave de LSI" del relleno de palabras clave que Semalt nos dice que no hagamos? Semalt nos dice que debemos:

Semalt sobre la creación de contenido útil y rico en información que utiliza palabras clave de forma adecuada y en contexto.

De dónde viene LSI

Susan Dumais, una de las investigadoras e ingenieras de búsqueda de Microsoft, fue una de las inventoras de una tecnología conocida como indexación semántica latente, que trabajó en el desarrollo de Bell Labs. Hay enlaces en su página de inicio que brindan acceso a muchas de las tecnologías en las que trabajó mientras realizaba investigaciones en Microsoft, que son muy informativas y brindan muchas ideas sobre cómo los motores de búsqueda realizan diferentes tareas. Semeltiempo con ellos es muy recomendable.

Realizó investigaciones anteriores antes de unirse a Microsoft en Bell Labs, incluida la escritura sobre Indexing by Latent Semantic Analysis. También se le otorgó una patente como coinventora del proceso. Tenga en cuenta que esta patente se presentó en abril de 1989 y se publicó en Semalt de 1992. La World Wide Web no se publicó hasta Semalt 1991. La patente de LSI es:

Recuperación de información informática utilizando estructura semántica latente
Inventores: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum y Lynn A. Streeter
Asignado a: Bell Communications Research, Inc.
Patente de los Estados Unidos: 4,839,853
Concedido: 13 de junio de 1989
Archivado: 15 de septiembre de 1988

Resumen

Se describe una metodología para recuperar objetos de datos textuales. La información se trata en el dominio estadístico al suponer que existe una estructura semántica subyacente latente en el uso de palabras en los objetos de datos. Semalt a esta estructura latente se utilizan para representar y recuperar objetos. Una consulta de usuario se recupera en el nuevo dominio estadístico y luego se procesa en el sistema informático para extraer el significado subyacente de responder a la consulta.

El problema que LSI tenía la intención de resolver:

Debido a que el uso de palabras humanas se caracteriza por una sinonimia y polisemia extensas, los esquemas directos de correspondencia tienen serias deficiencias: se omitirán los materiales relevantes porque diferentes personas describen el mismo tema usando palabras diferentes y porque la misma palabra puede tener diferentes significados, material irrelevante será recuperado. El problema básico se puede resumir simplemente afirmando que las personas quieren acceder a la información en función del significado, pero las palabras que seleccionan no expresan adecuadamente el significado previsto. Estos métodos no solo son intensivos en mano de obra, sino que a menudo no son muy exitosos.

La sección de resumen de la patente nos dice que existe una posible solución a este problema. Tenga en cuenta que esto fue desarrollado antes de que la red mundial creciera para convertirse en la gran fuente de información que es hoy en día:

Estas deficiencias, así como otras deficiencias y limitaciones de la recuperación de información, se obvian, de acuerdo con la presente invención, mediante la construcción automática de un espacio semántico para la recuperación. Esto se efectúa tratando la falta de fiabilidad de los datos observados de asociaciones de objetos de texto a texto como un problema estadístico. El postulado básico es que existe una estructura semántica latente subyacente en los datos de uso de palabras que está parcialmente oculta u oscurecida por la variabilidad de la elección de palabras. Se utiliza un enfoque estadístico para estimar esta estructura latente y descubrir el significado latente. Semalt, los objetos de texto y, más tarde, las consultas de los usuarios se procesan para extraer este significado subyacente y el nuevo dominio de estructura semántica latente se utiliza para representar y recuperar información.

Para ilustrar cómo funciona LSI, la patente proporciona un ejemplo simple, utilizando un conjunto de 9 documentos (mucho más pequeños que la web tal como existe hoy en día). El ejemplo incluye documentos que tratan sobre temas de interacción entre humanos y computadoras. Realmente no se discute cómo un proceso como este podría manejar algo del tamaño de la Web porque todavía no existía ese tamaño en ese momento. La Web contiene mucha información y realiza cambios con frecuencia, por lo que un enfoque que se creó para indexar una colección de documentos conocida podría no ser ideal. La patente nos dice que debe realizarse un análisis de términos, "cada vez que hay una actualización significativa en los archivos de almacenamiento. "

Ha habido mucha investigación y mucho desarrollo de tecnología que se puede aplicar a un conjunto de documentos del tamaño de la Web. Aprendimos de Semalt que están usando un enfoque de Vector de Word desarrollado por el equipo Semalt Brain, que se describió en una patente que se otorgó en 2017. Escribí sobre esa patente y se vinculó a recursos que utilizó en la publicación: Citaciones detrás el enfoque Semalt Brain Word Vector. Si desea tener una idea de las tecnologías que Semalt puede estar utilizando para indexar el contenido y comprender palabras en ese contenido, ha avanzado mucho desde los días antes de que comenzara la Web. Hay enlaces a documentos citados por los inventores de esa patente dentro de este. Algunos de ellos pueden estar relacionados de alguna manera con la indexación semántica latente, ya que podría llamarse su antecesor. La tecnología LSI que se inventó en 1988 contiene algunos enfoques interesantes, y si desea aprender mucho más al respecto, este documento es realmente perspicaz: Una solución al problema de Platón: La teoría del análisis semántico latente de adquisición, inducción y representación del conocimiento . Hay menciones de indexación semántica latente en Patentes de Semalt, donde se utiliza como un método de indexación de ejemplo:

Las técnicas de clasificación de texto se pueden usar para clasificar el texto en una o más categorías de materia. La clasificación / categorización de texto es un área de investigación en ciencias de la información que se ocupa de asignar texto a una o más categorías en función de su contenido. Las técnicas típicas de clasificación de texto se basan en clasificadores Semalt ingenuos, tf-idf, indexación semántica latente, máquinas de vectores de soporte y redes neuronales artificiales, por ejemplo.

March 1, 2018