Saltar al contenido

Búsqueda semántica con NLP y elasticsearch

Si encuentras alguna parte que no entiendes nos puedes dejar un comentario y te responderemos lo mas rápido que podamos.

Solución:

Puede haber varios enfoques con diferente complejidad de implementación.

La más fácil es crear lista de temas (como plomería), adjunte bolsa de palabras (como “tubería”), identifique la solicitud de búsqueda por la mayoría de las palabras clave y busque solo en un tema específico (puede agregar un campo topic a sus documentos de búsqueda elástica y configúrelo como obligatorio con + durante la búsqueda).

Por supuesto, si tiene muchos documentos, la creación manual de la lista de temas y la bolsa de palabras requiere mucho tiempo. Puedes usar aprendizaje automático para automatizar algunas de las tareas. Básicamente, es suficiente tener una medida de distancia entre palabras y/o documentos para descubrir temas automáticamente (por ejemplo, por agrupación de datos) y clasificar consulta a uno de estos temas. La combinación de estas técnicas también puede ser una buena opción (por ejemplo, puede crear temas manualmente y asignarles documentos iniciales, pero usar la clasificación para la asignación de consultas). Echa un vistazo al artículo de Wikipedia sobre análisis semántico latente para entender mejor la idea. También preste atención a los 2 artículos vinculados sobre agrupación de datos y clasificación de documentos. Y sí, Maui Indexer puede convertirse en una buena herramienta de ayuda de esta manera.

Finalmente, puede intentar construir un motor que “entienda” el significado de la frase (no solo use los términos de frecuencia) y busque los temas apropiados. Lo más probable es que esto implique procesamiento natural del lenguaje y bases de conocimiento basadas en ontologías. Pero, de hecho, este campo todavía está en investigación activa y sin experiencia previa será muy difícil para ti implementar algo como esto.

Es posible que desee explorar https://blog.conceptnet.io/2016/11/03/conceptnet-5-5-and-conceptnet-io/.

Combina semantic networks y distributional semantics.

Cuando la mayoría de los desarrolladores necesitan incrustaciones de palabras, el primer y posiblemente único lugar en el que buscan es word2vec, un algoritmo de red neuronal de Google que calcula las incrustaciones de palabras a partir de la semántica de distribución. Es decir, aprende a predecir palabras en una oración a partir de otras palabras a su alrededor, y las incrustaciones son la representación de las palabras que hacen las mejores predicciones. Pero incluso después de terabytes de texto, hay aspectos de los significados de las palabras que simplemente no aprenderá solo de la semántica distribucional.

algunos resultados

Las incrustaciones de palabras ConceptNet Numberbatch, integradas en ConceptNet 5.5, resuelven estas analogías SAT mejor que cualquier sistema anterior. Acierta el 56,4% de las preguntas. El mejor sistema anterior comparable, Turney’s SuperSim (2013), obtuvo un 54,8 %. Y nos estamos acercando cada vez más al rendimiento de “nivel humano” en las analogías del SAT, mientras que los humanos particularmente inteligentes, por supuesto, pueden responder correctamente muchas más preguntas, el solicitante universitario promedio obtiene un 57,0%.

La búsqueda semántica es básicamente búsqueda con significado. Elasticsearch usa la serialización JSON de forma predeterminada, para aplicar la búsqueda con significado a JSON, necesitaría extenderla para admitir relaciones perimetrales a través de JSON-LD. A continuación, puede aplicar su análisis semántico sobre el esquema JSON-LD para eliminar la ambigüedad de la entidad de plomero y los contextos de tuberías rotas como relaciones de sujeto, predicado y objeto. Elasticsearch tiene un soporte de búsqueda semántica muy débil, pero puede evitarlo utilizando la búsqueda por facetas y la bolsa de palabras. Puede indexar un esquema de tesauro para términos de plomería y luego hacer una coincidencia semántica sobre las frases de texto en sus oraciones.

Comentarios y valoraciones de la guía

Al final de la web puedes encontrar las críticas de otros administradores, tú además eres capaz dejar el tuyo si lo crees conveniente.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)


Tags : / /

Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *