Saltar al contenido

¿Qué son las estructuras de datos probabilísticos?

Investigamos por todo el mundo on line y así brindarte la solución para tu dilema, si continúas con preguntas déjanos tu pregunta y respondemos sin falta.

Solución:

Probablemente haya muchas respuestas diferentes (y buenas), pero en mi humilde opinión, las características comunes de las estructuras de datos probabilísticos es que le brindan una respuesta aproximada, no precisa.

¿Cuántos artículos hay aquí? Sobre 1523425 con probabilidad del 99%

Actualización: la búsqueda rápida produjo un enlace a un artículo decente sobre el tema:

Probabilistic Data Structures for Web Analytics and Data Mining

Las estructuras de datos probabilísticos no pueden darle una respuesta definitiva, sino que le brindan una aproximación razonable de la respuesta y una forma de aproximar esta estimación. Son extremadamente útiles para big data y aplicaciones de transmisión porque permiten disminuir drásticamente la cantidad de memoria necesaria (en comparación con las estructuras de datos que le brindan respuestas exactas).

En la mayoría de los casos, estas estructuras de datos utilizan funciones hash para aleatorizar los elementos. Debido a que ignoran las colisiones, mantienen el tamaño constante, pero esta también es una razón por la que no pueden brindarle valores exactos. Las ventajas que aportan:

  • usan una pequeña cantidad de memoria (puedes controlar cuánto)
  • pueden ser fácilmente paralelizados (los hashes son independientes)
  • tienen tiempo de consulta constante (ni siquiera constante amortizado como en el diccionario)

Las estructuras de datos probabilísticos de uso frecuente son:

  • filtros de floración
  • bosquejo de cuenta min
  • hiperLogLog

Si está interesado en las estructuras de datos probabilísticos, puede leer mi libro recientemente publicado “Estructuras de datos probabilísticos y algoritmos para aplicaciones de Big Data” (ISBN: 9783748190486, disponible en Amazon) donde he explicado muchas de estas estructuras de datos que ahorran espacio y algoritmos rápidos que son extremadamente útiles en las aplicaciones modernas de Big Data.

En este libro, puede encontrar algoritmos y estructuras de datos de última generación que ayudan a manejar problemas tan comunes en el procesamiento de Big Data como

  • consulta de membresía (Filtro Bloom, filtro Counting Bloom, filtro Cociente, filtro Cuckoo).
  • Cardinalidad (Conteo lineal, conteo probabilístico, LogLog, HyperLogLog, HyperLogLog++).
  • Frecuencia (Algoritmo mayoritario, Frecuente, Esbozo de conteo, Esbozo de conteo mínimo).
  • Rango (Muestreo aleatorio, q-digest, t-digest).
  • Semejanza (LSH, MinHash, SimHash).

Puede obtener una vista previa gratuita y toda la información relacionada sobre el libro en https://pdsa.gakhov.com

valoraciones y reseñas

Te invitamos a sustentar nuestra misión exponiendo un comentario y valorándolo te damos las gracias.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *