Esta cuestión se puede resolver de diversas formas, sin embargo te dejamos la solución más completa para nosotros.
Solución:
Use Snappy si puede manejar un mayor uso del disco para obtener beneficios de rendimiento (CPU más baja + Dividible).
Cuando Spark cambió de GZIP a Snappy de forma predeterminada, este fue el razonamiento:
Según nuestras pruebas, la descompresión de gzip es muy lenta (< 100 MB/s), lo que hace que la descompresión de las consultas sea limitada. Snappy puede descomprimir a ~ 500 MB/s en un solo núcleo.
Rápido:
- Espacio de almacenamiento: Alto
- Uso de CPU: Bajo
- divisible: Sí (1)
GZIP:
- Espacio de almacenamiento: Medio
- Uso de CPU: Medio
- divisible: No
1) http://boristyukin.com/es-snappy-compressed-parquet-file-splittable/
Índice de compresión :
La compresión GZIP usa más recursos de CPU que Snappy o LZO, pero proporciona una relación de compresión más alta.
Uso general :
GZip suele ser una buena opción para frío datos, a los que se accede con poca frecuencia. Snappy o LZO son una mejor opción para caliente datos, a los que se accede con frecuencia.
Snappy a menudo funciona mejor que LZO. Vale la pena hacer pruebas para ver si detectas una diferencia significativa.
Dividibilidad:
Si necesita que sus datos comprimidos se puedan dividir, los formatos BZip2, LZO y Snappy se pueden dividir, pero GZip no.
GZIP comprime datos un 30 % más en comparación con Snappy y 2 veces más CPU cuando lee datos de GZIP en comparación con uno que consume datos de Snappy.
LZO se centra en la velocidad de descompresión con un uso bajo de la CPU y una mayor compresión a costa de más CPU.
Para a más largo plazo/static almacenamiento, la compresión GZip es aún mejor.
Vea la investigación exhaustiva y el código de referencia y los resultados en este artículo (Rendimiento de varios algoritmos generales de compresión: ¡algunos de ellos son increíblemente rápidos!).
Solo pruébalos en tus datos.
lzo y snappy son compresores rápidos y descompresores muy rápidos, pero con menos compresión, en comparación con gzip que comprime mejor, pero es un poco más lento.
Agradecemos que desees auxiliar nuestro estudio fijando un comentario o valorándolo te estamos eternamente agradecidos.