Saltar al contenido

La tabla particionada de Hive lee todas las particiones a pesar de tener un filtro Spark

Solución:

Una mesa de parquet colmena en Spark se puede utilizar siguiendo 2 flujos de lectura:

  1. Flujo de colmena: se utilizará cuando spark.sql.hive.convertMetastoreParquet se establece en false. Para que la partición pruining funcione en este caso, debe configurar spark.sql.hive.metastorePartitionPruning=true.

    spark.sql.hive.metastorePartitionPruning: cuando es verdadero, algunos predicados se enviarán al almacén de metas de Hive para que las particiones que no coincidan se puedan eliminar antes. Esto solo afecta a las tablas de Hive que no se convierten en relaciones de origen de archivos (consulte HiveUtils.CONVERT_METASTORE_PARQUET y HiveUtils.CONVERT_METASTORE_ORC para obtener más información

  2. Flujo de origen de datos: este flujo tiene activada la eliminación de particiones de forma predeterminada.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *