Saltar al contenido

¿Leer de BigQuery a Spark de manera eficiente?

Si hallas alguna incompatibilidad con tu código o proyecto, recuerda probar siempre en un ambiente de testing antes subir el código al proyecto final.

Solución:

Tal vez un Googler me corrija, pero AFAIK esa es la única manera. Esto se debe a que, bajo el capó, también usa BigQuery Connector para Hadoop, que según los documentos:

El conector de BigQuery para Hadoop descarga datos en su depósito de Google Cloud Storage antes de ejecutar un trabajo de Hadoop.

Como nota al margen, esto también es true al usar Dataflow, también realiza una exportación de las tablas de BigQuery a GCS primero y luego las lee en paralelo.

WRT si la etapa de copia (que es esencialmente un trabajo de exportación de BigQuery) está influenciada por el tamaño de su clúster de Spark, o si es un tiempo fijo, no. Los trabajos de exportación de BigQuery no son deterministas y BigQuery usa sus propios recursos para exportar a GCS, es decir, no a su clúster de Spark.

spark-bigquery-connector usa la API de almacenamiento de BigQuery, que es súper rápida.

Eres capaz de añadir valor a nuestra información aportando tu experiencia en las referencias.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *