Saltar al contenido

configuración de la sesión de Spark 2.1.0 (pyspark)

Solución:

En realidad, no está sobrescribiendo nada con este código. Para que pueda comprobarlo por sí mismo, pruebe lo siguiente.

Tan pronto como inicie el tipo de shell pyspark:

sc.getConf().getAll()

Esto le mostrará todos los ajustes de configuración actuales. Luego prueba tu código y hazlo de nuevo. Nada cambia.

Lo que debe hacer en su lugar es crear una nueva configuración y usarla para crear un SparkContext. Hazlo asi:

conf = pyspark.SparkConf().setAll([('spark.executor.memory', '8g'), ('spark.executor.cores', '3'), ('spark.cores.max', '3'), ('spark.driver.memory','8g')])
sc.stop()
sc = pyspark.SparkContext(conf=conf)

Entonces puedes chequearte a ti mismo como arriba con:

sc.getConf().getAll()

Esto debería reflejar la configuración que deseaba.

actualizar la configuración en Spark 2.3.1

Para cambiar las configuraciones de chispa predeterminadas, puede seguir estos pasos:

Importar las clases requeridas

from pyspark.conf import SparkConf
from pyspark.sql import SparkSession

Obtenga las configuraciones predeterminadas

spark.sparkContext._conf.getAll()

Actualizar las configuraciones predeterminadas

conf = spark.sparkContext._conf.setAll([('spark.executor.memory', '4g'), ('spark.app.name', 'Spark Updated Conf'), ('spark.executor.cores', '4'), ('spark.cores.max', '4'), ('spark.driver.memory','4g')])

Detener la sesión de Spark actual

spark.sparkContext.stop()

Crear una sesión de Spark

spark = SparkSession.builder.config(conf=conf).getOrCreate()

También puede establecer la configuración cuando inicia pyspark, al igual que spark-submit:

pyspark --conf property=value

Aqui hay un ejemplo

-bash-4.2$ pyspark
Python 3.6.8 (default, Apr 25 2019, 21:02:35) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _ / _ / _ `/ __/  '_/
   /__ / .__/_,_/_/ /_/_   version 2.4.0-cdh6.2.0
      /_/

Using Python version 3.6.8 (default, Apr 25 2019 21:02:35)
SparkSession available as 'spark'.
>>> spark.conf.get('spark.eventLog.enabled')
'true'
>>> exit()


-bash-4.2$ pyspark --conf spark.eventLog.enabled=false
Python 3.6.8 (default, Apr 25 2019, 21:02:35) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _ / _ / _ `/ __/  '_/
   /__ / .__/_,_/_/ /_/_   version 2.4.0-cdh6.2.0
      /_/

Using Python version 3.6.8 (default, Apr 25 2019 21:02:35)
SparkSession available as 'spark'.
>>> spark.conf.get('spark.eventLog.enabled')
'false'

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *