Solución:
En realidad, no está sobrescribiendo nada con este código. Para que pueda comprobarlo por sí mismo, pruebe lo siguiente.
Tan pronto como inicie el tipo de shell pyspark:
sc.getConf().getAll()
Esto le mostrará todos los ajustes de configuración actuales. Luego prueba tu código y hazlo de nuevo. Nada cambia.
Lo que debe hacer en su lugar es crear una nueva configuración y usarla para crear un SparkContext. Hazlo asi:
conf = pyspark.SparkConf().setAll([('spark.executor.memory', '8g'), ('spark.executor.cores', '3'), ('spark.cores.max', '3'), ('spark.driver.memory','8g')])
sc.stop()
sc = pyspark.SparkContext(conf=conf)
Entonces puedes chequearte a ti mismo como arriba con:
sc.getConf().getAll()
Esto debería reflejar la configuración que deseaba.
actualizar la configuración en Spark 2.3.1
Para cambiar las configuraciones de chispa predeterminadas, puede seguir estos pasos:
Importar las clases requeridas
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
Obtenga las configuraciones predeterminadas
spark.sparkContext._conf.getAll()
Actualizar las configuraciones predeterminadas
conf = spark.sparkContext._conf.setAll([('spark.executor.memory', '4g'), ('spark.app.name', 'Spark Updated Conf'), ('spark.executor.cores', '4'), ('spark.cores.max', '4'), ('spark.driver.memory','4g')])
Detener la sesión de Spark actual
spark.sparkContext.stop()
Crear una sesión de Spark
spark = SparkSession.builder.config(conf=conf).getOrCreate()
También puede establecer la configuración cuando inicia pyspark, al igual que spark-submit:
pyspark --conf property=value
Aqui hay un ejemplo
-bash-4.2$ pyspark
Python 3.6.8 (default, Apr 25 2019, 21:02:35)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux
Welcome to
____ __
/ __/__ ___ _____/ /__
_ / _ / _ `/ __/ '_/
/__ / .__/_,_/_/ /_/_ version 2.4.0-cdh6.2.0
/_/
Using Python version 3.6.8 (default, Apr 25 2019 21:02:35)
SparkSession available as 'spark'.
>>> spark.conf.get('spark.eventLog.enabled')
'true'
>>> exit()
-bash-4.2$ pyspark --conf spark.eventLog.enabled=false
Python 3.6.8 (default, Apr 25 2019, 21:02:35)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux
Welcome to
____ __
/ __/__ ___ _____/ /__
_ / _ / _ `/ __/ '_/
/__ / .__/_,_/_/ /_/_ version 2.4.0-cdh6.2.0
/_/
Using Python version 3.6.8 (default, Apr 25 2019 21:02:35)
SparkSession available as 'spark'.
>>> spark.conf.get('spark.eventLog.enabled')
'false'