Ya no necesitas buscar más por todo internet porque has llegado al espacio perfecto, tenemos la respuesta que necesitas sin problema.
Solución:
Vea aquí: el contexto_chispa representa su interfaz para un administrador de clúster de chispa en ejecución. En otras palabras, ya habrá definido uno o más entornos de ejecución para Spark (consulte los documentos de instalación/inicialización), detallando los nodos en los que se ejecutará, etc. Inicia un objeto spark_context con una configuración que le indica qué entorno usar y, por ejemplo, el nombre de la aplicación. Toda interacción posterior, como la carga de datos, ocurre como métodos del objeto de contexto.
Para los ejemplos simples y las pruebas, puede ejecutar Spark Cluster “localmente” y omitir gran parte de los detalles de lo que está arriba, por ejemplo,
./bin/pyspark --master local[4]
iniciará un intérprete con un contexto ya configurado para usar cuatro subprocesos en su propia CPU.
En una aplicación independiente, para ejecutar con sparksubmit:
from pyspark import SparkContext
sc = SparkContext("local", "Simple App")
Lo primero que debe hacer un programa Spark es crear un objeto SparkContext, que le indica a Spark cómo acceder a un clúster. Para crear un SparkContext, primero debe crear un objeto SparkConf que contenga información sobre su aplicación.
Si está ejecutando pyspark, es decir, shell, Spark crea automáticamente el objeto SparkContext para usted con el nombre sc
. Pero si está escribiendo su programa Python, debe hacer algo como
from pyspark import SparkContext
sc = SparkContext(appName = "test")
Cualquier configuración entraría en este objeto de contexto de chispa, como configurar la memoria del ejecutor o la cantidad de núcleo.
Estos parámetros también se pueden pasar desde el shell mientras se invoca, por ejemplo
./bin/spark-submit --class org.apache.spark.examples.SparkPi
--master yarn-cluster
--num-executors 3
--driver-memory 4g
--executor-memory 2g
--executor-cores 1
lib/spark-examples*.jar
10
Para pasar parámetros a pyspark use algo como esto
./bin/pyspark --num-executors 17 --executor-cores 5 --executor-memory 8G
El objeto SparkContext es el programa controlador. Este objeto coordina los procesos sobre el clúster en el que ejecutará su aplicación.
Cuando ejecuta PySpark shell, se crea automáticamente un objeto SparkContext predeterminado con la variable sc.
Si crea una aplicación independiente, deberá inicializar el objeto SparkContext en su secuencia de comandos como se muestra a continuación:
sc = SparkContext("local", "My App")
Donde el primer parámetro es la URL del clúster y el segundo parámetro es el nombre de su aplicación.
He escrito un artículo que repasa los conceptos básicos de PySpark y Apache que puede resultarle útil: https://programmathics.com/big-data/apache-spark/apache-installation-and-building-stand-alone-applications/
DESCARGO DE RESPONSABILIDAD: Soy el creador de ese sitio web.
Comentarios y calificaciones de la guía
Si entiendes que te ha resultado útil nuestro artículo, sería de mucha ayuda si lo compartieras con más entusiastas de la programación de esta forma nos ayudas a dar difusión a nuestra información.