Este equipo de expertos pasados varios días de trabajo y de juntar de datos, hallamos la respuesta, nuestro deseo es que resulte de utilidad para tu proyecto.
Ejemplo 1: paralelizar en el ejemplo de pyspark
----------------------------------------foreach.py---------------------------------------from pyspark import SparkContext
sc = SparkContext("local","ForEach app")
words = sc.parallelize (["scala","java","hadoop","spark","akka","spark vs hadoop","pyspark","pyspark and spark"])deff(x):print(x)
fore = words.foreach(f)----------------------------------------foreach.py---------------------------------------
Output:
scala
java
hadoop
spark
akka
spark vs hadoop
pyspark
pyspark and spark
Ejemplo 2: distribuir una colección de Python local para formar un RDD
# Distribute a local Python collection to form an RDD>>> sc.parallelize([0,2,3,4,6],5).glom().collect()[[0],[2],[3],[4],[6]]>>> sc.parallelize(xrange(0,6,2),5).glom().collect()[[],[0],[],[2],[4]]
Valoraciones y comentarios
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)