Spark Archivos - Página 12 de 13

Operaciones Map/Reduce con RDDs Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Crear un RDD que multiplique por 2 sus valores y sumar los resultados from operator import add rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd2 = rdd.map(lambda x: x*2) tSum = rdd2.reduce(lambda x,y: x+y) print (tSum) 40 Crear un diccionario con elementos...

Operaciones con conjuntos de RDDs Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Unión de conjuntos group1 = sc.parallelize([‘A’,’B’,’C’,’D’]) group2 = sc.parallelize([‘C’,’D’,’E’,’F’]) rdd_aux = group1.union(group2) print (rdd_aux.collect())...

Filtrado de RDD en Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Filtrado de datos numérico rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd_num = rdd.filter(lambda x : x < 3) print (rdd_num.collect()) [1, 1, 1, 1, 2, 2, 2] Filtrado de datos en textos rdd_text = sc.parallelize([‘Delete entry lines’, », »,...

Operaciones con diccionarios en Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Visualizar un diccionario a = sc.parallelize([‘a’,’b’,’c’,’a’]) b = sc.parallelize([1,2,3,4]) rdd_kv = a.zip(b) print (rdd_kv.collect()) [(‘a’, 1), (‘b’, 2), (‘c’, 3),...

Operaciones con una lista Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Visualizar una lista de RDD rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) print (rdd.collect()) [1, 1, 1, 1, 2, 2, 2, 3, 3, 4] Número de elementos del RDD print (rdd.count()) 10 Primer elemento print (rdd.first()) 1 Diccionario con la frecuencia de cada...

Lectura y escritura de ficheros Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Lectura de ficheros externos en RDD rdd_file = sc.textFile(«/home/file.txt») Escritura de RDD en un directorio rdd_file.saveAsTextFile(«/dbfs/FileStore/tables/RDD_dir»)