por Diego Calvo | Nov 23, 2017 | Python, Spark
Crear un RDD que multiplique por 2 sus valores y sumar los resultados from operator import add rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd2 = rdd.map(lambda x: x*2) tSum = rdd2.reduce(lambda x,y: x+y) print (tSum) 40 Crear un diccionario con elementos... por Diego Calvo | Nov 23, 2017 | Python, Spark
Unión de conjuntos group1 = sc.parallelize([‘A’,’B’,’C’,’D’]) group2 = sc.parallelize([‘C’,’D’,’E’,’F’]) rdd_aux = group1.union(group2) print (rdd_aux.collect())... por Diego Calvo | Nov 23, 2017 | Python, Spark
Filtrado de datos numérico rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd_num = rdd.filter(lambda x : x < 3) print (rdd_num.collect()) [1, 1, 1, 1, 2, 2, 2] Filtrado de datos en textos rdd_text = sc.parallelize([‘Delete entry lines’, », »,... por Diego Calvo | Nov 23, 2017 | Python, Spark
Visualizar un diccionario a = sc.parallelize([‘a’,’b’,’c’,’a’]) b = sc.parallelize([1,2,3,4]) rdd_kv = a.zip(b) print (rdd_kv.collect()) [(‘a’, 1), (‘b’, 2), (‘c’, 3),... por Diego Calvo | Nov 23, 2017 | Python, Spark
Visualizar una lista de RDD rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) print (rdd.collect()) [1, 1, 1, 1, 2, 2, 2, 3, 3, 4] Número de elementos del RDD print (rdd.count()) 10 Primer elemento print (rdd.first()) 1 Diccionario con la frecuencia de cada... por Diego Calvo | Nov 23, 2017 | Python, Spark
Lectura de ficheros externos en RDD rdd_file = sc.textFile(«/home/file.txt») Escritura de RDD en un directorio rdd_file.saveAsTextFile(«/dbfs/FileStore/tables/RDD_dir»)