Creación a partir de colecciones Python
lista = ['uno','dos','dos','tres','cuatro']
listardd = sc.parallelize(lista)
listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD
print(listardd.collect()) # Visualizar la colección RDD
['uno', 'dos', 'dos', 'tres', 'cuatro']
Creación a partir de diccionarios
dicRDD = sc.parallelize([("autor","Fernando de Rojas"), ("titulo","La celestina"),("anio",1499)]) # Importantes los corchetes []
print(dicRDD.collect()) # Visualizar la colección RDD
[('autor', 'Fernando de Rojas'), ('titulo', 'La celestina'), ('anio', 1499)]
Creación a partir de diccionarios 2
a = sc.parallelize(['a','b','c','a'])
b = sc.parallelize([1,2,3,4])
rdd_kv = a.zip(b)
print rdd_kv.collect()
[('a', 1), ('b', 2), ('c', 3), ('a', 4)]
0 comentarios