Filtrado de RDD en Apache Spark en Python

Filtrado de datos numérico rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd_num = rdd.filter(lambda x : x < 3) print (rdd_num.collect()) [1, 1, 1, 1, 2, 2, 2] Filtrado de datos en textos rdd_text = sc.parallelize([‘Delete entry lines’, », »,...

Operaciones con una lista Apache Spark en Python

Visualizar una lista de RDD rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) print (rdd.collect()) [1, 1, 1, 1, 2, 2, 2, 3, 3, 4] Número de elementos del RDD print (rdd.count()) 10 Primer elemento print (rdd.first()) 1 Diccionario con la frecuencia de cada...