Filtrado de datos numérico
rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd_num = rdd.filter(lambda x : x < 3) print (rdd_num.collect())
[1, 1, 1, 1, 2, 2, 2]
Filtrado de datos en textos
rdd_text = sc.parallelize(['Delete entry lines', '', '', '', '','No more']) rdd_aux = rdd_text.filter(lambda x : x != '') print (rdd_aux.collect())
['Delete entry lines', 'No more']
Muy buenas, y si en un rdd alfa-numerico quisieramos filtrar solo los campos numericos??
Gracias