Filtrado de RDD en Apache Spark en Python

por | Nov 23, 2017 | Python, Spark | 1 Comentario

Filtrado de datos numérico

rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
rdd_num = rdd.filter(lambda x : x < 3)
print (rdd_num.collect())
[1, 1, 1, 1, 2, 2, 2]

Filtrado de datos en textos

rdd_text = sc.parallelize(['Delete entry lines', '', '', '', '','No more'])
rdd_aux = rdd_text.filter(lambda x : x != '')
print (rdd_aux.collect())
['Delete entry lines', 'No more']

1 Comentario

  1. Abraham

    Muy buenas, y si en un rdd alfa-numerico quisieramos filtrar solo los campos numericos??
    Gracias

    Responder

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *