por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Agrupar por clave – groupByKey() Agrupa los elementos de un RDD por clave. val words = sc.parallelize(List(«avion», «tren», «barco», «coche», «moto», «bici»), 2) val rdd_with_key = words.keyBy(_.length) // se usa la longitud de la palabra como clave... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Fracción de RDD – sample() Nos devuelve un RRD que representa una fracción de los datos val rdd1= sc.parallelize(1 to 10, 4) val rdd2 = rdd1.sample(false, 0.25, 1234) rdd2.collect() res: Array[Int] = Array(4, 7, 8) Selección aleatoria de elementos por... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Filtrar RDD – filter() Nos devuelve un RDD después de aplicar una función de filtro sobre el RDD original val rdd1 = sc.parallelize(List(«pescado azul», «cielo azul», «pescado blanco», «carne roja»)) val rdd2 = rdd1.filter(_.contains(«azul»)) rdd2.collect res:... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Mapear – map() Nos devuelve un RDD después de aplicar una función de transformación al RDD original. val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9)) val rdd2 = rdd1.map(_ * 2) rdd2.collect res: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18) Mapear 2... por Diego Calvo | Jun 24, 2018 | Big data, Scala, Spark
Union – union() Nos devuelve la unión de los dos RDDs val rdd1 = sc.parallelize(1 to 4, 1) val rdd2 = sc.parallelize(8 to 10, 1) rdd1.union(rdd2).collect() res: Array[Int] = Array(1, 2, 3, 4, 8, 9, 10) Unión por clave – join() Nos devuelve la unión...