por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
count() Nos devuelve la cantidad de elementos en el conjunto de datos. var rdd = sc.parallelize(1 to 100, 3) rdd.count() res: Long = 100 first() Nos devuelve el primer elemento del conjunto de datos. Similar a take(1). var rdd = sc.parallelize(1 to 100, 3)... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Tuberias de particiones RDDs – spipe() Toma los datos RDD de cada una de las particiones y los envía a través de stdin a una linea de comandos val rdd = sc.parallelize(1 to 10, 2) rdd.pipe(«head -n 2»).collect() res: Array[String] = Array(1, 2, 6, 7) ... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Producto cartesiano – cartesian() Nos devuelve un RDD fruto del producto cartesiano de dos RDDs, donde cada elemento del primer RDD se une a cada elemento del segundo RDD. val x = sc.parallelize(List(1,2,3)) val y = sc.parallelize(List(«a»,»b»,»c»,»d»))... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ordenar elementos por clave – sortByKey() Nos devuelve un RDD ordenado por clave // Ejemplo ascendente val rdd = sc.parallelize(List((«tren», 1), («avion», 2), («barco», 4), («barco», 3))) rdd.sortByKey(true).collect() res: Array[(String, Int)] =... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Agrupar por clave – groupByKey() Agrupa los elementos de un RDD por clave. val words = sc.parallelize(List(«avion», «tren», «barco», «coche», «moto», «bici»), 2) val rdd_with_key = words.keyBy(_.length) // se usa la longitud de la palabra como clave... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Fracción de RDD – sample() Nos devuelve un RRD que representa una fracción de los datos val rdd1= sc.parallelize(1 to 10, 4) val rdd2 = rdd1.sample(false, 0.25, 1234) rdd2.collect() res: Array[Int] = Array(4, 7, 8) Selección aleatoria de elementos por...