por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Scala es un lenguaje funcional, orientado a objetos y multiplataforma que corre actualmente sobre la Maquina Virtual de Java. Por otro lado destacar la gran ventaja de integrar sin problemas bibliotecas desarrolladas en otros lenguajes de programación. Una vez... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ejemplo: contar elementos – count() Cuenta el número de elementos de un RDD. val rdd = sc.parallelize(1 to 4) rdd.count res: Long = 4 Ejemplo: contar elementos por clave – ContarcountByKey() Cuanta en número de elementos de un RDD agrupados por... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ejemplo: mostrar elementos de RDD – collect() Convierte un RDD en un array para que pueda ser mostrado por pantalla var rdd = sc.parallelize(1 to 10, 2) rdd.collect() res: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ejemplo: reducir elementos de un RDD – reduce (función) Agregar los elementos del conjunto de datos segun la función indicada por parámetro. Esta función debe ser conmutativa y asociativa para que se pueda calcular correctamente en paralelo. val rdd =... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Guardar elementos de RDDs: SaveAsTextFile (ruta) Escribe los elementos del conjunto de datos como un archivo de texto (o conjunto de archivos) en un directorio determinado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
count() Nos devuelve la cantidad de elementos en el conjunto de datos. var rdd = sc.parallelize(1 to 100, 3) rdd.count() res: Long = 100 first() Nos devuelve el primer elemento del conjunto de datos. Similar a take(1). var rdd = sc.parallelize(1 to 100, 3)...