Spark Archivos - Página 7 de 13

Tutorial de Scala (ejemplos simples)

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

Scala es un lenguaje funcional, orientado a objetos y multiplataforma que corre actualmente sobre la Maquina Virtual de Java. Por otro lado destacar la gran ventaja de integrar sin problemas bibliotecas desarrolladas en otros lenguajes de programación. Una vez...

Ejemplos – Contar elementos de un RDD en Scala

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

Ejemplo: contar elementos – count() Cuenta el número de elementos de un RDD. val rdd = sc.parallelize(1 to 4) rdd.count res: Long = 4 Ejemplo: contar elementos por clave – ContarcountByKey() Cuanta en número de elementos de un RDD agrupados por...

Mostrar elementos de un RDD en Scala

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

Ejemplo: mostrar elementos de RDD – collect() Convierte un RDD en un array para que pueda ser mostrado por pantalla var rdd = sc.parallelize(1 to 10, 2) rdd.collect() res: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

Reducir elementos de un RDD en Scala

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

Ejemplo: reducir elementos de un RDD – reduce (función) Agregar los elementos del conjunto de datos segun la función indicada por parámetro. Esta función debe ser conmutativa y asociativa para que se pueda calcular correctamente en paralelo. val rdd =...

Guardar elementos de RDDs en Scala

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

Guardar elementos de RDDs: SaveAsTextFile (ruta) Escribe los elementos del conjunto de datos como un archivo de texto (o conjunto de archivos) en un directorio determinado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con...

Seleccionar partes de un RDD en Scala

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

count() Nos devuelve la cantidad de elementos en el conjunto de datos. var rdd = sc.parallelize(1 to 100, 3) rdd.count() res: Long = 100 first() Nos devuelve el primer elemento del conjunto de datos. Similar a take(1). var rdd = sc.parallelize(1 to 100, 3)...