por Diego Calvo | Ago 27, 2018 | Big data, Scala, Spark
Leer Json de cadena de texto Ejemplo simple de lectura de Json a partir de una cadena de texto val events = sc.parallelize( «»» [{«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}, {«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}] «»» :: Nil) val df =... por Diego Calvo | Ago 10, 2018 | Big data, Hadoop, Spark
Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List( (0, 60), (0, 56), (0, 54),... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
Muestra una serie de ejemplos de compresión y descompresión de archivos en diferentes formatos tanto de representación como de compresión. Comprimir archivos Json val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() // Transformar a df... por Diego Calvo | Jul 6, 2018 | Big data, Hadoop
Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos... por Diego Calvo | Jun 20, 2018 | Big data, Hadoop
Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de...