por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
Muestra una serie de ejemplos de compresión y descompresión de archivos en diferentes formatos tanto de representación como de compresión. Comprimir archivos Json val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() // Transformar a df... por Diego Calvo | Jul 19, 2018 | Big data
Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una... por Diego Calvo | Jul 13, 2018 | Big data, Scala, Spark
Leer RDDs Ejemplo de lectura de RDDs en Scala val rdd2 = sc.textFile(«hdfs:///mitabla_hdfs/») rdd2.collect() res: Array[String] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) Escribir RDDs Ejemplo de escritura de RDDs en Scala val rdd =... por Diego Calvo | Jul 6, 2018 | Big data, Hadoop
Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos... por Diego Calvo | Jul 6, 2018 | Big data, Hadoop
Definición de Solr Apache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON. Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico. Este motor de... por Diego Calvo | Jul 5, 2018 | Big data
Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema...