Big data Archivos - Página 9 de 19

HDFS – Formato, compresión y descompresion en Scala

por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark

Muestra una serie de ejemplos de compresión y descompresión de archivos en diferentes formatos tanto de representación como de compresión. Comprimir archivos Json val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() // Transformar a df...

Formatos de ficheros Big Data

por Diego Calvo | Jul 19, 2018 | Big data

Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una...

Leer y escribir RDDs en Scala

por Diego Calvo | Jul 13, 2018 | Big data, Scala, Spark

Leer RDDs Ejemplo de lectura de RDDs en Scala val rdd2 = sc.textFile(«hdfs:///mitabla_hdfs/») rdd2.collect() res: Array[String] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) Escribir RDDs Ejemplo de escritura de RDDs en Scala val rdd =...

Apache Sqoop

por Diego Calvo | Jul 6, 2018 | Big data, Hadoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos...

Apache Solr

por Diego Calvo | Jul 6, 2018 | Big data, Hadoop

Definición de Solr Apache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON. Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico. Este motor de...

Big data – Herramientas de gestión del cluster

por Diego Calvo | Jul 5, 2018 | Big data

Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema...