Apache Spark

Definición de Spark Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para...

Ejemplo simple MapReduce

Map: Función que transforma un conjunto de datos a un número de pares clave/valor o key/value. Reduce: Función combina los valores (con la misma clave) en un mismo resultado.

HDFS – Sistema de archivos distribuidos Hadoop

Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de...

Componentes de Apache Spark

Componentes   Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs....

Instalar Hortonworks (Virtual Box) para Spark

Descarga Hortonworks Data Platform (HDP) Sandbox Virtualbox Instalación Instalar primeramente Virtual box y una vez instalado ir a la máquina virtual de hortonworks y ejecutarla, con ello aparecerá una instalación de esta máquina en virtual box. Configurar las...

Leer CSV en Databricks en Spark

Cargar CSV en Databricks Databricks Community Edition proporciona una interfaz gráfica para la carga de archivos. Este interfaz se acceder en DataBase > Create New Table. Una vez dentro se deben de indicar los campos: Upload to DBF: nombre del fichero a cargar....