por Diego Calvo | Jun 20, 2018 | Big data, Spark
Definición de Spark Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para... por Diego Calvo | Jun 20, 2018 | Big data
Map: Función que transforma un conjunto de datos a un número de pares clave/valor o key/value. Reduce: Función combina los valores (con la misma clave) en un mismo resultado. por Diego Calvo | Jun 20, 2018 | Big data, Hadoop
Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de... por Diego Calvo | Jun 20, 2018 | Big data, Spark
Componentes Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs.... por Diego Calvo | May 30, 2018 | Big data, Spark
Descarga Hortonworks Data Platform (HDP) Sandbox Virtualbox Instalación Instalar primeramente Virtual box y una vez instalado ir a la máquina virtual de hortonworks y ejecutarla, con ello aparecerá una instalación de esta máquina en virtual box. Configurar las... por Diego Calvo | Abr 26, 2018 | Big data, Python, Spark
Cargar CSV en Databricks Databricks Community Edition proporciona una interfaz gráfica para la carga de archivos. Este interfaz se acceder en DataBase > Create New Table. Una vez dentro se deben de indicar los campos: Upload to DBF: nombre del fichero a cargar....