Big data Archivos - Página 2 de 19

Configurar clúster Hadoop. Instalación Pseudo-Distribuida (un solo nodo)

por Diego Calvo | Nov 29, 2018 | Big data, Hadoop

Descargar entorno de trabajo Descargar la última versión de la máquina virtual CentOS (se utilizó la 6.7) y ejecutarla con virtualBox. Iniciar la máquina virtual con el usuario hadoop (sino existe crearlo) useradd hadoop passwd hadoop Instalación de máquina...

Instalar y configurar de HIVE en Hadoop

por Diego Calvo | Nov 27, 2018 | Big data, Hadoop

Prerequisitos Tener instalado y configurado Hadoop. Descargar Hive Buscar la última versión de Hive compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.rediris.es/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz...

Regresión Lineal sobre segmentos de datos en Scala

por Diego Calvo | Nov 23, 2018 | Big data, Scala

Ejemplo de regresión lineal sobre segmentos de datos Realiza diferentes regresiones de datos tomando como grupo para segmentar la clave formado por el identificador y el tipo import org.apache.spark.ml.Pipeline import org.apache.spark.ml.feature.VectorAssembler import...

Escribir en Elastic remoto con Scala y seguridad Searchguard

por Diego Calvo | Oct 31, 2018 | Big data, Scala

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Tener un Elastic con Searchguard instalado Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20...

Escribir dataframe en Elastic con Scala

por Diego Calvo | Oct 28, 2018 | Big data, Spark

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency>...

Escribir datos en Elastic con Scala

por Diego Calvo | Oct 27, 2018 | Big data, Scala

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency>...