por Diego Calvo | Nov 29, 2018 | Big data, Hadoop
Descargar entorno de trabajo Descargar la última versión de la máquina virtual CentOS (se utilizó la 6.7) y ejecutarla con virtualBox. Iniciar la máquina virtual con el usuario hadoop (sino existe crearlo) useradd hadoop passwd hadoop Instalación de máquina... por Diego Calvo | Nov 27, 2018 | Big data, Hadoop
Prerequisitos Tener instalado y configurado Hadoop. Descargar Hive Buscar la última versión de Hive compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.rediris.es/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz... por Diego Calvo | Nov 23, 2018 | Big data, Scala
Ejemplo de regresión lineal sobre segmentos de datos Realiza diferentes regresiones de datos tomando como grupo para segmentar la clave formado por el identificador y el tipo import org.apache.spark.ml.Pipeline import org.apache.spark.ml.feature.VectorAssembler import... por Diego Calvo | Oct 31, 2018 | Big data, Scala
Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Tener un Elastic con Searchguard instalado Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20... por Diego Calvo | Oct 28, 2018 | Big data, Spark
Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency>... por Diego Calvo | Oct 27, 2018 | Big data, Scala
Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency>...