Big data Archivos - Página 6 de 19

Agrupar elementos con SQL Spark en Scala

por Diego Calvo | Sep 3, 2018 | Big data, Scala, Spark

Ejemplo: Agrupar elementos Contar el número de personas que comparten el mismo apellido. val df = Seq( («Paco»,»Garcia»,24,24000), («Juan»,»Garcia»,26,27000), («Lola»,»Martin»,29,31000), («Sara»,»Garcia»,35,34000) ).toDF(«nombre», «apellido»,»edad»,»salario»)...

Mi primera aplicacion Apache Spark en Scala con Maven en Intelligent Idea

por Fernando Campos | Ago 31, 2018 | Big data, Scala, Spark

Este post tiene como objetivo ayudar al lector a crear una simple aplicación Spark. Para ello, es necesario configurar bien una serie de herramientas informáticas que faciliten el desarrollo, las pruebas y el empaquetado. Prerequisitos En esta sección se van a definir...

Selecionar y filtrar con SQL Spark en Scala

por Diego Calvo | Ago 31, 2018 | Big data, Scala, Spark

Ejemplo: Contar datos Contar las personas que sean mayores de 30 años val df = Seq( («Paco»,»Garcia»,24,24000), («Juan»,»Garcia»,26,27000), («Lola»,»Martin»,29,31000), («Sara»,»Garcia»,35,34000) ).toDF(«nombre», «apellido»,»edad»,»salario»)...

Spark SQL en Scala

por Diego Calvo | Ago 31, 2018 | Big data, Scala, Spark

Registrar tabla temporal a partir de dataframe Spark permite la posibilidad de definir «Spark SQL» para poder hacer consultas en formato SQL sobre datos en scala. val df = Seq( («id1», 1,1), («id1», 2,1), («id1», 3,1), («id1», 4,1), («id2», 1,1), («id2»,...

Añadir columna en Dataframe en Scala

por Diego Calvo | Ago 30, 2018 | Big data, Scala, Spark

Añadir columna de unos Se suele añadir una coñumna de unos para en posteriores operaciones de reduce realizar recuentos por agrupación. val df = Seq( («id1», 1), («id1», 2), («id1», 3), («id1», 4), («id2», 1), («id2», 2), («id2», 3), («id3», 1), («id3», 2)...

Cálculos sobre ventana temporal en Dataframe Scala

por Diego Calvo | Ago 30, 2018 | Big data, Scala, Spark

Cálculo de media móvil en Dataframe Scala Calcula la media móvil a partir de una ventana temporal de 3 periodos import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ val df = sc.parallelize( List((«Sensor1», «2016-05-01», 50.00),...