por Diego Calvo | Ago 31, 2018 | Big data, Scala, Spark
Registrar tabla temporal a partir de dataframe Spark permite la posibilidad de definir «Spark SQL» para poder hacer consultas en formato SQL sobre datos en scala. val df = Seq( («id1», 1,1), («id1», 2,1), («id1», 3,1), («id1», 4,1), («id2», 1,1), («id2»,... por Diego Calvo | Ago 30, 2018 | Big data, Scala, Spark
Añadir columna de unos Se suele añadir una coñumna de unos para en posteriores operaciones de reduce realizar recuentos por agrupación. val df = Seq( («id1», 1), («id1», 2), («id1», 3), («id1», 4), («id2», 1), («id2», 2), («id2», 3), («id3», 1), («id3», 2)... por Diego Calvo | Ago 30, 2018 | Big data, Scala, Spark
Cálculo de media móvil en Dataframe Scala Calcula la media móvil a partir de una ventana temporal de 3 periodos import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ val df = sc.parallelize( List((«Sensor1», «2016-05-01», 50.00),... por Diego Calvo | Ago 30, 2018 | Big data, Scala, Spark
Calcular la media móvil simple (3 periodos) Calcula la media móvil a partir de una ventana temporal de 3 periodos import org.apache.spark.mllib.rdd.RDDFunctions._ val a = List(1,5,6,7,9,10,12,14) val b = sc.parallelize(a) .sliding(3) .map(curSlice =>... por Diego Calvo | Ago 27, 2018 | Big data, Scala, Spark
Filtrar de datos con like Ejemplo que realiza un filtrado para seleccionar las personas que su apellido contiene «Garc» y cuya edad es menor de 30. val df = sc.parallelize(Seq( («Paco»,»Garcia»,24,24000,»2018-08-06 00:00:00″),... por Diego Calvo | Ago 27, 2018 | Big data, Scala, Spark
Leer Json de cadena de texto Ejemplo simple de lectura de Json a partir de una cadena de texto val events = sc.parallelize( «»» [{«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}, {«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}] «»» :: Nil) val df =...