Spark SQL en Scala

Registrar tabla temporal a partir de dataframe Spark permite la posibilidad de definir «Spark SQL» para poder hacer consultas en formato SQL sobre datos en scala. val df = Seq(   («id1», 1,1),   («id1», 2,1),   («id1», 3,1),   («id1», 4,1),   («id2», 1,1),   («id2»,...

Añadir columna en Dataframe en Scala

Añadir columna de unos Se suele añadir una coñumna de unos para en posteriores operaciones de reduce realizar recuentos por agrupación. val df = Seq( («id1», 1), («id1», 2), («id1», 3), («id1», 4), («id2», 1), («id2», 2), («id2», 3), («id3», 1), («id3», 2)...

Calcular la media móvil en Listas Scala

Calcular la media móvil simple (3 periodos) Calcula la media móvil a partir de una ventana temporal de 3 periodos import org.apache.spark.mllib.rdd.RDDFunctions._ val a = List(1,5,6,7,9,10,12,14) val b = sc.parallelize(a)   .sliding(3)   .map(curSlice =>...

Filtrar DataFrame en Scala

Filtrar de datos con like Ejemplo que realiza un filtrado para seleccionar las personas que su apellido contiene «Garc» y cuya edad es menor de 30. val df = sc.parallelize(Seq( («Paco»,»Garcia»,24,24000,»2018-08-06 00:00:00″),...

Leer Json en Scala

Leer Json de cadena de texto Ejemplo simple de lectura de Json a partir de una cadena de texto val events = sc.parallelize( «»» [{«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}, {«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}] «»» :: Nil) val df =...