por Diego Calvo | Ago 17, 2018 | Big data, Scala, Spark
En el siguiente post se muestran los pasos a seguir para recrear un ejemplo de regresión lineal en Scala. Definir el conjunto de datos Se define el conjunto de datos sobre el que aplicar el modelo import org.apache.spark.ml.linalg.Vectors val df =... por Diego Calvo | Jul 23, 2018 | Big data, Scala, Spark
Crear DataFrames Ejemplo de como crear un dataframe en Scala. import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}; val data = List( Row(«Paco»,»Garcia»,24,24000), Row(«Juan»,»Garcia»,26,27000), Row(«Lola»,»Martin»,29,31000),... por Diego Calvo | Jul 21, 2018 | Big data, Scala, Spark
Crear Datasets RDD simple a Dataset Ejemplo de creación de un dataset a partir de un RDD val rdd = sc.parallelize(List(1,2,3,4,5)) val ds = spark.createDataset(rdd) ds.show() +—–+ |value| +—–+ | 1 | | 2 | | 3 | | 4 | | 5 | +—–+... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
Crear listas Ejemplos donde se definen las listas a utilizar en el resto de los apartados del post val list1 = 1::2::3::4::5::Nil val list2 = List(1,2,3,4,5) val list3 = List.range(1,6) val list4 = List.range(1,6,2) val list5 = List.fill(5)(1) val list6 =... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
Muestra una serie de ejemplos de compresión y descompresión de archivos en diferentes formatos tanto de representación como de compresión. Comprimir archivos Json val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() // Transformar a df...