Crear Datasets
RDD simple a Dataset
Ejemplo de creación de un dataset a partir de un RDD
val rdd = sc.parallelize(List(1,2,3,4,5)) val ds = spark.createDataset(rdd) ds.show()
+-----+ |value| +-----+ | 1 | | 2 | | 3 | | 4 | | 5 | +-----+
Clases a Dataset
Ejemplo de creación de un dataset a partir de una instancia de una clase que contiene datos.
import spark.implicits._ case class Persona(nombre: String, apellido: String, edad: Integer, salario: Integer) val persona1 = Persona("Paco","Garcia",24,24000) val persona2 = Persona("Juan","Garcia",26,27000) val persona3 = Persona("Lola","Martin",29,31000) val persona4 = Persona("Sara","Garcia",35,34000) val data = Seq(persona1,persona2,persona3,persona4) val ds = spark.createDataset(data) ds.show()
+------+--------+----+-------+ |nombre|apellido|edad|salario| +------+--------+----+-------+ | Paco| Garcia| 24| 24000| | Juan| Garcia| 26| 27000| | Lola| Martin| 29| 31000| | Sara| Garcia| 35| 34000| +------+--------+----+-------+
Transformar RDD a Dataset
Ejemplo de como pasar de un rdd a dataset de forma simple
val rdd = sc.parallelize(Seq(("Paco","Garcia",24,24000),("Juan","Garcia",26,27000),("Lola","Martin",29,31000),("Sara","Garcia",35,34000))) val ds = rdd.toDS() display(ds)
0 comentarios