por Diego Calvo | Ago 10, 2018 | Big data, Hadoop, Spark
Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List( (0, 60), (0, 56), (0, 54),... por Diego Calvo | Jul 24, 2018 | Big data, Hadoop
Ejemplos de NIFI Grabar en ficheros datos generados aleatoreamente. Transformar un fichero CSV en uno JSON. Grabar en ficheros datos generados aleatoreamente Genera secuencias de datos y las almacena en ficheros de una carpeta definida. Prerequisitos Tener... por Diego Calvo | Jul 23, 2018 | Big data, Scala, Spark
Crear DataFrames Ejemplo de como crear un dataframe en Scala. import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}; val data = List( Row(«Paco»,»Garcia»,24,24000), Row(«Juan»,»Garcia»,26,27000), Row(«Lola»,»Martin»,29,31000),... por Diego Calvo | Jul 21, 2018 | Big data, Scala, Spark
Crear Datasets RDD simple a Dataset Ejemplo de creación de un dataset a partir de un RDD val rdd = sc.parallelize(List(1,2,3,4,5)) val ds = spark.createDataset(rdd) ds.show() +—–+ |value| +—–+ | 1 | | 2 | | 3 | | 4 | | 5 | +—–+... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
Crear listas Ejemplos donde se definen las listas a utilizar en el resto de los apartados del post val list1 = 1::2::3::4::5::Nil val list2 = List(1,2,3,4,5) val list3 = List.range(1,6) val list4 = List.range(1,6,2) val list5 = List.fill(5)(1) val list6 =...