Conectar con Scala al HDFS de Hadoop

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List(     (0, 60),     (0, 56),     (0, 54),...

Nifi ejemplos

Ejemplos de NIFI Grabar en ficheros datos generados aleatoreamente. Transformar un fichero CSV en uno JSON.   Grabar en ficheros datos generados aleatoreamente Genera secuencias de datos y las almacena en ficheros de una carpeta definida. Prerequisitos Tener...

DataFrames en Scala

Crear DataFrames Ejemplo de como crear un dataframe en Scala. import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}; val data = List( Row(«Paco»,»Garcia»,24,24000), Row(«Juan»,»Garcia»,26,27000), Row(«Lola»,»Martin»,29,31000),...

Dataset en Scala

Crear Datasets RDD simple a Dataset Ejemplo de creación de un dataset a partir de un RDD val rdd = sc.parallelize(List(1,2,3,4,5)) val ds = spark.createDataset(rdd) ds.show() +—–+ |value| +—–+ | 1 | | 2 | | 3 | | 4 | | 5 | +—–+...

Estructuras de datos en Scala

 RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de...

Listas en Scala

Crear listas Ejemplos donde se definen las listas a utilizar en el resto de los apartados del post val list1 = 1::2::3::4::5::Nil val list2 = List(1,2,3,4,5) val list3 = List.range(1,6) val list4 = List.range(1,6,2) val list5 = List.fill(5)(1) val list6 =...