Spark Archivos - Página 5 de 13

Calcular tiempo de ejecución en Scala

por Diego Calvo | Ago 23, 2018 | Big data, Scala, Spark

Para calcular el tiempo de ejecución basta con medir el tiempo inicial y final. Una vez obtenidos se realiza la resta entre ellos. Calculo de tiempo en nanosegundos val t_ini = System.nanoTime() val realizar_calculos = «Aquí se introduce el bloque que se desea medir...

Regresión lineal en Scala

por Diego Calvo | Ago 17, 2018 | Big data, Scala, Spark

En el siguiente post se muestran los pasos a seguir para recrear un ejemplo de regresión lineal en Scala. Definir el conjunto de datos Se define el conjunto de datos sobre el que aplicar el modelo import org.apache.spark.ml.linalg.Vectors val df =...

Conectar con Scala al HDFS de Hadoop

por Diego Calvo | Ago 10, 2018 | Big data, Hadoop, Spark

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List( (0, 60), (0, 56), (0, 54),...

DataFrames en Scala

por Diego Calvo | Jul 23, 2018 | Big data, Scala, Spark

Crear DataFrames Ejemplo de como crear un dataframe en Scala. import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}; val data = List( Row(«Paco»,»Garcia»,24,24000), Row(«Juan»,»Garcia»,26,27000), Row(«Lola»,»Martin»,29,31000),...

Dataset en Scala

por Diego Calvo | Jul 21, 2018 | Big data, Scala, Spark

Crear Datasets RDD simple a Dataset Ejemplo de creación de un dataset a partir de un RDD val rdd = sc.parallelize(List(1,2,3,4,5)) val ds = spark.createDataset(rdd) ds.show() +—–+ |value| +—–+ | 1 | | 2 | | 3 | | 4 | | 5 | +—–+...

Estructuras de datos en Scala

por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark

RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de...