Big data Archivos - Página 4 de 19

Ejecución distribuida Spark para Python

por Diego Calvo | Sep 13, 2018 | Big data, Python, Spark

Ejemplo «Hola mundo» Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(«Hola_Mundo»).getOrCreate() print(«Hola mundo») spark.stop() Nota: Al ser un lenguaje interpretado no...

Apache YARN

por Diego Calvo | Sep 12, 2018 | Big data

Definición de Yarn (Yet Another Resource Negociator) Yarn es un sistema operativo de datos y gestor de recursos distribuido, conocido también como Hadoop 2 ya que es la evolución de Hadoop Map-Reduce. Los cambios más significativos de Hadoop 2 sobre Hadoop 1 es que se...

Procesar datos en tiempo real (streaming) en Scala

por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en...

Unir dataframes en Scala

por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark

Ejemplo: Unir tablas Unir tablas que tenga el identificador comun val df_personas = Seq( (1,»Paco»,»Garcia»,24,24000), (2,»Juan»,»Garcia»,26,27000), (3,»Lola»,»Martin»,29,31000), (4,»Sara»,»Garcia»,35,34000) ).toDF(«id»,»nombre», «apellido»,»edad»,»salario»)...

Agrupar elementos de un dataframe en Scala

por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark

Ejemplo: Agrupar datos de forma simple Ejemplo donde se agrupa la tabla personas por apellido df.groupBy(«apellido»).count().show() +——–+—–+ |apellido|count| +——–+—–+ | Martin| 1| | Garcia| 3|...

Ordenar dataframe en Scala

por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark

Ejemplo: Ordenar datos simple Ejemplo donde se ordena la tabla personas por nombre df.sort(desc(«nombre»)).show() df.sort($»nombre».desc).show() df.orderBy($»nombre».desc).show() +——+——–+—-+——-+...