por Diego Calvo | Jun 20, 2018 | Big data
Métricas Scala Java Python R Tipo Compilado Compilado Interpretado Interpretado Basado en JVM Si Si No No Farragoso (-) (+) (-) (-) Longitud del código (-) (+) (-) (-) Productividad (+) (-) (+) (+) Escalabilidad (+) (+) (-)... por Diego Calvo | Jun 20, 2018 | Big data, Spark
Definición de Spark Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para... por Diego Calvo | Jun 20, 2018 | Big data, Spark
Componentes Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs.... por Adrian Atienza | Ene 17, 2018 | Python, Spark
from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler # Definir el ‘df’ Spark a utilizar df = spark.createDataFrame([ (‘line_1’, 100, 10, 1), (‘line_2’, 200, 20, 2), (‘line_3’, 300,... por Diego Calvo | Ene 17, 2018 | Python, Spark
Ejemplo de concatenación de tuberías (pipelines) Muestra un ejemplo de como se van incluyendo elementos a una tubería de tal forma que finalmente todos confluyan en un mismo punto, al que llamáramos «features» from pyspark.ml import Pipeline from pyspark.ml.feature...