apache Archivos - Página 3 de 4

Comparativa de Scala, Java, Python y R en Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data

Métricas Scala Java Python R Tipo Compilado Compilado Interpretado Interpretado Basado en JVM Si Si No No Farragoso (-) (+) (-) (-) Longitud del código (-) (+) (-) (-) Productividad (+) (-) (+) (+) Escalabilidad (+) (+) (-)...

Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Definición de Spark Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para...

Componentes de Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Componentes Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs....

Análisis clúster no Jerárquico K-means en Spark Python

por Adrian Atienza | Ene 17, 2018 | Python, Spark

from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler # Definir el ‘df’ Spark a utilizar df = spark.createDataFrame([ (‘line_1’, 100, 10, 1), (‘line_2’, 200, 20, 2), (‘line_3’, 300,...

Uso de Tuberias (Pipelines) en Apache Spark en Python

por Diego Calvo | Ene 17, 2018 | Python, Spark

Ejemplo de concatenación de tuberías (pipelines) Muestra un ejemplo de como se van incluyendo elementos a una tubería de tal forma que finalmente todos confluyan en un mismo punto, al que llamáramos «features» from pyspark.ml import Pipeline from pyspark.ml.feature...