por Diego Calvo | Ene 17, 2018 | Python, Spark
Ejemplo de concatenación de tuberías (pipelines) Muestra un ejemplo de como se van incluyendo elementos a una tubería de tal forma que finalmente todos confluyan en un mismo punto, al que llamáramos «features» from pyspark.ml import Pipeline from pyspark.ml.feature... por Adrian Atienza | Dic 24, 2017 | Python, Spark
Cargar datos # Cargar un dataframe df = sqlContext.read.format(«com.databricks.spark.csv»).options(delimiter=’\t’,header=’true’,inferschema=’true’).load(«/databricks-datasets/power-plant/data») display(df) AT V AP RH PE 14.96 41.76... por Diego Calvo | Nov 24, 2017 | Python, Spark
Datos json usados para el análisis %fs head /databricks-datasets/structured-streaming/events/file-0.json {“time”:1469501107,”action”:”Open”} {“time”:1469501147,”action”:”Open”} {“time”:1469501202,”action”:”Open”} {“time”:1469501219,”action”:”Open”}... por Diego Calvo | Nov 23, 2017 | Python, Spark
Ejemplo de función en Spark Python Muestra un ejemplo de función map con spark. def my_func(iterator): yield sum(iterator) list = range(1,10) parallel = sc.parallelize(list, 5) parallel.mapPartitions(my_func).collect() [1, 5, 9, 13,... por Diego Calvo | Nov 7, 2017 | Big data, Python, Spark
Preparación del entorno de desarrollo Entorno Python Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton) Configurar y cambiar el entorno virtual Importar paquetes: pip install...