Prerequisitos
- Java 6 o superior
- Interprete de Python 2.6 o superior
Instalación
Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla
wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz tar -xf spark-1.5.0-bin-hadoop2.6.tgz
Ejecución mediante interprete
Para ejecutarla se puede hacer mediante el interprete pyspark o cargando un fichero.py
./spark-1.5.0-bin-hadoop2.6/bin/pyspark from pyspark import SparkConf, SparkContext sc = SparkContext()
Ejecución directa
./spark-1.5.0-bin-hadoop2.6/bin/spark-submit fichero.py
Uso sin instalación
Se recomienda usar los servicios cloud de databricks, para ello nos daremos de alta de forma gratuita en su plataforma como usuarios de la versión “Community Edition”.
Para su utilización se debe:
- Subir o crear un fichero interpretable
Asignar un clúster para su ejecución, para ello pulsar sobre icono “detached” y creando un nuevo clúster. Se recomienda usar una version de Spark baja para asegurarnos la compatibilidad.
Librerías habituales
#! /bin/python from pyspark import SparkConf, SparkContext sc = SparkContext()
0 comentarios