Big data Archivos - Página 16 de 19

Unión e interseción de RDD en Scala

por Diego Calvo | Jun 24, 2018 | Big data, Scala, Spark

Union – union() Nos devuelve la unión de los dos RDDs val rdd1 = sc.parallelize(1 to 4, 1) val rdd2 = sc.parallelize(8 to 10, 1) rdd1.union(rdd2).collect() res: Array[Int] = Array(1, 2, 3, 4, 8, 9, 10) Unión por clave – join() Nos devuelve la unión...

Condicional y bucle en Scala

por Diego Calvo | Jun 22, 2018 | Big data, Scala, Spark

Condicional – IF Ejemplo de uso de condicional donde determina si una nota es aprobada o suspensa var x = 6 if( x >= 5 ){ println(«Aprobado») }else{ println(«Sustenso») } x: Int = 6 Aprobado Bucle – FOR Ejemplo de uso de bucle FOR en donde se...

Elasticsearch

por Diego Calvo | Jun 22, 2018 | Big data

Definición de Elasticsearch Elasticsearch es un servidor de búsqueda open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica...

Optimizar Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Broadcast Hash Join Si se quiere unir una tabla grande con una pequeña, lo más eficiente es enviar la tabla pequeña por broadcast a la memoria de los Worker, así evitaremos que la grande ser esté enviando constantemente por red cada vez que se la necesita. Si se...

Comparativa de Scala, Java, Python y R en Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data

Métricas Scala Java Python R Tipo Compilado Compilado Interpretado Interpretado Basado en JVM Si Si No No Farragoso (-) (+) (-) (-) Longitud del código (-) (+) (-) (-) Productividad (+) (-) (+) (+) Escalabilidad (+) (+) (-)...

Arquitectura Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Spark context SparkContext es el contexto básico de Spark, desde donde se crean el resto de variables. En la shell de Spark viene directamente instancia en la variable «sc», aunque en otros entornos hay que instanciarlo explícitamente. Problema que solo se puede...