por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Mapear – map() Nos devuelve un RDD después de aplicar una función de transformación al RDD original. val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9)) val rdd2 = rdd1.map(_ * 2) rdd2.collect res: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18) Mapear 2... por Diego Calvo | Jun 24, 2018 | Big data, Scala, Spark
Union – union() Nos devuelve la unión de los dos RDDs val rdd1 = sc.parallelize(1 to 4, 1) val rdd2 = sc.parallelize(8 to 10, 1) rdd1.union(rdd2).collect() res: Array[Int] = Array(1, 2, 3, 4, 8, 9, 10) Unión por clave – join() Nos devuelve la unión... por Diego Calvo | Jun 22, 2018 | Big data, Scala, Spark
Condicional – IF Ejemplo de uso de condicional donde determina si una nota es aprobada o suspensa var x = 6 if( x >= 5 ){ println(«Aprobado») }else{ println(«Sustenso») } x: Int = 6 Aprobado Bucle – FOR Ejemplo de uso de bucle FOR en donde se... por Diego Calvo | Jun 20, 2018 | Big data, Spark
Broadcast Hash Join Si se quiere unir una tabla grande con una pequeña, lo más eficiente es enviar la tabla pequeña por broadcast a la memoria de los Worker, así evitaremos que la grande ser esté enviando constantemente por red cada vez que se la necesita. Si se... por Diego Calvo | Jun 20, 2018 | Big data, Spark
Spark context SparkContext es el contexto básico de Spark, desde donde se crean el resto de variables. En la shell de Spark viene directamente instancia en la variable «sc», aunque en otros entornos hay que instanciarlo explícitamente. Problema que solo se puede... por Diego Calvo | Jun 20, 2018 | Big data, Spark
Definición de Spark Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para...