por Diego Calvo | Jul 23, 2018 | Big data, Scala, Spark
Crear DataFrames Ejemplo de como crear un dataframe en Scala. import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}; val data = List( Row(«Paco»,»Garcia»,24,24000), Row(«Juan»,»Garcia»,26,27000), Row(«Lola»,»Martin»,29,31000),... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de... por Diego Calvo | Jun 20, 2018 | R
Eliminar columnas de un dataframe # Carga de datos a utilizar id <- c(1,2,3,4,5,6,7,8,9) valor <- c(7,1,12,4,5,16,71,38,19) categoria <- c(rep(«bajo»,3),rep(«medio»,3),rep(«alto»,3)) color <- c(rep(«rojo»,1),rep(«azul»,2), rep(«naranja»,2),rep(«morado»,1),... por Diego Calvo | Jun 20, 2018 | R
Ordenar dataframe por una columna # Cargar datos del dataframe id <- c(1,2,3,4,5,6,7,8,9) valor <- c(7,1,12,4,5,16,71,38,19) categoria <- c(rep(«bajo»,3),rep(«medio»,3),rep(«alto»,3)) datos <- data.frame(id=id, valor=valor, categoria=categoria) head(datos,... por Diego Calvo | Jun 19, 2018 | R
Unificar categorias sustituyendo por elementos de un conjunto # Ampliar el conjunto de datos datos$sexo <- c(«masculino»,»h», «hombre», «h»,»mujer»,»femenino», «mujer», «m») # Ver que valores toma la variable unique(datos$sexo) ## [1] «masculino» «h» «hombre»...