count()
Nos devuelve la cantidad de elementos en el conjunto de datos.
var rdd = sc.parallelize(1 to 100, 3) rdd.count()
res: Long = 100
first()
Nos devuelve el primer elemento del conjunto de datos. Similar a take(1).
var rdd = sc.parallelize(1 to 100, 3) rdd.first()
res: Int = 1
max()
Nos devuelve el elemento mayor del RDD
var rdd = sc.parallelize(1 to 100, 3) rdd.max()
res: Int = 100
Nota: también existen las funciones min, mean, variance, stdev, …
take(num)
Nos devuelve un array con los primeros n elementos del conjunto de datos.
var rdd = sc.parallelize(1 to 100, 3) rdd.take(5)
res: Array[Int] = Array(1, 2, 3, 4, 5)
takeSample (con_remplazamiento, num, [semilla])
Nos devuelve un array con una muestra aleatoria de n elementos del conjunto de datos, con o sin reemplazo, opcionalmente especificando previamente. También se le puede indicar la semilla de generador de números aleatorios.
var rdd = sc.parallelize(1 to 100, 3) rdd.takeSample(false,5, 1234)
res: Array[Int] = Array(36, 35, 83, 49, 15)
takeOrdered (n, [orden])
Nos devuelve los n primeros elementos del RDD utilizando su orden natural o un comparador personalizado.
var rdd = sc.parallelize(1 to 100, 3) rdd.takeOrdered(5)
res: Array[Int] = Array(1, 2, 3, 4, 5)
0 comentarios