por Diego Calvo | Jun 27, 2018 | Spark
Definición de RDD RDD (Resilient Distributed Datasets o Conjuntos distribuidos y flexibles de datos), representa una colección inmutable y particionada de elementos sobre los que se puede operar de forma paralela. Un RDD se puede crear o bien paralelizando una... por Diego Calvo | Jun 27, 2018 | Big data
Definición de HBase HBase es un sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre el HDFS y se suele utilizar para distribuir conjuntos de datos. HBase no admite un lenguaje de consulta estructurado como SQL, a diferencia de los gestores... por Diego Calvo | Jun 27, 2018 | Big data, Hadoop, Spark
Definición de Zookeeper Zookeeper proporciona un servicio para la coordinación de procesos distribuidos altamente confiable, con el fin de dar solución a problemas de coordinación para grandes sistemas distribuidos. Servicios proporcionados por Zookeeper: Compartir... por Diego Calvo | Jun 27, 2018 | Big data, Spark
Definición de Kafka Apache Kafka es un sistema de intermediación de mensajes basado en el modelo publicador/suscriptor. Se considera un sistema persistente, escalable, replicado y tolerante a fallos. A estas características se añade la velocidad de lecturas y... por Diego Calvo | Jun 27, 2018 | Big data, Hadoop
Definición de Nifi Apache NiFi es una plataforma integrada de procesamiento y logística de datos en tiempo real, para automatizar el movimiento de datos entre diferentes sistemas de forma rápida, fácil y segura. Apache Hifi es una herramienta ETL que se encarga de...