por Diego Calvo | Jul 5, 2018 | Big data, Hadoop
ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica... por Diego Calvo | Jul 5, 2018 | Big data, Hadoop
Definición de Spark Streaming Apache Spark Streaming es una extensión de la API core de Spark, que da respuesta al procesamiento de datos en tiempo real de forma escalable, con alto rendimiento y tolerancia a fallos. Spark Sreaming fue desarrollado por la Universidad... por Diego Calvo | Jul 5, 2018 | Big data, Hadoop
Definición de Flink Apache Flink es un motor nativo de procesamiento de flujos de datos de baja latencia, que proporciona capacidades de distribución de datos comunicación y tolerancia a fallos. Flink fue desarrollado en Java y Scala por la Universidad Técnica de... por Diego Calvo | Jul 5, 2018 | Big data, Hadoop
Herramientas de seguridad Apache Ranger es un marco para habilitar, monitorear y administrar seguridad de datos integral en toda la plataforma Hadoop. Apache Sentry es un sistema para aplicar la autorización basada en funciones de granularidad fina a datos y metadatos... por Diego Calvo | Jul 5, 2018 | Big data, Hadoop
Los principales sistemas de almacenamiento de datos para ecosistemas Big Data son: HDFS: sistema de almacenamiento por excelencia de Hadoop. Apache HBase: sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre el HDFS y se suele utilizar para... por Diego Calvo | Jul 5, 2018 | Big data
Las herramientas de ingesta de datos para ecosistemas Big Data se clasifican en los siguientes bloques: Apache Nifi: herramienta ETL que se encarga de cargar datos de diferentes fuentes, los pasa por un flujo de procesos para su tratamiento, y los vuelca en otra...