Big data Archivos - Página 10 de 19

Big data – Herramientas de búsqueda de datos masivos

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica...

Spark Streaming (procesamiento por lotes y tiempo real)

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

Definición de Spark Streaming Apache Spark Streaming es una extensión de la API core de Spark, que da respuesta al procesamiento de datos en tiempo real de forma escalable, con alto rendimiento y tolerancia a fallos. Spark Sreaming fue desarrollado por la Universidad...

Apache Flink (procesamiento por lotes y tiempo real)

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

Definición de Flink Apache Flink es un motor nativo de procesamiento de flujos de datos de baja latencia, que proporciona capacidades de distribución de datos comunicación y tolerancia a fallos. Flink fue desarrollado en Java y Scala por la Universidad Técnica de...

Big data – Herramientas de seguridad, machine learning, etiquetado, …

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

Herramientas de seguridad Apache Ranger es un marco para habilitar, monitorear y administrar seguridad de datos integral en toda la plataforma Hadoop. Apache Sentry es un sistema para aplicar la autorización basada en funciones de granularidad fina a datos y metadatos...

Big data – Sistemas de almacenamiento de datos masivo

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

Los principales sistemas de almacenamiento de datos para ecosistemas Big Data son: HDFS: sistema de almacenamiento por excelencia de Hadoop. Apache HBase: sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre el HDFS y se suele utilizar para...

Herramientas de ingesta de datos – Big data

por Diego Calvo | Jul 5, 2018 | Big data

Las herramientas de ingesta de datos para ecosistemas Big Data se clasifican en los siguientes bloques: Apache Nifi: herramienta ETL que se encarga de cargar datos de diferentes fuentes, los pasa por un flujo de procesos para su tratamiento, y los vuelca en otra...