Captura
La procedencia de grandes volumenes de datos (big data) se puede categorizar en:
- Generados por las personas: Correos electrónicos, mensajería instantánea, redes sociales, encuestas, marketing electrónico, Web, sistema ERP, Hojas de cálculo,…
- Transacciones de datos: Facturación, llamadas, transacciones bancarias,…
- Máquina a máquina: Sensores, GPS,…
- Biométrica: Secuenciación de ADN,…
Transformación
El proceso transformación se encarga de extraer los datos en bruto de los datos mencionados en la captura, aplicarles una serie de transformaciones de limpieza y estructuración de la información y finalmente cargarlos la base de datos, a todo este proceso se le conoce con el nombre de proceso ETL (Extract Transform Load)
Principales herramientas ETL:
- Pentaho Data Integration (Spoon): se trata de una herramienta muy versátil de código abierto y fácil de usar. Ver ejemplos de uso de Data integration
- Talend Open Studio: herramienta open source.
- DataStage
- Integration Services (SSIS)
- Informatica Powercenter
Almacenamiento
Los sistemas de almacenamiento en big data son mucho más flexible, concurrente y permiten manipular volúmenes de datos de manera eficiente, por ello se decanta por tecnologías NoSQL.
Tipos de almacenamiento NoSQL
- Clave-Valor y Columnas: Alto rendimiento y escalabilidad. Ideales para datos no estructurados.
- Documento: Proporcionan flexibilidad. Ideales para datos semiestructurados.
- Grafo: Alto rendimiento en consultas de relaciones de proximidad entre datos, y no para ejecutar consultas globales. Ideales para datos muy interrelacionados.
Los datos almacenados en sistemas big data deben de estar distribuidos y los cálculos sobre los datos deben de realizarse minimizando las operaciones de red, una solución muy extendida es Hadoop Distributed File System HD-FS, es un sistema de archivos distribuido, escalable y portátil para el framework de cálculo distribuido Hadoop.
0 comentarios