Portfolio
La solución para Data Lake de Culqi en AWS
Categoría:
Tecnologías integradas:
Amazon S3, AWS EMR, AWS SageMaker Studio, AWS Directory Service, AWS Glue, AWS DMS, Amazon EKS, Amazon EC2, ALB (Application Load Balancer), Amazon Aurora, Amazon ECR, VPN, AWS Security, IAM, CloudWatch, EventBridge, CloudTrail, AWS Secrets Manager.
Data Lake de Culqi en AWS
La migración del data warehouse de Culqi a un Data Lake en AWS, gestionada por BigCheese, ha transformado su capacidad de análisis de datos, proporcionando una solución escalable, segura y flexible para enfrentar los retos de un entorno de datos en constante evolución.
El desafío
Culqi, una empresa líder en soluciones de pagos electrónicos, enfrentaba la necesidad de modernizar y escalar su infraestructura de datos. Tenían un data warehouse heredado que no respondía a las crecientes demandas de manejo de datos estructurados y no estructurados, análisis en tiempo real y la necesidad de acceder a diversas fuentes de información de manera eficiente.
El principal reto era migrar su data warehouse a una solución más escalable y flexible, que permitiera el manejo de grandes volúmenes de datos estructurados y no estructurados, así como integrarse con múltiples fuentes de datos. Todo esto debía realizarse sin afectar el rendimiento ni la continuidad del negocio.
AWS aplicados en este desafío
Amazon S3, AWS EMR, AWS SageMaker Studio, AWS Directory Service, AWS Glue, AWS DMS, Amazon EKS, Amazon EC2, ALB (Application Load Balancer), Amazon Aurora, Amazon ECR, VPN, AWS Security, IAM, CloudWatch, EventBridge, CloudTrail, AWS Secrets Manager.
Solución técnica
BigCheese se asoció con Culqi para diseñar e implementar un Data Lake en AWS, con las siguientes características y servicios clave:
- Diseño de un Data Lake Desacoplado:
- Se implementó un Data Lake desacoplado que permite la independencia de los componentes, lo cual facilita la escalabilidad individual de cada parte del sistema. Esto garantiza que Culqi pueda ajustar y escalar recursos sin depender del resto de la infraestructura.
- El diseño soporta tanto datos estructurados (bases de datos relacionales) como datos no estructurados (archivos, logs, etc.).
- Almacenamiento en AWS S3:
- Para el almacenamiento de los datos, se utilizó Amazon S3. Se estructuró en tres capas o más para optimizar el manejo y procesamiento de la información:
- Capa de Ingesta: Recibe datos en near real time desde múltiples fuentes.
- Capa de Procesamiento: Los datos ingresan a procesos de transformación mediante pipelines.
- Capa de Presentación: Donde los datos procesados están listos para su consumo.
- Para el almacenamiento de los datos, se utilizó Amazon S3. Se estructuró en tres capas o más para optimizar el manejo y procesamiento de la información:
- Procesamiento Escalable con AWS EMR:
- El procesamiento de datos se realiza mediante un cluster de AWS EMR, que permite escalar verticalmente para consumir recursos de cómputo bajo demanda. Esta flexibilidad es fundamental para responder a las cargas fluctuantes y picos de procesamiento en el análisis de grandes volúmenes de datos.
- Motor de Consulta: Trino:
- Para la consulta de los datos, se optó por Trino, un motor SQL que corre sobre el clúster de EMR y permite a Culqi acceder y cruzar información de múltiples bases de datos (como Google Sheets, MySQL y otras). Esto asegura una integración eficiente de diferentes fuentes de datos para análisis avanzado.
- Desarrollo de Pipelines y Ciencia de Datos con AWS SageMaker:
- Los equipos de ciencia de datos de Culqi utilizan AWS SageMaker Studio ejecutando sobre el mismo cluster de EMR, lo cual les permite desarrollar y gestionar pipelines de machine learning y análisis avanzados de manera ágil, sin necesidad de infraestructura adicional.
- Exploración de Datos con Metabase:
- Para la visualización y exploración de datos, Culqi utiliza Metabase, que corre sobre AWS, brindando a los equipos de negocio una herramienta de análisis rápida y accesible.
- Seguridad y Gobernanza con AWS Directory Service:
- La seguridad y el control de acceso son gestionados mediante el servicio gestionado de Active Directory de AWS, que asegura la gobernanza de los datos y el cumplimiento de las normativas de seguridad.
Los resultados
Gracias a la solución implementada por BigCheese, Culqi se ha beneficiado de:
94%
de reducción en el tiempo de ingesta de datos
Tuvimos un 94% de reducción de tiempo de ingesta. Antes se demoraba en tomar los datos 5 horas, ahora solo en 18 minutos ya tienes todos los datos actualizados.
89%
de mejora en tiempos de consulta
Mejoramos un 89% el tiempo de consulta. ¿Qué pasa? Antes había una espera de minutos, lo que hacía muy tedioso el análisis. Ahora pasamos a segundos el tiempo de consulta.
90%
más usuarios accediendo a los datos, pasando de 100 a 290 usuarios activos.
Ahora Culqi está consumiendo los datos y lo está consumiendo un 190% más.
RealTime
Mayor integración de fuentes de datos, permitiendo conexión en near real-time.
Una de las grandes diferencias que hay entre el Data Lake y el Data Warehouse es la cantidad de bases de datos a las cuales se puede integrar. En este caso, nosotros hicimos una mayor integración de fuente de datos, además, de aumentar estas fuentes, lo que hicimos fue mejorar el tiempo de consulta casi a real time.
100%
de mejora en la visibilidad del consumo de datos.
Si la gente no lo usa, si tú haces algo y no lo usan, es muy frustrante. Pero en este caso tenemos un 100% de mejora en la visibilidad del consumo de datos. Hay más de 20.000 consultas diarias a este Data Lake. La gente lo está usando, lo adoptó, está transformándose en Data Driven.
67%
de reducción en el Time-to-Market, acelerando la implementación de nuevos análisis y reportes estratégicos.
Ahora los productos salen un 67% más rápido que lo que salían antes.