El reto:
Modernización y mejora de la infraestructura de Machine Learning:
- No había suficiente visibilidad y monitoreo de las predicciones de producción de los modelos de Machine Learning.
- Sin infraestructura para pruebas A/B de modelos y parámetros de Machine Learning en producción.
- El proceso de implementación del modelo Machine Learning no estaba estandarizado ni bien documentado.
El compromiso:
Novacomp proporcionó un servicio de Staff Augmentation al equipo de Machine Learning y Data Science:
- Equipo de Novacomp se integró al equipo nativo de la compañía, participando en cada una de sus reuniones de stand-up, Sprint Planning y Sync.
- El equipo de Machine Learning colaboró con otros equipos de personal de Novacomp, como Data Engineering and Analytics.
- El equipo de Novacomp aportó experiencia en tecnologías de operaciones de Machine Learning y mejores prácticas, ayudando a diseñar e implementar una nueva arquitectura de Machine Learning de última generación utilizando FastAPI, Split.io, Weights and Biases, Docker y Apache Pulsar.
Solución:
Consultor BI Senior.
- Más de siete años de experiencia en la construcción de implementaciones de Datawarehousing.
- Conocimiento en modelo predictivos y marcos de trabajos ágiles.
- Azure Data Scientist.
- HarvardX R Data Scientist.
Beneficios:
- Implementar una arquitectura Machine Learning de microservicio que permitió implementaciones paralelas de modelos con fines de prueba A/B.
- Se desarrolló un sistema de monitoreo basado en eventos para predicciones de Machine Learning usando Apache Pulsar.
- Documentar el proceso de implementación, lo que permitió que el equipo de ciencia de datos implementara los cambios por su cuenta.
- Se mejoró la latencia de los servicios de Machine Learning mediante la refactorización del código antiguo y la realización de llamadas asincrónicas.
Tecnologías clave:
Python
Scikit Learn
XGBoost
Catboost
FastAPI
Flask
Split.io
Weights & Biases
Docker
Apache Pulsar
Feeds de datos / integración:
Fuentes de Python y Java Microservices Architecture, Snowflake Datawarehouse y Streaming basado en eventos con Apache Pulsar.
Se integra en un Sigma Dashboard creado por el equipo de análisis.