Zumma AI Agent Challenge

Este ejercicio es muy similar al trabajo que estarás haciendo en Zumma. Este consiste en crear un pequeño AI Agent que lea la información de cualquier página web, encuentre la opción de facturar, vaya a la página de facturación y llene automáticamente el primer formulario encontrado con información aleatoria.

<aside> ⚠️

Cada página web en este challenge debe ser procesada de manera independiente como un flujo separado.

</aside>

Pasos

El agente debe de Navegar a las tres páginas web (procesos separados):
Extraer información con Computer Vision:
- Leer la información visible en la página
- Navegar la página y encontrar el boton de facturación
- Seguir las instrucciones de la página hasta llegar al formulario de facturación
Llenar el formulario con datos aleatorios:
- Completar los campos requeridos en el sitio web con valores generados aleatoriamente. Algunos valores son:
- Número de referencia
- Monto
- RFC
  - Información fiscal
  - Fecha
Enviar el formulario.
- Hacer clic en el botón “Siguiente” tras completar el formulario.

Requerimientos

La solución debe estar escrita en Python 3.12 o superior.
La ejecución debe realizarse dentro de un contenedor de Docker.
La navegación web debe realizarse con Playwright (documentación)
Se debe incluir documentación clara sobre cómo instalar, ejecutar y usar la solución.
No usar agentes de IA preconstruidos o bibliotecas que automaticen completamente la tarea (como browseruse o stagehand)

Entregables

Código fuente:

Subido a un repositorio público de GitHub o entregado en un archivo .zip.

Demostración en video:

Un video donde se muestre la ejecución de la solución llenando los formularios.
Puede estar en YouTube, dentro del .zip enviado, o en el repositorio de GitHub.

Instrucciones de uso y dependencias:

Incluir un README.md con detalles sobre cómo instalar, configurar y ejecutar el agente.

Extras / Nice to have

Usar instructor u otra herramienta similar para mejorar la estructura de los datos.
Manejo de dependencias con uv, pdm o poetry.
Habilidad del agente para reconocer errores y reaccionar de manera inteligente (por ejemplo, si el formulario falla o un botón no aparece).