Recientemente, Cohere presentó Aya Vision, antes conocido como Command A Vision, un modelo vision-language open‑weights para investigación, que ofrece visión, razonamiento y OCR precisos, todo vía API y compatible con infraestructuras de nube pública. Esta nueva versión está optimizada para despliegues empresariales accesibles y eficientes. (docs.cohere.com) Este modelo está disponible en versión de investigación bajo licencia CC BY‑NC, en pesos de 8 B o 32 B parámetros, y domina tareas como captioning, visual question answering, traducción y análisis de documentos, en 23 idiomas.
✅ Novedades clave y cómo se accede
Aya Vision se puede usar de forma directa mediante la API de Cohere, y también desde estas plataformas cloud asociadas: Amazon Bedrock, Azure AI Foundry y Oracle Cloud (OCI Generative AI).
Eso ofrece al ecosistema global soporte desde pruebas pequeñas hasta producción empresarial. Todo se factura por token procesado (input y output).
- Precio de referencia para modelos Aya Expanse (8B, 32B): ~$0.50 por 1 millón de tokens de entrada y ~$1.50 por 1 millón de salida. Otros modelos Command A (solo texto) rondan los $1–3 por 1 M tokens.
- Cohere ofrece automáticamente una trial API key, gratuita y limitada (por ejemplo, ~1 000 llamadas/mes y 5 imágenes/min), ideal para testing y demos conceptuales previos a contrato.
💪 ¿Qué hace especialmente bien Aya Vision?
- Obtiene puntuaciones líderes en benchmarks como AyaVisionBench y m-WildVision, superando modelos abiertos como Qwen2.5‑VL, Gemini 1.5, Llama‑3.2 Vision o Pangea 7B, especialmente en documentos gráficos, OCR y diagramas. (https://huggingface.co/CohereLabs/aya-vision-32b?utm_source=chatgpt.com)
- Puede manejar entradas mixtas de texto e imagen, recogidas en una sola petición (multimodal chat).
- Escala fácilmente en infraestructuras estándar de nube pública, con contexto de hasta 128 000 tokens.
⚠️ Limitaciones reales que conviene revisar primero
- La licencia abierta (CC BY‑NC) permite research sólo; para uso comercial es necesario un contrato empresarial con Cohere o los provedores cloud.
- Aunque sobresale en documentos estructurados, su robustez frente a imágenes desenfocadas, ruido visual extremo o tipografías inusuales no está ampliamente validada.
- Las solicitudes son facturadas por similitudes y segmentación en multimodalidades, así que es crucial comprender el modelo de precios antes de un despliegue a escala.
- Requiere infraestructura GPU empresarial (AWS, Azure, OCI o VPC privada) para modos producción; no es un modelo para micro-hosting sin hardware adecuado.
🎯 Ideal para:
✅ Equipos que automatizan extracción de texto e insights visuales (OCR, informes, diagramas y gráficos)
✅ Proyectos que operan en 23 idiomas y necesitan visión + lenguaje combinados
✅ Desarrolladores o startups que quieren prototipar con trial API Key y luego escalar vía Cohere o cloud
✅ Instituciones de investigación que quieren un modelo de código abierto potente para tareas multimodales
❌ No recomendado para:
⛔ Uso comercial sin licencia (Aya Vision open-weights no es comercial por CC BY‑NC)
⛔ Procesamiento de imágenes con alto nivel de ruido, baja calidad o entornos adversos no estructurados
⛔ Equipos sin acceso a GPU cloud o sin acuerdos con AWS, Azure u Oracle
⛔ Casos sensibles donde la factura por millones de tokens puede disparar costes sin control
En resumen: Command A Vision / Aya Vision representa un modelo multimodal avanzado, eficiente en coste y global en alcance, ideal para empresas e investigadores que necesitan integración de texto e imagen con despliegue ágil. Pero su uso en producción comercial requiere validar licencias, infraestructura y calidad de entrada para asegurar resultados confiables.
Un saludo