📣 Cohere estrena Aya Vision: Potente IA visual 100 % multimodal (Profesional)
Recientemente, Cohere presentó Aya Vision, antes conocido como Command A Vision, un modelo vision-language open‑weights para investigación, que ofrece visión, razonamiento y OCR precisos, todo vía API y compatible con infraestructuras de nube pública. Esta nueva versión está optimizada para despliegues empresariales accesibles y eficientes. (docs.cohere.com) Este modelo está disponible en versión de investigación bajo licencia CC BY‑NC, en pesos de 8 B o 32 B parámetros, y domina tareas como captioning, visual question answering, traducción y análisis de documentos, en 23 idiomas. ✅ Novedades clave y cómo se accede Aya Vision se puede usar de forma directa mediante la API de Cohere, y también desde estas plataformas cloud asociadas: Amazon Bedrock, Azure AI Foundry y Oracle Cloud (OCI Generative AI). Eso ofrece al ecosistema global soporte desde pruebas pequeñas hasta producción empresarial. Todo se factura por token procesado (input y output). - Precio de referencia para modelos Aya Expanse (8B, 32B): ~$0.50 por 1 millón de tokens de entrada y ~$1.50 por 1 millón de salida. Otros modelos Command A (solo texto) rondan los $1–3 por 1 M tokens. - Cohere ofrece automáticamente una trial API key, gratuita y limitada (por ejemplo, ~1 000 llamadas/mes y 5 imágenes/min), ideal para testing y demos conceptuales previos a contrato. 💪 ¿Qué hace especialmente bien Aya Vision? - Obtiene puntuaciones líderes en benchmarks como AyaVisionBench y m-WildVision, superando modelos abiertos como Qwen2.5‑VL, Gemini 1.5, Llama‑3.2 Vision o Pangea 7B, especialmente en documentos gráficos, OCR y diagramas. (https://huggingface.co/CohereLabs/aya-vision-32b?utm_source=chatgpt.com) - Puede manejar entradas mixtas de texto e imagen, recogidas en una sola petición (multimodal chat). - Escala fácilmente en infraestructuras estándar de nube pública, con contexto de hasta 128 000 tokens.