Cohere ha lanzado al público su nuevo modelo de embeddings multimodal, Cohere Embed 4, que ya está disponible en Amazon SageMaker JumpStart. Este modelo se centra en la gestión de documentos empresariales multimodales y presenta notable capacidad para manejar múltiples idiomas, con avances significativos respecto a su predecesor, Embed 3.
Embed 4 es esencial para las empresas que lidian con datos principalmente no estructurados. Los formatos de los documentos empresariales suelen incluir complejos informes PDF, presentaciones y archivos que combinan texto e imágenes. Gracias a Embed 4, los empleados pueden buscar información en documentos que abarcan texto e imágenes, superando las limitaciones que estos formatos presentan al ser menos accesibles y buscables sin la tecnología adecuada.
Entre sus características destacadas, Embed 4 comprende más de 100 idiomas, lo cual permite a las empresas globales gestionar información en diversas lenguas sin barreras. Esta capacidad es particularmente útil en entornos de trabajo que requieren manejar documentos en varios idiomas, facilitando a los empleados el acceso a datos relevantes sin importar el idioma en el que estén redactados.
El modelo también destaca por su capacidad para procesar documentos extensos, permitiendo generar embeddings para textos de hasta 128,000 tokens, equivalentes a aproximadamente 200 páginas. Este avance reduce la necesidad de desarrollar lógicas personalizadas para dividir documentos largos, facilitando la gestión de informes financieros, manuales de productos y contratos legales.
Además, Embed 4 ha sido diseñado con mejoras para sectores regulados como finanzas y salud, adaptándose a las imperfecciones comunes en los documentos, como errores de ortografía o problemas de formato. Esto lo convierte en un recurso valioso para empresas que necesitan garantizar la integridad de sus datos mientras mantienen una alta eficacia operativa.
Las aplicaciones de Embed 4 son diversas. Por ejemplo, en el sector retail, permite realizar búsquedas que combinan texto e imágenes, lo que simplifica la recuperación de información visual y textual. Asimismo, este modelo puede potenciar aplicaciones de generación de contenido que requieran acceso a información interna, así como optimizar el uso de agentes de inteligencia artificial para reducir costes y errores humanos.
La integración de Embed 4 con Amazon SageMaker JumpStart permite a los desarrolladores utilizar mecanismos listos para usar en sus proyectos, lo que puede acelerar la implementación de soluciones de inteligencia artificial en las empresas. SageMaker ofrece un entorno gestionado que facilita a los científicos de datos y desarrolladores el diseño, entrenamiento y despliegue de modelos de aprendizaje automático de manera efectiva.
En definitiva, Cohere Embed 4 se presenta como una herramienta clave para las empresas que buscan optimizar la gestión de documentos multimodales y mejorar la accesibilidad a la información, rompiendo las barreras lingüísticas y aumentando la eficiencia operativa en múltiples sectores.
vía: AWS machine learning blog