Amazon ha presentado una innovadora solución denominada Amazon Nova Multimodal Embeddings, que permite procesar diversas modalidades de entrada, incluyendo texto, documentos, imágenes, videos y audio, a través de una arquitectura de modelo unificada. Esta tecnología está disponible a través de Amazon Bedrock y facilita la conversión de diferentes tipos de contenido en incrustaciones numéricas dentro de un mismo espacio vectorial. Esta unificación busca reducir la necesidad de mantener múltiples modelos de incrustación, lo que a menudo complica la arquitectura de sistemas y limita los casos de uso a un enfoque unidimensional.
En el ámbito del comercio electrónico, Amazon Nova Multimodal Embeddings aborda los desafíos del búsqueda cruzada de modalidades. Mientras que los métodos tradicionales de búsqueda se basan en la coincidencia de palabras clave o en incrustaciones textuales, estos a menudo fallan al procesar consultas visuales de manera efectiva, creando una desconexión entre la intención del usuario y las capacidades de recuperación. Las arquitecturas típicas separan el procesamiento visual y textual, lo que resulta en una pérdida de contexto y en una experiencia de usuario debilitada. Con las incrustaciones cruzadas, la solución permite mapear texto, imágenes, audio y video en un espacio vectorial compartido, donde los contenidos semánticamente similares se agrupan.
Un caso práctico demuestra cómo una búsqueda de un cliente que desea encontrar una camiseta vista en la televisión se simplifica mediante esta tecnología. El cliente puede subir una foto del artículo o describirlo en texto, y el sistema utiliza ambas entradas para buscar en catálogos de productos que contienen imágenes y descripciones. Amazon Nova Multimodal Embeddings gestiona diferentes tipos de consultas a través del mismo modelo, creando así nuevas capacidades de búsqueda y ventajas técnicas.
Además, esta solución utiliza un diseño de modelo único que permite una generación de incrustaciones consistente y simplificada para todos los tipos de contenido, lo que optimiza el rendimiento y reduce significativamente la complejidad del sistema. Con características de aprendizaje de representación de Matryoshka, el modelo almacena la información más importante en las primeras dimensiones, lo que permite mantener la precisión mientras se optimiza el espacio de almacenamiento.
En resumen, Amazon Nova Multimodal Embeddings resuelve el problema fundamental de la búsqueda cruzada de modalidades ofreciendo un sistema integral que opera eficientemente, independientemente de si los clientes suben imágenes o ingresan descripciones textuales. Esta tecnología marca un avance significativo para la búsqueda en comercio electrónico, el descubrimiento de contenido y aplicaciones donde los usuarios interactúan con múltiples tipos de contenido.
vía: AWS machine learning blog











