Microsoft ha presentado una nueva funcionalidad multimodal para su modelo de lenguaje pequeño denominado Phi Silica, que está diseñado para mejorar la accesibilidad y la productividad en los dispositivos Copilot+ con procesadores Snapdragon y en futuros modelos de Intel y AMD. Esta innovación incluye capacidades de comprensión visual, lo que permite que el modelo no solo procese texto, sino que también interprete imágenes, generando descripciones que pueden ser utilizadas por tecnologías de asistencia como lectores de pantalla.
La actualización aprovecha un enfoque eficiente que evita la necesidad de implementar un modelo de visión dedicado, lo que es crucial para optimizar el uso de recursos como el espacio en disco y la memoria. En su lugar, la integración se realiza con componentes existentes, añadiendo solo un modelo proyector de 80 millones de parámetros. Esto asegura que el sistema funcione de manera efectiva sin poner en riesgo el rendimiento de otros modelos ya establecidos.
La funcionalidad multimodal permite generar descripciones de imágenes con diferentes niveles de detalle, lo que es especialmente útil para personas con discapacidades visuales. Este avance no solo se basa en modelos en la nube, sino que hace uso de capacidades locales, ofreciendo descripciones que son más rápidas y accesibles. En pruebas reales, un modelo de Phi Silica optimizado puede proporcionar descripciones cortas en alrededor de cuatro segundos y descripciones más detalladas en aproximadamente siete segundos.
Para evaluar la calidad de las descripciones generadas, Microsoft utiliza metodologías que comparan la eficacia de este nuevo enfoque con otros modelos de referencia, como Florence. Los resultados indican que las descripciones generadas por Phi Silica son más precisas y completas, ampliando la utilidad para quienes dependen de estas herramientas.
A medida que la funcionalidad se despliega, se espera que se añadan más idiomas para mejorar aún más la accesibilidad. Con esta evolución, Microsoft reafirma su compromiso de hacer la tecnología más inclusiva y accesible para todos los usuarios, especialmente para aquellos que enfrentan barreras en el uso de las tecnologías digitales.
vía: Microsoft Windows blog