Durante la cumbre de NYC AIAI, Joseph Nelson, CEO y cofundador de Roboflow, destacó un aspecto crítico pero a menudo pasado por alto en el ámbito de la inteligencia artificial: la visión. En un momento en que los avances en modelos de lenguaje acaparan los titulares, Nelson subrayó que la comprensión visual, es decir, cómo las máquinas interpretan el mundo físico, es igualmente esencial para construir sistemas inteligentes que operen en condiciones reales.
En su presentación, Nelson ilustró cómo la IA visual ya está transformando diversas industrias, desde la reactivación instantánea en Wimbledon hasta el control de calidad en fábricas de vehículos eléctricos. Explicó que Roboflow cuenta con una comunidad de un millón de desarrolladores, quienes están creando aplicaciones de IA visual a nivel de producción y proyectos de código abierto. Esto demuestra que la comprensión visual se está desplegando a gran escala.
Durante su intervención, delineó tres temas principales sobre la IA visual:
- Los casos de extremo en visión por computadora: Estas situaciones raras o impredecibles limitan la capacidad de los modelos para entender completamente el mundo real.
- Futuro de los modelos visuales: La cuestión clave es si un único modelo dominará o si el futuro radicará en una colección de modelos más pequeños, específicamente diseñados para tareas concretas.
- IA visual en tiempo real en el borde: Nelson enfatizó la importancia de los sistemas que operan en tiempo real y con datos propios, un elemento crítico para la implementación efectiva de la IA visual.
Nelson también observó que la visión es uno de los sentidos primarios del ser humano. A través de ejemplos prácticos, explicó cómo dar a los sistemas de software una percepción visual se traduce en la capacidad de responder preguntas concretas, como la cantidad de personas en una sala o la correcta fabricación de un conjunto de productos.
Roboflow se posiciona como un actor clave al ofrecer herramientas y plataformas que facilitan a las empresas la construcción y despliegue de IA visual. Nelson compartió que más de la mitad de las empresas Fortune 100 están utilizando Roboflow, particularmente en sectores que dependen de la precisión en el mundo físico.
Con una visión de futuro, Nelson destacó que el compromiso de Roboflow con el código abierto es esencial para avanzar en la comprensión visual. Roboflow tiene un paquete destacado llamado Supervision, destinado a ayudar a los desarrolladores a integrar detecciones en sistemas más amplios. Además, proporcionando una serie de herramientas de código abierto, la empresa busca simplificar el proceso completo de la IA visual.
En cuanto a la implementación, Roboflow respalda a empresas de gran escala, como Rivian, que han utilizado sus modelos para asegurar la calidad del producto. De igual manera, la empresa ha desarrollado avances significativos en aplicaciones como los quioscos de autoescaneo de Walmart, que utilizan cámaras para detectar automáticamente los productos en los carritos de los clientes.
Nelson concluyó su charla con un mensaje claro: para que la IA cumpla su promesa en el mundo real, debe ser capaz de ver y comprender ese mundo. La comprensión visual se presenta como una línea de acción crítica en el camino hacia la inteligencia visual, donde los desarrolladores tienen un papel fundamental en la evolución de esta tecnología.
vía: AI Accelerator Institute