Introducción al Uso de Ordenadores en Amazon Bedrock Agents

0
15
Getting started with computer use in Amazon Bedrock Agents

Anthropic ha presentado una nueva capacidad revolucionaria conocida como «uso de computadoras», que permite a sus modelos fundamentales interpretar visualmente las interfaces digitales. Esta innovadora funcionalidad posibilita que los modelos Claude de Anthropic puedan identificar el contenido de una pantalla, comprender el contexto de los elementos de la interfaz de usuario (UI) y reconocer acciones a realizar, como hacer clic en botones, escribir texto o navegar entre aplicaciones. Sin embargo, el modelo por sí solo no puede ejecutar estas acciones; requiere de una capa de orquestación para implementar las acciones de manera segura.

La integración del soporte para el uso de computadoras se encuentra disponible en Amazon Bedrock Agents, utilizando los modelos Claude 3.5 Sonnet V2 y Claude Sonnet 3.7. Esta alianza entre las capacidades de percepción visual de Anthropic y la gestión de Amazon Bedrock proporciona una herramienta segura y trazable para la automatización en flujos de trabajo.

Las organizaciones en diversos sectores enfrentan desafíos para automatizar tareas repetitivas que abarcan múltiples aplicaciones y sistemas. Tareas como el procesamiento de facturas o la actualización de registros de clientes a menudo requieren que los empleados transfieran información manualmente, un proceso que consume tiempo y es propenso a errores. Las aproximaciones tradicionales de automatización exigen integraciones de API personalizadas, lo que resulta en una carga significativa de desarrollo. Aquí es donde las capacidades de uso de computadoras cambian el paradigma al permitir que las máquinas perciban las interfaces existentes tal como lo haría un humano.

El ejemplo de un agente de uso de computadora demuestra la capa de orquestación crucial que transforma esta capacidad perceptual en automatización activa. Sin esta capa, el uso de computadora solo sería capaz de identificar acciones potenciales sin poder ejecutarlas. El demo de agente de uso de computadora proporciona un entorno de ejecución seguro, un registro completo de cada acción, capacidades de trazabilidad detalladas y simplificación en las pruebas y experimentaciones.

Al integrar la funcionalidad de uso de computadoras, Amazon Bedrock Agents puede automatizar tareas a través de acciones básicas de GUI y comandos incorporados de Linux. Por ejemplo, un agente podría tomar capturas de pantalla, crear y editar archivos de texto, y ejecutar comandos de Linux. Esto incluye herramientas para interactuar con interfaces de usuario, editar texto y ejecutar comandos de Bash.

El flujo de trabajo de uso de computadora incluye pasos como la creación de un agente, la descripción de sus interacciones, la adición de grupos de acciones soportados y la invocación del agente con una consulta de usuario que requiere herramientas de uso de computadoras. El agente usa las definiciones de herramientas a su disposición y decide qué acción realizar, proporcionando una respuesta que es procesada y ejecutada en un entorno seguro.

Este avance permite a los desarrolladores no solo automatizar tareas de forma más eficiente, sino también con una trazabilidad que asegura la optimización de los flujos de trabajo empresariales. Al utilizar Amazon Bedrock Agents, las organizaciones pueden afrontar procesos como el procesamiento de facturas o la documentación de recursos humanos de una manera significativamente más efectiva.

En conclusión, la integración de la capacidad de uso de computadoras con Amazon Bedrock Agents promete un enfoque transformador para los retos que enfrentan las organizaciones en el automatizar flujos de trabajo complejos. Esto se logra eliminando la necesidad de desarrollar APIs personalizadas para cada aplicación, al mismo tiempo que se facilita la implementación rápida de soluciones de automatización. Las posibilidades son vastas y prometedoras, llevando las operaciones empresariales a un nuevo nivel de eficiencia e innovación.
vía: AWS machine learning blog