# 허깅페이스, 웹 작업 수행하는 AI 에이전트 오픈 소스 출시
## **핵심 요약**
- **오픈 컴퓨터 에이전트**는 리눅스 기반 가상 머신(VM) 위에서 실행되며, 파이어폭스 및 기타 응용 프로그램을 통해 웹 작업 자동화를 지원합니다.
- **사용 사례**: "구글 맵스를 통해 파리 본사를 찾아줘"와 같은 지시를 받아 프로그램 실행 및 단계별 작업 수행이 가능합니다.
- **제한 사항**: 복잡한 요청(예: 항공권 검색)은 정확도 저하 및 오류 발생 가능, CAPTCHA 테스트 통과 실패가 빈번합니다.
- **목적**: 최고 성능을 목표로 하지 않고, 오픈 소스 모델의 발전과 클라우드 실행 비용 절감을 보여주는 실험적 프로젝트입니다.
---
## **기술적 배경**
- **기술 스택**: 리눅스 기반 가상 머신(VM) + 비전 모델 기반 '그라운딩' 기능을 통한 UI 클릭 가능
- **작동 방식**:
- 사용자 지시를 받아 필요한 프로그램 실행 후 단계별 작업 수행
- 비전 모델을 통해 이미지 내 요소 위치 인식 및 클릭 수행
- **지원 환경**: 파이어폭스 브라우저 및 다양한 응용 프로그램
---
## **기능 및 활용 사례**
- **예시**:
- 지도 앱을 통해 위치 이동
- 웹사이트 내 특정 요소 클릭 (예: 버튼, 링크)
- **활용 분야**:
- 자동화된 웹 작업
- GUI 및 게임 상호작용
- 데이터 수집 및 처리
---
## **제한 사항**
- **성능 부족**: 복잡한 작업(예: 항공권 검색) 시 정확도 저하
- **보안/캡차 문제**: 웹사이트의 CAPTCHA 테스트 통과 실패 빈도
- **운영 시간**: 서비스 상태에 따라 몇초에서 몇분 간의 대기 시간 필요
---
## **관련 프로젝트 및 트렌드**
- **바이트댄스**: 시각-언어 모델(VLM) 기반 **UI-TARS-1.5** 출시 (GUI 및 게임 상호작용 지원)
- **MS**: 브라우저 에이전트 **컴퓨터 유즈** 출시
- **젠스파크**: '슈퍼 에이전트' 출시 (진정한 범용 에이전트로 평가)
- **트렌드**: AI 에이전트 기술의 생산성 향상 목표로 기업 및 오픈 소스 커뮤니티 가속화
---
## **결론**
- **목적**: 최고 성능보다 오픈 소스 모델의 발전 및 클라우드 비용 절감 가능성 보여주기
- **미래 전망**: AI 에이전트 기술의 오픈 소스 진영 확대 및 다중 분야 적용 가능성
- **요약**: 오픈 컴퓨터 에이전트는 자동화 작업의 효율성 향상과 기술적 혁신의 기반을 제공하는 실험적 프로젝트로, 기업 및 개발자 커뮤니티의 관심을 끌고 있습니다.