Refact.ai Agent, SWE-bench Multimodal 및 Verified 벤치마크에서 선두 AI 에이전트 입증

📅 2025-06-26T22:26:20Z 👤 Oleg Klimov 🏷️ 개발

완성도:

0.9

🤖 AI 추천

이 콘텐츠는 AI 기반 코드 수정 및 디버깅 도구의 최신 성능을 확인하고 싶은 소프트웨어 개발자, AI 연구자 및 엔지니어에게 유용합니다. 특히 웹 프론트엔드 디버깅 및 크로스 플랫폼 개발에서의 AI 활용 가능성에 관심 있는 개발자에게 추천합니다.

🔖 주요 키워드

Refact.ai SWE-bench AI Agent 코드 수정 디버깅 멀티모달 자바스크립트 파이썬 Claude 4 Sonnet LLM

Refact.ai Agent, SWE-bench Multimodal 및 Verified 벤치마크에서 선두 AI 에이전트 입증

핵심 기술: Refact.ai Agent가 SWE-bench Multimodal 및 Verified 벤치마크에서 각각 35.59%와 74.40%의 해결률을 달성하며 AI 기반 코드 수정 및 디버깅 분야의 선두 주자임을 입증했습니다. 특히 멀티모달 벤치마크에서는 스크린샷 등 시각적 정보를 포함한 버그 수정 능력을, Verified 벤치마크에서는 Python 기반의 복잡한 버그 해결 능력을 보여주었습니다.

기술적 세부사항:
* SWE-bench Multimodal:
* 웹 라이브러리 및 프론트엔드 작업에 초점, 자바스크립트 환경에서의 실제 디버깅 시나리오를 반영합니다.
* 스크린샷, UI 목업, 다이어그램 등 시각적 맥락을 포함하는 버그 수정 능력을 평가합니다.
* Refact.ai Agent는 184/517 (35.59%)의 작업을 완전히 자율적으로 해결했습니다.
* sb-cli의 수정된 로컬 버전을 사용하여 단일 스레드 실행을 강제했으며, debug_script 또는 strategic_planning과 같은 추가 에이전트 도구를 사용하지 않았습니다.
* SWE-bench Verified:
* Python 중심의 벤치마크로, AI 에이전트 간의 pass@1 (단일 시도) 기준으로 최고 점수를 기록했습니다.
* Claude 4 Sonnet 모델 사용으로 74.40%의 점수를 달성하여 이전 Claude 3.7 Sonnet의 70.4%를 넘어섰습니다.
*
Refact.ai Agent의 작동 방식:
* 문제 탐색: cat(), search_symbol_definition(), search_pattern() 등의 도구를 사용하여 코드베이스를 이해하고 관련 코드를 찾습니다.
* 문제 재현: 기존 테스트를 실행하고 버그를 유발하는 스크립트를 작성하며, debug_script() 서브 에이전트(Claude 4 기반)를 사용하여 디버깅 및 코드 수정을 진행합니다.
* 수정 계획 및 적용: 디버깅 보고서를 기반으로 코드 변경사항을 직접 적용합니다. 이전에는 strategic_planning() 도구가 필요했으나, Claude 4 Sonnet으로 인해 모델 자체에서 처리 가능해졌습니다.
* 작업 검증: 수정 후 재현 스크립트 및 프로젝트 테스트를 다시 실행하여 수정 사항을 검증합니다.
* 안정성 향상 요소:
* debug_script() 서브 에이전트의 개선.
* 모델이 오류 발생 시 올바른 방향으로 안내하는 자동 가드레일 시스템 (예: 파일 열기 순서 준수, 구현 규칙 따르기).
* 파일 오버로드 방지를 위한 안전 장치 (폴더 내 파일 수 제한).
* 세션 종료 시 추가 가드레일 (프로젝트 변경 사항 직접 적용 및 기존 테스트 무결성 확인).
* search_pattern()의 컨텍스트 크기 증가.
* 핵심 모델*: Anthropic의 Claude 4 Sonnet을 핵심 모델로 채택하여 추론 및 코드 생성 능력을 향상시켰습니다.

개발 임팩트: Refact.ai Agent는 자율적인 버그 수정, 코드 이해력, 투명성, 개발 도구 통합 및 유연한 호스팅 옵션을 제공합니다. 이러한 벤치마크에서의 성공은 실제 개발 환경에서 AI 에이전트의 실질적인 가치와 신뢰성을 높이며, 향후 AI 기반 개발 도구의 발전을 예고합니다.

커뮤니티 반응: 원문 자체에 커뮤니티의 직접적인 반응이 언급되지는 않았지만, SWE-bench라는 공개 벤치마크를 활용하고 오픈소스 파이프라인을 공개하는 것은 개발 커뮤니티의 투명성과 재현성 중시 문화와 맥락을 같이 합니다.

📚 관련 자료

SWE-bench

이 저장소는 SWE-bench 벤치마크의 공식 구현체입니다. SWE-bench Multimodal 및 Verified 벤치마크에 대한 모든 설명, 데이터셋 및 CLI 도구의 기반이 되므로 Refact.ai Agent의 성능 평가에 직접적으로 관련됩니다.

📖 원문이 궁금하다면

원문 바로가기