Google DeepMind의 MoR: GPU 비용 절감과 성능 향상을 위한 새로운 트랜스포머 아키텍처
🤖 AI 추천
대규모 언어 모델(LLM)의 잠재력을 활용하고자 하나, 막대한 GPU 비용과 컴퓨팅 자원 부담으로 어려움을 겪고 있는 AI 연구원, 머신러닝 엔지니어, 그리고 스타트업 개발자들에게 매우 유용한 정보입니다. 또한, 모델의 효율성을 극대화하고 싶은 백엔드 개발자 및 AI 엔지니어에게도 추천합니다.
🔖 주요 키워드
핵심 기술:
Google DeepMind에서 개발한 Mixture-of-Recursions(MoR)은 트랜스포머 모델의 파라미터 공유와 적응적 컴퓨팅의 장점을 결합한 새로운 아키텍처로, 토큰별로 동적으로 필요한 '생각하는 단계(thinking steps)'를 결정하여 GPU 비용 부담 없이 성능을 향상시킵니다.
기술적 세부사항:
* 재귀적 레이어 블록: 수십 개의 고유한 레이어 대신, 작은 레이어 스택(예: 3개)을 재귀적으로 재사용하여 파라미터 수를 대폭 줄입니다.
* 토큰 수준 라우팅: 경량 라우터가 토큰의 '난이도'에 따라 재귀 깊이를 동적으로 할당하며, 일부 토큰은 한 번, 다른 토큰은 여러 번 공유 레이어 블록을 통과합니다.
* 효율적인 KV 캐싱: 각 재귀 깊이에서 활성화된 토큰의 상태만 저장하여 메모리와 컴퓨팅 자원을 추가로 절약합니다.
* 라우팅 변형: '전문가 선택(expert-choice)'과 '토큰 선택(token-choice)' 방식이 탐구되었으며, '전문가 선택' 방식이 더 나은 성능을 보였습니다.
개발 임팩트:
* 성능: 절반 또는 1/3의 파라미터 수를 가진 MoR 모델이 일반 트랜스포머와 동등하거나 더 나은 성능을 보였습니다.
* 훈련 효율성: 동일한 컴퓨팅 예산으로 더 많은 토큰을 훈련하고 더 나은 점수를 달성할 수 있습니다.
* 추론 속도: 동적 깊이와 효율적인 배치 처리 덕분에 일반 트랜스포머 대비 추론 처리량이 최대 두 배 향상될 수 있습니다.
* 메모리 효율성: 파라미터 및 KV 캐싱 공유를 통해 더 긴 컨텍스트 처리 또는 더 큰 배치 크기 적용이 가능해집니다.
* 비용 효율성: LLM의 강력한 성능을 LLM 구축 비용 없이 활용할 수 있게 하여 스타트업, 연구자, 개인 개발자에게 이점을 제공합니다.
* 유연성: 추론 시 복잡한 작업에 대해 재훈련 없이 '생각하는 깊이'를 조절할 수 있습니다.
커뮤니티 반응:
코드가 공개되어 GitHub에서 확인할 수 있습니다.
톤앤매너:
MoR은 기존 트랜스포머 모델의 한계를 극복하고, 컴퓨팅 자원의 효율성을 극대화하며, 더 적은 비용으로 뛰어난 성능을 달성할 수 있는 혁신적인 접근 방식을 제시합니다. 이는 AI 모델 개발 및 배포에 있어 중요한 전환점이 될 수 있습니다.