LLM - Diffusion LLM vs Autoregressive LLM (근데 이제 논문을 곁들인...)
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
AI/ML 개발자, 자연어 처리 연구자, 대규모 언어모델 설계자
핵심 요약
- _Autoregressive LLM(ARM)은 단일 토큰 순차 생성 방식으로 병렬화 불가능_
- _Diffusion LLM은 병렬 토큰 생성, 역순 작업 처리 가능_
- _LLaDA 8B는 2.3T 토큰으로 LLaMA3 8B(15T) 대비 ARC-C 88.5% 성능_
- _Mercury Coder는 초당 1,109토큰 생성으로 GPT-4o Mini 대비 19배 빠름_
섹션별 세부 요약
1. Autoregressive LLM(ARM)의 한계
- _순차 생성 방식_ :
P(x) = ∏ᵢ P(xᵢ | x₁, x₂, ..., xᵢ₋₁)
- _병렬화 불가능_ : 앞선 토큰 생성 완료 후만 다음 토큰 생성 가능
- _누적 오류 및 유연성 부족_ : 중간 토큰 수정이 어려움
- _속도 저하_ : 긴 시퀀스 생성 시 성능 저하
2. Diffusion LLM의 메커니즘
- _점진적 디노이징_ : 마스크 토큰 → 단계별 정제 → 최종 문장 생성
- _병렬 처리 가능_ :
generate_text_diffusion()
함수 예시 - _SEDD(Score Entropy Discrete Diffusion) 모델_ : perplexity 25-75% 개선
- _BD3-LMs_ : LM1B에서 28.23 perplexity 달성
3. 성능 비교 및 사례
- _LLaDA 8B vs LLaMA3 8B_ : ARC-C 88.5% vs 82.4%
- _Mercury Coder_ : HumanEval 88.0% 정확도, 초당 1,109토큰 생성
- _Gemini Diffusion_ : 노이즈 단계적 정제로 출력 생성
4. Diffusion LLM의 장점
- _병렬 처리 및 양방향 추론_
- _역순 작업 처리 가능성_
- _중간 오류 수정 기회_
- _고성능 처리 앱에서 유리_
5. 현재 한계 및 개선 방향
- _스케일링 법칙 미검증_ : 대부분 8B 이하 모델
- _긴 시퀀스 생성 느림_
- _수학 문제 해결 한계_
- _SEDD, MDLM 등 연구 계속 진행_
결론
- _Diffusion LLM은 병렬 처리, 역순 작업 처리, 고성능 처리에 유리_
- _ARM은 복잡한 추론, 안정성, 예측 가능성에서 우위_
- _SEDD, LLaDA 등 연구 통해 성능 개선 지속_
- _실무 적용 시 작업 특성에 따라 모델 선택 필요_