개발 인공지능

V

velog

2025. 06. 15

Diffusion LLM vs Autoregressive LLM: 주요 차이점과 성능 비교

LLM - Diffusion LLM vs Autoregressive LLM (근데 이제 논문을 곁들인...)

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

AI/ML 개발자, 자연어 처리 연구자, 대규모 언어모델 설계자

핵심 요약

_Autoregressive LLM(ARM)은 단일 토큰 순차 생성 방식으로 병렬화 불가능_
_Diffusion LLM은 병렬 토큰 생성, 역순 작업 처리 가능_
_LLaDA 8B는 2.3T 토큰으로 LLaMA3 8B(15T) 대비 ARC-C 88.5% 성능_
_Mercury Coder는 초당 1,109토큰 생성으로 GPT-4o Mini 대비 19배 빠름_

섹션별 세부 요약

1. Autoregressive LLM(ARM)의 한계

_순차 생성 방식_ : P(x) = ∏ᵢ P(xᵢ | x₁, x₂, ..., xᵢ₋₁)
_병렬화 불가능_ : 앞선 토큰 생성 완료 후만 다음 토큰 생성 가능
_누적 오류 및 유연성 부족_ : 중간 토큰 수정이 어려움
_속도 저하_ : 긴 시퀀스 생성 시 성능 저하

2. Diffusion LLM의 메커니즘

_점진적 디노이징_ : 마스크 토큰 → 단계별 정제 → 최종 문장 생성
_병렬 처리 가능_ : generate_text_diffusion() 함수 예시
_SEDD(Score Entropy Discrete Diffusion) 모델_ : perplexity 25-75% 개선
_BD3-LMs_ : LM1B에서 28.23 perplexity 달성

3. 성능 비교 및 사례

_LLaDA 8B vs LLaMA3 8B_ : ARC-C 88.5% vs 82.4%
_Mercury Coder_ : HumanEval 88.0% 정확도, 초당 1,109토큰 생성
_Gemini Diffusion_ : 노이즈 단계적 정제로 출력 생성

4. Diffusion LLM의 장점

_병렬 처리 및 양방향 추론_
_역순 작업 처리 가능성_
_중간 오류 수정 기회_
_고성능 처리 앱에서 유리_

5. 현재 한계 및 개선 방향

_스케일링 법칙 미검증_ : 대부분 8B 이하 모델
_긴 시퀀스 생성 느림_
_수학 문제 해결 한계_
_SEDD, MDLM 등 연구 계속 진행_

결론

_Diffusion LLM은 병렬 처리, 역순 작업 처리, 고성능 처리에 유리_
_ARM은 복잡한 추론, 안정성, 예측 가능성에서 우위_
_SEDD, LLaDA 등 연구 통해 성능 개선 지속_
_실무 적용 시 작업 특성에 따라 모델 선택 필요_

Diffusion LLM Autoregressive LLM LLaDA Mercury GPT-4o Mini LLaMA3 Token Generation

목록으로 원문 보기