삼성, 비디오 생성 모델 품질 높이는 ‘ANSE’ 기술 공개…"노이즈 시드 선택이 핵심"
카테고리
데이터 과학/AI
서브카테고리
인공지능
대상자
데이터 과학자, AI 연구자, 비디오 생성 모델 개발자
핵심 요약
- ANSE(Active Noise Selection for Generation) 기술은 BANSA(Bayesian Active Noise Selection via Attention) 알고리즘을 통해 노이즈 시드 선택 최적화로 비디오 생성 품질을 개선
- CogVideoX-2B 모델에서 VBench 점수 0.63점 상승 및 의미 일치도 +1.23점 향상
- BANSA 점수 계산을 통해 10개 후보 노이즈 시드 중 최적 시드 선택 가능, 추론 시간 증가 8.68%~13.78%에 불과
섹션별 세부 요약
1. 기술 개요 및 문제점
- 확산 모델의 한계: 동일한 프롬프트라도 랜덤 노이즈 시드에 따라 생성 결과가 크게 달라짐
- 노이즈 초기화 과정에서 모델 불확실성이 생성 품질에 직접적인 영향을 미침
- T2V(TexT-to-Video) 모델은 영상 품질과 의미 일치를 동시에 달성해야 하는 기술로 주목받음
2. BANSA 기술 설명
- BANSA는 어텐션 맵을 기반으로 모델의 불확실성 측정 후 최적 노이즈 시드를 선택
- 베르누이 마스킹(Bernoulli-masked attention) 기법을 통해 다수 노이즈 시드의 어텐션 반응을 빠르게 분석
- CogVideoX-2B 모델의 14번째 레이어, CogVideoX-5B 모델의 19번째 레이어의 어텐션 맵이 불확실성과 0.7 이상의 상관관계를 가짐
3. 성능 평가 결과
- CogVideoX-2B 모델: VBench 점수 81.03 → 81.66, 의미 일치도 +1.23점 향상
- CogVideoX-5B 모델: 81.52 → 81.71 상승, 추론 시간 증가 13.78%
- 정성적 평가에서 ‘피아노를 치는 코알라’, ‘폭발하는 장면’ 등에서 자연스러운 움직임 및 현실감 있는 영상 생성 가능
4. BANSA의 장단점 및 향후 방향
- BANSA는 모델 재학습 없이 품질 개선 가능, 10번 반복 시 가장 안정적인 성능 기록
- BANSA 점수가 높은 시드 선택 시 비디오 품질 저하 발생, 점수와 생성 품질의 상관관계 입증
- 향후 정보 이론 기반 분석 및 능동 학습(active learning) 기법 결합으로 품질 향상 목표
결론
- ANSE 기술은 BANSA 알고리즘을 통해 노이즈 시드 선택 최적화로 비디오 생성 품질 향상
- CogVideoX 시리즈 모델에서 성능 개선 및 추론 효율성 유지
- 향후 정보 이론과 능동 학습 기법 결합으로 더 높은 안정성 달성 예정