삼성, ANSE 기술로 비디오 생성 품질 향상

삼성, 비디오 생성 모델 품질 높이는 ‘ANSE’ 기술 공개…"노이즈 시드 선택이 핵심"

카테고리

데이터 과학/AI

서브카테고리

인공지능

대상자

데이터 과학자, AI 연구자, 비디오 생성 모델 개발자

핵심 요약

  • ANSE(Active Noise Selection for Generation) 기술은 BANSA(Bayesian Active Noise Selection via Attention) 알고리즘을 통해 노이즈 시드 선택 최적화로 비디오 생성 품질을 개선
  • CogVideoX-2B 모델에서 VBench 점수 0.63점 상승의미 일치도 +1.23점 향상
  • BANSA 점수 계산을 통해 10개 후보 노이즈 시드 중 최적 시드 선택 가능, 추론 시간 증가 8.68%~13.78%에 불과

섹션별 세부 요약

1. 기술 개요 및 문제점

  • 확산 모델의 한계: 동일한 프롬프트라도 랜덤 노이즈 시드에 따라 생성 결과가 크게 달라짐
  • 노이즈 초기화 과정에서 모델 불확실성생성 품질에 직접적인 영향을 미침
  • T2V(TexT-to-Video) 모델영상 품질의미 일치를 동시에 달성해야 하는 기술로 주목받음

2. BANSA 기술 설명

  • BANSA어텐션 맵을 기반으로 모델의 불확실성 측정 후 최적 노이즈 시드를 선택
  • 베르누이 마스킹(Bernoulli-masked attention) 기법을 통해 다수 노이즈 시드의 어텐션 반응을 빠르게 분석
  • CogVideoX-2B 모델의 14번째 레이어, CogVideoX-5B 모델의 19번째 레이어의 어텐션 맵이 불확실성과 0.7 이상의 상관관계를 가짐

3. 성능 평가 결과

  • CogVideoX-2B 모델: VBench 점수 81.03 → 81.66, 의미 일치도 +1.23점 향상
  • CogVideoX-5B 모델: 81.52 → 81.71 상승, 추론 시간 증가 13.78%
  • 정성적 평가에서 ‘피아노를 치는 코알라’, ‘폭발하는 장면’ 등에서 자연스러운 움직임현실감 있는 영상 생성 가능

4. BANSA의 장단점 및 향후 방향

  • BANSA모델 재학습 없이 품질 개선 가능, 10번 반복 시 가장 안정적인 성능 기록
  • BANSA 점수가 높은 시드 선택비디오 품질 저하 발생, 점수와 생성 품질의 상관관계 입증
  • 향후 정보 이론 기반 분석능동 학습(active learning) 기법 결합으로 품질 향상 목표

결론

  • ANSE 기술BANSA 알고리즘을 통해 노이즈 시드 선택 최적화비디오 생성 품질 향상
  • CogVideoX 시리즈 모델에서 성능 개선추론 효율성 유지
  • 향후 정보 이론능동 학습 기법 결합으로 더 높은 안정성 달성 예정