KAIST, 텍스트-이미지 생성 모델 특징 강화하는 'C3' 접근법 공개
카테고리
데이터 과학/AI
서브카테고리
인공지능, 머신러닝, 데이터 분석
대상자
AI 연구자, 딥러닝 모델 개발자, 생성형 AI에 관심 있는 기술자
핵심 요약
- C3(Creative Control through Contrastive Compression) 접근법은 추가 학습 없이 생성 모델의 창의성을 강화함.
- 낮은 주파수 영역 증폭을 통해 유용성과 독창성을 동시에 고려한 이미지 생성 가능.
- SDXL-터보 모델에서 모드 붕괴 문제를 완화하고 이미지 다양성을 증가시킴.
섹션별 세부 요약
1. 개요 및 연구 배경
- KAIST와 네이버 AI 연구소가 공동으로 C3 접근법을 개발함.
- 기존 텍스트-이미지 생성 모델(예: 스태이블 디퓨전)에서 '창의적' 프롬프트 사용 시 원하는 결과물을 얻기 어려웠음.
- C3는 추가 학습 없이 생성 모델의 내부 특징 맵을 조작해 창의성을 강화함.
2. 기술적 접근 방법
- 특징 맵을 주파수 영역으로 변환 후 높은 주파수 영역 증폭은 노이즈 및 색상 패턴 유발.
- 낮은 주파수 영역 증폭을 통해 유용성과 독창성을 동시에 고려한 이미지 생성 가능.
- 블록별 최적의 증폭 값을 자동으로 선택하는 알고리즘을 제시.
3. 성능 평가 및 결과
- SDXL-터보 모델에서 모드 붕괴 문제를 완화하고 이미지 다양성 증가.
- 사람 평가 기준으로 기존 방법 대비 유용성 대비 참신성 향상.
- 학습된 모델 내부에 잠재된 창의성을 특정 맵 조작을 통해 강화 가능.
결론
- C3 접근법은 기존 모델 학습 없이 창의성 강화 가능하며, 모드 붕괴 문제 해결 및 이미지 다양성 향상을 통해 생성형 AI 분야에 실질적 기여를 제공함.*