KAIST C3 접근법으로 텍스트-이미지 생성 모델 창의성 강화
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

KAIST, 텍스트-이미지 생성 모델 특징 강화하는 'C3' 접근법 공개

카테고리

데이터 과학/AI

서브카테고리

인공지능, 머신러닝, 데이터 분석

대상자

AI 연구자, 딥러닝 모델 개발자, 생성형 AI에 관심 있는 기술자

핵심 요약

  • C3(Creative Control through Contrastive Compression) 접근법은 추가 학습 없이 생성 모델의 창의성을 강화함.
  • 낮은 주파수 영역 증폭을 통해 유용성독창성을 동시에 고려한 이미지 생성 가능.
  • SDXL-터보 모델에서 모드 붕괴 문제를 완화하고 이미지 다양성을 증가시킴.

섹션별 세부 요약

1. 개요 및 연구 배경

  • KAIST와 네이버 AI 연구소가 공동으로 C3 접근법을 개발함.
  • 기존 텍스트-이미지 생성 모델(예: 스태이블 디퓨전)에서 '창의적' 프롬프트 사용 시 원하는 결과물을 얻기 어려웠음.
  • C3추가 학습 없이 생성 모델의 내부 특징 맵을 조작해 창의성을 강화함.

2. 기술적 접근 방법

  • 특징 맵주파수 영역으로 변환 후 높은 주파수 영역 증폭은 노이즈 및 색상 패턴 유발.
  • 낮은 주파수 영역 증폭을 통해 유용성독창성을 동시에 고려한 이미지 생성 가능.
  • 블록별 최적의 증폭 값을 자동으로 선택하는 알고리즘을 제시.

3. 성능 평가 및 결과

  • SDXL-터보 모델에서 모드 붕괴 문제를 완화하고 이미지 다양성 증가.
  • 사람 평가 기준으로 기존 방법 대비 유용성 대비 참신성 향상.
  • 학습된 모델 내부에 잠재된 창의성을 특정 맵 조작을 통해 강화 가능.

결론

  • C3 접근법은 기존 모델 학습 없이 창의성 강화 가능하며, 모드 붕괴 문제 해결 및 이미지 다양성 향상을 통해 생성형 AI 분야에 실질적 기여를 제공함.*