안전한 AI 이미지 생성을 위한 네이버클라우드의 '망각 기술' 연구: 위험 요소 선별적 제거 및 DPO 활용

🤖 AI 추천

AI 이미지 생성 모델의 안전성 및 윤리적 사용에 관심 있는 연구원, 개발자, AI 엔지니어

🔖 주요 키워드

안전한 AI 이미지 생성을 위한 네이버클라우드의 '망각 기술' 연구: 위험 요소 선별적 제거 및 DPO 활용

핵심 기술: 본 콘텐츠는 NeurIPS 2024에 발표된 네이버클라우드의 논문을 소개하며, 확산 모델 기반 AI 이미지 생성 과정에서 유해한 이미지 생성을 방지하기 위한 '망각 기술(Unlearning)'을 다룹니다. 특히 위험 요소는 제거하되 안전한 이미지 생성 능력은 보존하는 선택적 망각 기법과 이를 위한 Direct Preference Optimization (DPO) 활용 방안을 제시합니다.

기술적 세부사항:
* 문제점: 확산 모델 기반 이미지 생성 AI는 고품질 이미지 생성에 뛰어나지만, 선정적이거나 폭력적인 유해 이미지 생성 위험도 존재합니다. 기존의 프롬프트 필터링이나 분류 모델은 한계가 있으며, 모델 자체를 재학습시켜 유해 콘텐츠 생성을 '망각'시키는 방법이 대안으로 떠오르고 있습니다.
* 기존 망각 기법의 한계: 프롬프트 미세 조정을 통한 망각 시, 학습되지 않은 적대적 프롬프트에 대해서는 여전히 유해 이미지를 생성하는 문제가 발생합니다.
* 선택적 망각 기법 제안: 유해 이미지의 위험 요소는 제거하되, 안전한 이미지와 공유되는 일반적인 시각적 요소(색상, 질감, 구도 등)는 보존하기 위해 위험 이미지와 안전한 이미지를 짝지어 학습하는 방식을 사용합니다.
* 데이터 생성: 짝이 맞는 이미지를 얻기 위해 위험 이미지를 생성하고 노이즈를 추가한 뒤, SDEdit과 같은 기법을 활용하여 데이터를 생성합니다.
* DPO(Direct Preference Optimization) 활용: 생성된 이미지 쌍 데이터셋(유해 이미지 vs. 안전 이미지)을 사용하여 모델이 안전한 이미지를 선호하고 유해 이미지를 회피하도록 DPO 기법을 적용합니다. 이는 별도의 보상 모델 없이 모델을 직접 지도 학습하여 안정적인 학습이 가능하게 합니다.
* 정규화: 미세 조정 이전의 성능을 유지하기 위해 노이즈 입력에 대해 기존 모델과 동일한 결과를 생성하도록 추가적인 정규화 요소를 도입합니다.
* 평가: 선정적, 폭력적 이미지에 대한 모의 공격(Red-teaming) 및 안전한 키워드 생성 능력 보존 평가를 통해 제안된 방법의 강인함과 성능 유지 능력을 검증합니다. LPIPS 손실 메트릭 등을 활용합니다.

개발 임팩트:
* AI 이미지 생성 모델의 안전성과 윤리성을 크게 향상시킬 수 있습니다.
* 유해 콘텐츠 생성 방지뿐만 아니라, 모델의 전반적인 이미지 생성 품질과 범용성을 유지할 수 있는 실질적인 방안을 제시합니다.
* AI의 잠재적 위험을 제어하는 새로운 접근법을 제시하며, 향후 AI 안전성 연구에 중요한 기여를 할 것으로 기대됩니다.

커뮤니티 반응: (본문에서 직접적인 커뮤니티 반응 언급은 없으나, NeurIPS 발표라는 점에서 학계의 큰 관심을 받을 것으로 예상됩니다.)

📚 관련 자료