모델 수준 공격 및 방어 전략

카테고리

프로그래밍/소프트웨어 개발

인공지능

AI 모델 개발자, 데이터 과학자, 보안 전문가

모델 수준 공격은 입력 조작이 아닌 모델 자체를 대상으로 하여, 기밀 데이터 추출, 모델 역공학, 복제, 오작동 유도 등의 위협을 발생시킬 수 있음
방어 전략으로는 요청 제한(사용자/IP당 요청 수, 토큰 수), 난수 생성(모델 출력의 예측성 감소), 차별적 사생활 보호(differential privacy) 적용, 출력 필터링(Detoxify, Perspective API 등)이 핵심
모델 유출 위험이 높은 경우, 요약층 추가(NDAs 등 기밀 정보 차단), 감사 로그 비활성화, 정규 표현식 필터링 등이 필수적

- 훈련 데이터에 포함된 특정 정보(예: 환자 사례, 이메일 주소)를 반복 쿼리로 추출

- 모델의 가중치나 구조를 분석하여 복제 가능

- 수천 회의 쿼리로 응답을 수집하여 동일한 모델을 재구성

- 일반적인 입력으로 보이는 악의적 쿼리가 분류 모델을 오도

- 공격자가 패턴을 분석하기 쉬움

- 브루트포스 공격 가능

- 특정 데이터 포인트를 예측 가능

- 복제 모델 학습에 유리

- 사용자/IP당 요청 수, 토큰 수 제한

- 반복 쿼리 또는 의심스러운 패턴 감지

- 모델 응답의 예측성을 낮추어 복제 및 추출을 방지

- 훈련 데이터에서 기밀 정보 유출 위험 감소

- Detoxify, Perspective API 등으로 해로운 내용 차단

- NDA 문구 유출, 내부 악의적 사용자에 의한 모델 복제 시도

- 요약층 추가 (전체 문장 생성 금지)

- 차별적 사생활 보호 적용

- 민감한 요청 로깅 비활성화

- 응답 난수화 (복제 위험 감소)

모델 수준 공격 방어를 위해 요청 제한, 차별적 사생활 보호, 출력 필터링을 반드시 적용해야 함
모델 복제 위험이 높은 경우, 요약층 추가 및 정규 표현식 필터링을 통해 유출 방지
API 기반 모델(OpenAI, Anthropic 등) 사용 시에도 입력/출력 안전성을 책임져야 함
다음 포스트에서는 프롬프트 주입(prompt injection) 및 감금 해제(jailbreaking)에 대한 분석을 이어갈 예정