AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

DINO 손실이 교사 및 학생의 [CLS] 토큰을 비교하는가?

카테고리

인공지능

서브카테고리

머신러닝

대상자

  • 컴퓨터 비전 및 자율 학습 기술을 활용하는 연구자, 개발자
  • 중급 이상의 지식을 가진 AI/머신러닝 전문가

핵심 요약

  • DINO 손실은 교사 모델과 학생 모델의 [CLS] 토큰을 비교하여 학습을 수행함
  • 교사의 [CLS] 토큰은 온도 조절된 softmax와 중심화를 거쳐 학생 모델이 이를 맞추도록 cross-entropy 손실을 적용
  • 같은 이미지의 다양한 증강 버전에서 [CLS] 임베딩의 일관성을 유지하는 것이 핵심 목표

섹션별 세부 요약

1. DINO 손실의 기본 메커니즘

  • [CLS] 토큰 비교가 DINO 및 DINOv2의 핵심 손실 계산 방식
  • 교사 모델의 [CLS] 토큰은 온도 조절된 softmax로 변환되어 확률 분포로 표현
  • 학생 모델은 이 확률 분포를 cross-entropy 손실을 통해 학습

2. 이미지 증강과 [CLS] 임베딩의 관계

  • 각 이미지 증강 버전은 1개의 [CLS] 임베딩을 생성
  • 학생 모델의 [CLS] 출력은 다양한 증강 버전의 교사 모델 [CLS] 분포와 일치하도록 트레이닝
  • 이미지의 시각적 변형이 있을 때도 CLS 토큰의 분포 일관성 유지가 핵심 목표

결론

  • [CLS] 토큰의 분포 일치를 위한 cross-entropy 손실 구조는 DINO의 핵심 기술이며, 이미지 증강을 통한 일반화 능력 향상에 기여함