DINO 손실이 교사 및 학생의 [CLS] 토큰을 비교하는가?
카테고리
인공지능
서브카테고리
머신러닝
대상자
- 컴퓨터 비전 및 자율 학습 기술을 활용하는 연구자, 개발자
- 중급 이상의 지식을 가진 AI/머신러닝 전문가
핵심 요약
- DINO 손실은 교사 모델과 학생 모델의 [CLS] 토큰을 비교하여 학습을 수행함
- 교사의 [CLS] 토큰은 온도 조절된 softmax와 중심화를 거쳐 학생 모델이 이를 맞추도록 cross-entropy 손실을 적용
- 같은 이미지의 다양한 증강 버전에서 [CLS] 임베딩의 일관성을 유지하는 것이 핵심 목표
섹션별 세부 요약
1. DINO 손실의 기본 메커니즘
- [CLS] 토큰 비교가 DINO 및 DINOv2의 핵심 손실 계산 방식
- 교사 모델의 [CLS] 토큰은 온도 조절된 softmax로 변환되어 확률 분포로 표현
- 학생 모델은 이 확률 분포를 cross-entropy 손실을 통해 학습
2. 이미지 증강과 [CLS] 임베딩의 관계
- 각 이미지 증강 버전은 1개의 [CLS] 임베딩을 생성
- 학생 모델의 [CLS] 출력은 다양한 증강 버전의 교사 모델 [CLS] 분포와 일치하도록 트레이닝
- 이미지의 시각적 변형이 있을 때도 CLS 토큰의 분포 일관성 유지가 핵심 목표
결론
- [CLS] 토큰의 분포 일치를 위한 cross-entropy 손실 구조는 DINO의 핵심 기술이며, 이미지 증강을 통한 일반화 능력 향상에 기여함