개발 머신러닝

D

dev_to

2025. 06. 30

DINO 손실이 교사 및 학생의 [CLS] 토큰을 비교하는가?

카테고리

인공지능

서브카테고리

머신러닝

대상자

컴퓨터 비전 및 자율 학습 기술을 활용하는 연구자, 개발자
중급 이상의 지식을 가진 AI/머신러닝 전문가

핵심 요약

DINO 손실은 교사 모델과 학생 모델의 [CLS] 토큰을 비교하여 학습을 수행함
교사의 [CLS] 토큰은 온도 조절된 softmax와 중심화를 거쳐 학생 모델이 이를 맞추도록 cross-entropy 손실을 적용
같은 이미지의 다양한 증강 버전에서 [CLS] 임베딩의 일관성을 유지하는 것이 핵심 목표

섹션별 세부 요약

1. DINO 손실의 기본 메커니즘

[CLS] 토큰 비교가 DINO 및 DINOv2의 핵심 손실 계산 방식
교사 모델의 [CLS] 토큰은 온도 조절된 softmax로 변환되어 확률 분포로 표현
학생 모델은 이 확률 분포를 cross-entropy 손실을 통해 학습

2. 이미지 증강과 [CLS] 임베딩의 관계

각 이미지 증강 버전은 1개의 [CLS] 임베딩을 생성
학생 모델의 [CLS] 출력은 다양한 증강 버전의 교사 모델 [CLS] 분포와 일치하도록 트레이닝
이미지의 시각적 변형이 있을 때도 CLS 토큰의 분포 일관성 유지가 핵심 목표

결론

[CLS] 토큰의 분포 일치를 위한 cross-entropy 손실 구조는 DINO의 핵심 기술이며, 이미지 증강을 통한 일반화 능력 향상에 기여함

DINO loss [CLS] tokens teacher model student model cross-entropy loss image augmentation computer vision

목록으로 원문 보기