효율적인 자기 주의 메커니즘

카테고리

프로그래밍/소프트웨어 개발

인공지능, 머신러닝

- 대상자: 데이터 과학자, 머신러닝 엔지니어, 자연어 처리(NLP) 연구자

- 난이도: 중급 이상 (선형 대수, softmax, 커널 함수 이해 필요)

- O(N²) 복잡도를 O(N)으로 줄이는 커널 기반 자기 주의 방식 도입

- softmax 함수 대신 ϕ(x) = exp(x)와 같은 커널 함수 사용

- ϕ(Qi·Kj)를 통해 행렬 곱 연산 최소화

- ϕ(x) ≥ 0 (해석 가능성, 수치적 안정성 확보)

- O(N²) 복잡도로, 문맥 길이(N) 증가 시 성능 저하

- 메모리 사용량: N×N 행렬 저장 필요

- Attention(Q, K, V) = softmax(QKᵀ/√din)·V

- 행렬 곱 연산(QKᵀ) 및 softmax 계산으로 N² 연산 발생

- ϕ(Qi·Kj)를 사용하여 softmax의 지수 계산 생략

- Vi' = [∑ϕ(Qi·Kj)·Vj] / [∑ϕ(Qi·Kj)]

- ϕ(x, y) = ⟨ϕ(x), ϕ(y)⟩ (특징 매핑 후 내적)

- Vi' = [∑ϕ(Qi)⊤ϕ(Kj)·Vj] / [∑ϕ(Qi)⊤ϕ(Kj)]

- 커널 기반 방식: O(N) 복잡도, 전통적 방식 대비 100배 이상 성능 향상

- 메모리 사용량: N×D 크기의 행렬만 저장 (D: 임베딩 차원)

- ϕ(x) ≥ 0 (음수 무게 생략 → 해석 가능성, 분모 0 발생 방지)

- 커널은 특징 매핑 후 내적 표현 가능 (예: ϕ(x) = x → softmax와 동일)

- 커널 기반 자기 주의는 장문의 문맥 처리에 적합

- ϕ(x) = x 사용 시 softmax 기반 모델과 동일한 결과

- 커널 선택 시 ϕ(x) ≥ 0 조건 확인 필수 (수치적 안정성 확보)