BM25 알고리즘을 이용한 문서 관련도 점수 계산 방법

카테고리

프로그래밍/소프트웨어 개발

데이터 분석

BM25 알고리즘은 문서와 쿼리 간 관련도를 계산하기 위해 Term Frequency (TF)와 Inverse Document Frequency (IDF)를 결합한 비선형 점수 계산 방식을 사용
TF 계산 시 토큰 빈도에 따라 점수 감소(diminishing returns)를 적용하여 과도한 빈도에 대한 편향 제거
IDF 계산은 토큰의 전체 문서 집합에서의 희소성(rarity)을 반영하여 관련도 높은 토큰에 가중치 부여
C# 예제 코드로 BM25 알고리즘 구현

TF 계산: 토큰 빈도에 따라 점수 감소(예: 1회 → 1점, 2회 → 0.95점, 3회 → 0.92점)
IDF 계산: 전체 문서 집합에서 토큰의 희소성 반영 (예: "the" 토큰은 모든 문서에 존재 → 낮은 가중치, "animal" 토큰은 문서 1에만 존재 → 높은 가중치)
C# 구현 예제:

```csharp

public double GetScore(List queryTokens, string content, double decay = 0.97)

{

double totalScore = 0;

int matchToken = 0;

foreach (var token in queryTokens)

{

int frequency = doc.ContentTokens.Count(t => t == token.ToLowerInvariant());

if (frequency > 0) matchToken++;

double freqScore = (1 - Math.Pow(decay, frequency)) / (1 - decay);

totalScore += freqScore;

}

if (matchToken == queryTokens.Count) matchToken *= 2;

totalScore += matchToken * 10;

return totalScore;

}

```

BM25 알고리즘은 단순 빈도 기반 점수 계산의 한계를 극복하며, 비선형 TF 계산과 IDF 가중치를 결합하여 관련도를 정확히 평가
C# 구현 시 Math.Pow와 decay 파라미터를 활용하여 점수 감소 효과 적용
역색인 인덱스를 통해 전체 문서 집합의 토큰 분포를 분석하여 IDI 계산 시 토큰 희소성 반영 필수