보이니치 필사본 구조 분석을 위한 SBERT 모델링 연구

보이니치 필사본의 SBERT 기반 구조 분석 프로젝트 요약

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

데이터 분석

대상자

자연어처리(NLP) 연구자, 언어학자, 암호학자, 인공언어 연구자

난이도: 중간 이상 (NLP 기술 및 언어학 지식 필요)

핵심 요약

  • SBERT 임베딩 을 활용한 단어 군집화Markov 전이 행렬 분석으로, 보이니치 필사본의 구조적 언어 패턴 탐구
  • 접미사 제거루트 형태 추출 과정에서 형태소 정보 손실 등 한계 존재
  • 구조 분석 에 집중하며 의미 해석 시도 미비, 컴퓨팅 언어학 기반의 중립적 접근 강조

섹션별 세부 요약

1. 프로젝트 개요

  • 보이니치 필사본 은 해독되지 않은 미스터리 문서로, 자연어처리(NLP) 도구 활용을 통해 구조 분석 시도
  • 기존 분석(통계적 엔트로피, 비과학적 추측) 대비 컴퓨팅 언어학 기반의 구조적 패턴 분석
  • /data/, /scripts/, /results/ 경로에 전사본, 분석 스크립트, 군집 시각화 데이터 제공

2. 방법론

  • SBERT 임베딩 을 활용한 단어 군집화품사 예측
  • Markov 전이 행렬 을 통한 군집 전이 구조 모델링
  • 접미사 제거 (예: aiin, dy, chy)로 루트 형태 추출군집 집중도 분석
  • Cluster 8 (함수어 후보), Cluster 3 (내용어 후보) 등 군집별 특성 분석

3. 분석 결과

  • 군집화 및 전이 행렬 에서 강한 내부 구조 관찰 (무작위성과 차별화)
  • 필사본 섹션(Botanical, Biological 등)별 구문 구조섹션별 패턴 분석
  • Figure 1 (SBERT 군집 임베딩 PCA 축소), Figure 2 (전이 행렬 히트맵) 등 시각적 결과 제공

4. 한계 및 제안

  • 접미사 제거 기준의 휴리스틱성으로 인한 의미 있는 끝소리 손실 가능성
  • 군집-단어 매핑 의 간접성으로 빈도 추정 겹침 발생
  • 최신 임베딩 모델(예: all-mpnet-base-v2, text-embedding-ada-002) 활용 시 더 나은 성능 기대
  • PaCMAP, LocalMAP, UMAP차원 축소 알고리즘 적용을 통한 구조적 통찰 제안

결론

  • 구조 분석 에 중점을 두고 의미 해석 미비한 프로젝트로, 최신 NLP 도구 활용을 통해 보이니치 필사본의 언어 유사 구조 탐구 가능
  • 접미사 제거 없는 비교 실험다국어 SBERT 모델 적용이 향후 연구 방향
  • 언어학자, 암호학자, 인공언어 연구자협업 확장을 통해 구조 모델링의 발전 기대