보이니치 필사본의 SBERT 기반 구조 분석 프로젝트 요약
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
데이터 분석
대상자
자연어처리(NLP) 연구자, 언어학자, 암호학자, 인공언어 연구자
난이도: 중간 이상 (NLP 기술 및 언어학 지식 필요)
핵심 요약
- SBERT 임베딩 을 활용한 단어 군집화 및 Markov 전이 행렬 분석으로, 보이니치 필사본의 구조적 언어 패턴 탐구
- 접미사 제거 및 루트 형태 추출 과정에서 형태소 정보 손실 등 한계 존재
- 구조 분석 에 집중하며 의미 해석 시도 미비, 컴퓨팅 언어학 기반의 중립적 접근 강조
섹션별 세부 요약
1. 프로젝트 개요
- 보이니치 필사본 은 해독되지 않은 미스터리 문서로, 자연어처리(NLP) 도구 활용을 통해 구조 분석 시도
- 기존 분석(통계적 엔트로피, 비과학적 추측) 대비 컴퓨팅 언어학 기반의 구조적 패턴 분석
- /data/, /scripts/, /results/ 경로에 전사본, 분석 스크립트, 군집 시각화 데이터 제공
2. 방법론
- SBERT 임베딩 을 활용한 단어 군집화 및 품사 예측
- Markov 전이 행렬 을 통한 군집 전이 구조 모델링
- 접미사 제거 (예: aiin, dy, chy)로 루트 형태 추출 및 군집 집중도 분석
- Cluster 8 (함수어 후보), Cluster 3 (내용어 후보) 등 군집별 특성 분석
3. 분석 결과
- 군집화 및 전이 행렬 에서 강한 내부 구조 관찰 (무작위성과 차별화)
- 필사본 섹션(Botanical, Biological 등)별 구문 구조 및 섹션별 패턴 분석
- Figure 1 (SBERT 군집 임베딩 PCA 축소), Figure 2 (전이 행렬 히트맵) 등 시각적 결과 제공
4. 한계 및 제안
- 접미사 제거 기준의 휴리스틱성으로 인한 의미 있는 끝소리 손실 가능성
- 군집-단어 매핑 의 간접성으로 빈도 추정 겹침 발생
- 최신 임베딩 모델(예: all-mpnet-base-v2, text-embedding-ada-002) 활용 시 더 나은 성능 기대
- PaCMAP, LocalMAP, UMAP 등 차원 축소 알고리즘 적용을 통한 구조적 통찰 제안
결론
- 구조 분석 에 중점을 두고 의미 해석 미비한 프로젝트로, 최신 NLP 도구 활용을 통해 보이니치 필사본의 언어 유사 구조 탐구 가능
- 접미사 제거 없는 비교 실험 및 다국어 SBERT 모델 적용이 향후 연구 방향
- 언어학자, 암호학자, 인공언어 연구자 간 협업 확장을 통해 구조 모델링의 발전 기대