보이니치 필사본 구조 분석: 최신 NLP 기법을 활용한 언어 모델링 실험
🤖 AI 추천
이 콘텐츠는 최신 자연어처리(NLP) 및 계산 언어학 기법을 보조적인 도구로 사용하여, 아직 해독되지 않은 보니치 필사본의 구조적 언어 특징을 탐구하는 연구에 관심 있는 개발자, 언어학자, 암호학자, 인공 언어 연구자에게 유용합니다. 특히, NLP 모델링과 데이터 분석에 대한 깊이 있는 이해를 원하는 미들레벨 이상의 개발자에게 인사이트를 제공할 수 있습니다.
🔖 주요 키워드
핵심 기술: 본 프로젝트는 최신 자연어처리(NLP) 기법, 특히 SBERT 임베딩을 활용하여 아직 해독되지 않은 보니치 필사본의 언어 구조를 분석합니다. 접미사 제거, 단어 군집화, 품사 추론, Markov 전이 행렬 구축 등 컴퓨팅 언어학적 접근을 통해 실제 언어와 유사한 구조적 패턴의 존재 유무를 검증하는 데 중점을 둡니다.
기술적 세부사항:
* 접미사 제거 및 루트 단어 추출: 반복적인 접미사(예: aiin, dy, chy)를 제거하여 단어의 루트 형태를 추출, 군집 집중도와 구조 패턴을 명확히 합니다.
* SBERT 임베딩 및 군집화: 다국어 SBERT 모델을 사용하여 접미사가 제거된 루트 단어를 임베딩하고 군집화하여 함수어와 내용어의 군집을 구분합니다.
* 구조 분석: Markov 전이 모델링을 통해 군집 간의 전이 구조를 분석하고, 섹션별(Botanical, Biological 등) 구문 구조와 패턴을 추출합니다.
* 데이터셋 제공: 필사본 전사본, 루트 단어, 군집 ID, 제거된 접미사 목록, 라인별 군집 시퀀스 등의 데이터를 제공합니다.
* 핵심 스크립트 제공: SBERT 기반 군집화, 품사 예측, Markov 전이 행렬 구축, 렉시콘 후보 생성 등의 분석 스크립트가 공개됩니다.
* 결과 시각화: 군집 시각화(PCA 축소 포함), 전이 행렬 히트맵 등을 제공하여 분석 결과를 시각적으로 보여줍니다.
* 연구 목표: 의미 번역 시도 없이 오직 언어처럼 동작하는 구조의 유무만을 검증하며, 추가 연구 및 비교 실험이 가능하도록 모든 단계를 공개합니다.
개발 임팩트:
* 컴퓨팅 언어학 기반의 중립적이고 구조적인 분석을 통해 보니치 필사본의 잠재적인 언어적 규칙성을 탐구할 수 있습니다.
* 최신 NLP 도구를 실제 미해독 문서에 적용하는 방법론을 제시하여 유사 연구에 영감을 줍니다.
* 엄격한 구조 모델링에 집중하여, 과장된 해석 없이 데이터 기반의 통찰을 얻을 수 있습니다.
커뮤니티 반응:
* PCA 외에 UMAP, PaCMAP, LocalMAP과 같은 최신 차원 축소 알고리즘을 적용하여 더 깊은 구조를 찾을 수 있다는 제안이 있었습니다.
* 최신 임베딩 모델(예: all-mpnet-base-v2, text-embedding-ada-002) 사용 및 접미사 유지 시 더 나은 성능을 기대할 수 있다는 의견이 제시되었습니다.
* 인위적으로 생성된 언어 데이터와의 비교 실험을 통해 방법론의 강건성을 검증하는 아이디어가 공유되었습니다.
* Voynichese가 특정 언어 계열(게르만, 우랄어 등)과 연관될 가능성 및 카드단 그리드 활용 가능성에 대한 논의가 있었습니다.
* 단어 1:1 매핑 방식의 한계와 군집 ID를 이용한 언어 모델링, 최적화 기법 적용에 대한 발전적 아이디어가 제시되었습니다.