벡터 임베딩과 음성 검색 분석 및 혁신 노트
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
- AI 개발자 및 음성 인식 기술 연구자
- 중급~고급 난이도 (MIDI 처리, 벡터 임베딩 활용, 음악 데이터 분석 기술 필요)
핵심 요약
- 음성 입력에서 의미 추출을 위해 벡터 검색(IRIS)과 음악 임베딩 기법 활용
- 음악 노트 시퀀스 단순화를 통해 1-2개 정보 포인트로 음향 구분 가능
- MIDI 포맷을 기반으로 한 음악 데이터 인코딩이 핵심 기술
섹션별 세부 요약
1. 음성 검색 기술 개요
- IRIS는 음성 녹음에서 의미 추출 후 벡터 검색을 통해 새로운 AI 솔루션 기회 생성
- 음악 임베딩 기법을 활용해 음성/소리 입력으로 음악 데이터 매칭 가능
- 음악 노트 시퀀스를 기반으로 한 임베딩 모델이 핵심
2. 음악 노트 시퀀스 단순화
- 음악 노트 간 간격 계산으로 정보 포인트 감소 (예: A→B→C→E→A → +1, +1, +2, -4)
- 음정 간격 수치 기반으로 음향 매칭 유연성 확보
- 음악 간격은 0.5초 이상의 정지로 정의 (단일 정보 포인트 기준)
3. MIDI 인코딩 및 데이터 처리
- MIDI 포맷 사용으로 음악 데이터 인코딩 (음량, 피치 벤딩 등 포함)
- 데이터 생성 시 분리/합성/변형 과정을 통해 다양한 시퀀스 생성
- 임베딩 생성 시 22,935개 악기 트랙 및 6,762개 샘플 곡 사용
4. 훈련 실험 및 성능
- 비지도 학습 (110,000개 레코드, 7시간 처리)과 유도 학습 (960,000개 레코드, 1.3일 처리) 비교
- 임베딩 품질은 시퀀스 변형 점수에 기반한 전역 최대값 선택으로 평가
5. 개선 방향
- 데이터 세트에서 낮은/높은 발생 빈도 시퀀스의 포함 기준 재검토
- 드럼 트랙 제외 등 노이즈 필터링 강화
- WAV→MIDI 변환 시 피치 벤딩 정보 추가로 전이 품질 개선
결론
- MIDI 인코딩을 통한 음악 데이터 유연성 확보가 핵심
- 임베딩 훈련 시 합성 데이터와 인간 음성 특성의 균형 유지 필요
- 음성 입력 매칭 시 악기 트랙 분리와 노이즈 제거가 실무 적용 시 필수적