AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

벡터 임베딩과 음성 검색 분석 및 혁신 노트

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

  • AI 개발자 및 음성 인식 기술 연구자
  • 중급~고급 난이도 (MIDI 처리, 벡터 임베딩 활용, 음악 데이터 분석 기술 필요)

핵심 요약

  • 음성 입력에서 의미 추출을 위해 벡터 검색(IRIS)과 음악 임베딩 기법 활용
  • 음악 노트 시퀀스 단순화를 통해 1-2개 정보 포인트로 음향 구분 가능
  • MIDI 포맷을 기반으로 한 음악 데이터 인코딩이 핵심 기술

섹션별 세부 요약

1. 음성 검색 기술 개요

  • IRIS는 음성 녹음에서 의미 추출벡터 검색을 통해 새로운 AI 솔루션 기회 생성
  • 음악 임베딩 기법을 활용해 음성/소리 입력으로 음악 데이터 매칭 가능
  • 음악 노트 시퀀스를 기반으로 한 임베딩 모델이 핵심

2. 음악 노트 시퀀스 단순화

  • 음악 노트 간 간격 계산으로 정보 포인트 감소 (예: A→B→C→E→A → +1, +1, +2, -4)
  • 음정 간격 수치 기반으로 음향 매칭 유연성 확보
  • 음악 간격0.5초 이상의 정지로 정의 (단일 정보 포인트 기준)

3. MIDI 인코딩 및 데이터 처리

  • MIDI 포맷 사용으로 음악 데이터 인코딩 (음량, 피치 벤딩 등 포함)
  • 데이터 생성분리/합성/변형 과정을 통해 다양한 시퀀스 생성
  • 임베딩 생성 시 22,935개 악기 트랙 및 6,762개 샘플 곡 사용

4. 훈련 실험 및 성능

  • 비지도 학습 (110,000개 레코드, 7시간 처리)과 유도 학습 (960,000개 레코드, 1.3일 처리) 비교
  • 임베딩 품질시퀀스 변형 점수에 기반한 전역 최대값 선택으로 평가

5. 개선 방향

  • 데이터 세트에서 낮은/높은 발생 빈도 시퀀스의 포함 기준 재검토
  • 드럼 트랙 제외 등 노이즈 필터링 강화
  • WAV→MIDI 변환피치 벤딩 정보 추가로 전이 품질 개선

결론

  • MIDI 인코딩을 통한 음악 데이터 유연성 확보가 핵심
  • 임베딩 훈련 시 합성 데이터와 인간 음성 특성의 균형 유지 필요
  • 음성 입력 매칭악기 트랙 분리노이즈 제거가 실무 적용 시 필수적