AI Fiqh & Retrieval-augmented generation (RAG)
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
- 대상자: 이슬람 교리와 판례를 정확하게 이해하고자 하는 사용자, AI 기반의 학술 정보 검색 시스템 개발자, 다국어 및 문화적 특성을 고려한 AI 프로젝트 참여자
- 난이도: 중간~고급 (AI 모델, RAG 구현, 언어 처리 기술, 인프라 설계 등 기술적 깊이 요구)
핵심 요약
- RAG 기반의 정확한 이슬람 판례 제공:
Mausu'ah Fiqhiyyah Kuwaitiyah
,Al-Qardhawi의 Fiqh Zakat
등 50만 건 이상의 원문 자료를 기반으로 설계, 각 답변에 원문 출처 (예:Mausu'ah Fiqhiyyah Kuwaitiyah, Vol 31, pp. 234-237
) 명시 - 다중 학파(Madhab) 구분: Hanafi, Maliki, Shafi'i, Hanbali 등 4개 학파의 의견을 구분하며, 문제별 학파별 입장 비교 제공
- 인프라 설계:
DigitalOcean
기반의 **S3-compatible 스토리지,
PostgreSQL + Prisma,
ChromaDB벡터 저장소,
TensorFlow및
Google Gemini` 활용
섹션별 세부 요약
1. 문제 인식과 목표
- 문제: 일반 AI 모델(GPT, Claude 등)은 이슬람 교리 관련 정보를 제공할 때 출처 없음, 학파 구분 불충분, 아랍어 정확성 저하 등의 문제 발생
- 해결 방향: 원문 기반의 RAG 시스템 구축을 통해 학문적 신뢰성 확보
- 예시: "All fish are halal"이라는 오류 발생 후 학파별 구체적 판례를 기반으로 시스템 개선
2. 수집된 데이터 및 처리 과정
- 수집된 자료:
- Mausu'ah Fiqhiyyah Kuwaitiyah
(45권 전량)
- Al-Qardhawi의 Fiqh Zakat
- 현대 판례 500만 건 이상 (2.3M+ 판례 추출)
- 처리 과정:
- 아랍어 정규화: 다양한 글꼴 및 다이어크리틱 통일
- 문맥 보존: 학파(mazhab) 정보 추적
- 인용 추적: 모든 답변에 원문 출처 명시
3. 기술 스택 및 인프라
- 프론트엔드:
React + Next.js
(SSR 기반 성능 최적화) - 백엔드:
- AI 처리: Python + Flask
(TensorFlow 활용)
- API 서버: NestJS
(TypeScript 기반)
- 데이터베이스: PostgreSQL + Prisma
(관계형 데이터 관리)
- 벡터 저장소: ChromaDB
(semantic search 기반)
- 인프라:
DigitalOcean
기반 S3-compatible 스토리지`, managed database, droplets** 사용
4. 두 단계 캐싱 시스템
- Tier 1 (Speed Demon):
- LRU 메모리 캐시 (기존 질문 응답 시간: 100ms 이하)
- Tier 2 (The Brain):
- ChromaDB 벡터 DB를 통한 semantic search (cosine similarity, 80% threshold)
- Gemini 활용: 벡터 DB에서 일치 항목 없을 시 문맥 기반 생성
5. 성능 및 사용자 피드백
- 현재 성과:
- 555명의 베타 사용자 (50+ 국가)
- 4,562건의 쿼리 처리 (평균 응답 시간: 33.35s)
- 미래 계획:
- 음성 인터페이스 (운전 중 질문 가능)
- 다국어 지원 (말레이어, 우르두어 등)
- 학자 검증 시스템 (인증 학자에 의한 답변 검증)
결론
- 핵심 팁:
- RAG 기반의 원문 연계가 학문적 신뢰성을 확보
- 아랍어 문맥 보존과 학파 구분을 위한 정확한 전처리 필수
- 인프라 확장성 (DigitalOcean 활용)과 벡터 DB 최적화를 통해 성능 개선
- 예시:
- "암호화폐의 이슬람 판례"에 대해 Hanafi, Maliki, Hanbali 학파별 입장을 정리하고 원문 출처 명시
- ChromaDB와 Gemini의 협업을 통해 정확한 답변 생성 가능