AI Fiqh & Retrieval-augmented generation (RAG)

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

대상자: 이슬람 교리와 판례를 정확하게 이해하고자 하는 사용자, AI 기반의 학술 정보 검색 시스템 개발자, 다국어 및 문화적 특성을 고려한 AI 프로젝트 참여자
난이도: 중간~고급 (AI 모델, RAG 구현, 언어 처리 기술, 인프라 설계 등 기술적 깊이 요구)

핵심 요약

RAG 기반의 정확한 이슬람 판례 제공: Mausu'ah Fiqhiyyah Kuwaitiyah, Al-Qardhawi의 Fiqh Zakat 등 50만 건 이상의 원문 자료를 기반으로 설계, 각 답변에 원문 출처 (예: Mausu'ah Fiqhiyyah Kuwaitiyah, Vol 31, pp. 234-237) 명시
다중 학파(Madhab) 구분: Hanafi, Maliki, Shafi'i, Hanbali 등 4개 학파의 의견을 구분하며, 문제별 학파별 입장 비교 제공
인프라 설계: DigitalOcean 기반의 **S3-compatible 스토리지, PostgreSQL + Prisma, ChromaDB 벡터 저장소, TensorFlow 및 Google Gemini` 활용

섹션별 세부 요약

1. 문제 인식과 목표

문제: 일반 AI 모델(GPT, Claude 등)은 이슬람 교리 관련 정보를 제공할 때 출처 없음, 학파 구분 불충분, 아랍어 정확성 저하 등의 문제 발생
해결 방향: 원문 기반의 RAG 시스템 구축을 통해 학문적 신뢰성 확보
예시: "All fish are halal"이라는 오류 발생 후 학파별 구체적 판례를 기반으로 시스템 개선

2. 수집된 데이터 및 처리 과정

수집된 자료:

- Mausu'ah Fiqhiyyah Kuwaitiyah (45권 전량)

- Al-Qardhawi의 Fiqh Zakat

- 현대 판례 500만 건 이상 (2.3M+ 판례 추출)

처리 과정:

- 아랍어 정규화: 다양한 글꼴 및 다이어크리틱 통일

- 문맥 보존: 학파(mazhab) 정보 추적

- 인용 추적: 모든 답변에 원문 출처 명시

3. 기술 스택 및 인프라

프론트엔드: React + Next.js (SSR 기반 성능 최적화)
백엔드:

- AI 처리: Python + Flask (TensorFlow 활용)

- API 서버: NestJS (TypeScript 기반)

- 데이터베이스: PostgreSQL + Prisma (관계형 데이터 관리)

- 벡터 저장소: ChromaDB (semantic search 기반)

인프라: DigitalOcean 기반 S3-compatible 스토리지`, managed database, droplets** 사용

4. 두 단계 캐싱 시스템

Tier 1 (Speed Demon):

- LRU 메모리 캐시 (기존 질문 응답 시간: 100ms 이하)

Tier 2 (The Brain):

- ChromaDB 벡터 DB를 통한 semantic search (cosine similarity, 80% threshold)

- Gemini 활용: 벡터 DB에서 일치 항목 없을 시 문맥 기반 생성

5. 성능 및 사용자 피드백

현재 성과:

- 555명의 베타 사용자 (50+ 국가)

- 4,562건의 쿼리 처리 (평균 응답 시간: 33.35s)

미래 계획:

- 음성 인터페이스 (운전 중 질문 가능)

- 다국어 지원 (말레이어, 우르두어 등)

- 학자 검증 시스템 (인증 학자에 의한 답변 검증)

결론

핵심 팁:

- RAG 기반의 원문 연계가 학문적 신뢰성을 확보

- 아랍어 문맥 보존과 학파 구분을 위한 정확한 전처리 필수

- 인프라 확장성 (DigitalOcean 활용)과 벡터 DB 최적화를 통해 성능 개선

예시:

- "암호화폐의 이슬람 판례"에 대해 Hanafi, Maliki, Hanbali 학파별 입장을 정리하고 원문 출처 명시

- ChromaDB와 Gemini의 협업을 통해 정확한 답변 생성 가능