스와힐리어 SMS 사기 데이터셋과 머신러닝 도구
카테고리
데이터 과학/AI
서브카테고리
데이터 분석
대상자
- 데이터 과학자: 스와힐리어 NLP 및 사기 탐지 모델 개발에 관심 있는 분
- AI 개발자: 실시간 SMS 분류 모델 구현을 위한 예제 활용
- 언어학자: 스와힐리어 언어 모델링 및 자연어 처리 연구
- 보안 연구자: 아프리카 지역 디지털 보안 문제 해결을 위한 데이터 기반 분석
- 학생: 개방형 데이터셋을 통한 실습 및 프로젝트 진행
핵심 요약
Bongoscam dataset
은 스와힐리어 SMS 사기 메시지 1,508개를 포함한 개방형 데이터셋으로,scam
과trust
두 카테고리로 분류- Multinomial Naive Bayes 분류기와 CountVectorizer를 사용한 머신러닝 모델은 98.7%의 테스트 정확도 달성
- Flask API 기반 웹사이트(
bongoscam.vercel.app
)를 통해 누구나 사기 메시지 검출 가능
섹션별 세부 요약
1. 프로젝트 배경
- 탄자니아에서 스와힐리어 SMS 사기 메시지가 빈번하며, 피해자에게 금전 손실을 유발
- 예시 메시지: "IYO PESA ITUME KWENYE NAMBA HII 0657538690 JINA ITALETA Magomba Maila"
- 개방형 데이터셋 공개를 통해 디지털 보안 강화를 목표
2. 데이터셋 구조
- 1,508개의 실제 스와힐리어 SMS 수집 및 라벨링
- 2개의 카테고리
scam
: "Suspicious, misleading, or fraudulent messages."trust
: "Legitimate or safe messages."- Kaggle(
swahili-sms-detection
)에서 다운로드 가능
3. 머신러닝 모델 구현
- CountVectorizer: 텍스트를 수치적 특징으로 변환
- Multinomial Naive Bayes: 테스트 데이터에서 98.7% 정확도 달성
- Flask API를 통한 모델 배포:
POST /api/predict
엔드포인트 제공
4. 프로젝트 활용 및 기여
- 사용자: 웹사이트(
bongoscam.vercel.app
)에서 실시간으로 사기 메시지 검출 가능 - 개발자: GitHub(
BongoScamDetection
)에서 코드 기여 및 확장 가능 - 아프리카 지역 맞춤형 AI: 스와힐리어 언어 지원을 통한 로컬라이제이션 강조
결론
- 개방형 데이터셋 공개와 실시간 API 배포를 통해 디지털 보안 문제 해결에 기여
- 스와힐리어 NLP 모델 개발자에게는 언어별 특성 분석 예제 제공
- GitHub 및 Kaggle을 통해 커뮤니티 기반 협업 확대 및 프로젝트 성장 촉진