스와힐리어 SMS 사기 데이터셋 & 머신러닝 도구

스와힐리어 SMS 사기 데이터셋과 머신러닝 도구

카테고리

데이터 과학/AI

서브카테고리

데이터 분석

대상자

- 데이터 과학자: 스와힐리어 NLP 및 사기 탐지 모델 개발에 관심 있는 분

- AI 개발자: 실시간 SMS 분류 모델 구현을 위한 예제 활용

- 언어학자: 스와힐리어 언어 모델링 및 자연어 처리 연구

- 보안 연구자: 아프리카 지역 디지털 보안 문제 해결을 위한 데이터 기반 분석

- 학생: 개방형 데이터셋을 통한 실습 및 프로젝트 진행

핵심 요약

  • Bongoscam dataset은 스와힐리어 SMS 사기 메시지 1,508개를 포함한 개방형 데이터셋으로, scamtrust 두 카테고리로 분류
  • Multinomial Naive Bayes 분류기와 CountVectorizer를 사용한 머신러닝 모델은 98.7%의 테스트 정확도 달성
  • Flask API 기반 웹사이트(bongoscam.vercel.app)를 통해 누구나 사기 메시지 검출 가능

섹션별 세부 요약

1. 프로젝트 배경

  • 탄자니아에서 스와힐리어 SMS 사기 메시지가 빈번하며, 피해자에게 금전 손실을 유발
  • 예시 메시지: "IYO PESA ITUME KWENYE NAMBA HII 0657538690 JINA ITALETA Magomba Maila"
  • 개방형 데이터셋 공개를 통해 디지털 보안 강화를 목표

2. 데이터셋 구조

  • 1,508개의 실제 스와힐리어 SMS 수집 및 라벨링
  • 2개의 카테고리
  • scam: "Suspicious, misleading, or fraudulent messages."
  • trust: "Legitimate or safe messages."
  • Kaggle(swahili-sms-detection)에서 다운로드 가능

3. 머신러닝 모델 구현

  • CountVectorizer: 텍스트를 수치적 특징으로 변환
  • Multinomial Naive Bayes: 테스트 데이터에서 98.7% 정확도 달성
  • Flask API를 통한 모델 배포: POST /api/predict 엔드포인트 제공

4. 프로젝트 활용 및 기여

  • 사용자: 웹사이트(bongoscam.vercel.app)에서 실시간으로 사기 메시지 검출 가능
  • 개발자: GitHub(BongoScamDetection)에서 코드 기여 및 확장 가능
  • 아프리카 지역 맞춤형 AI: 스와힐리어 언어 지원을 통한 로컬라이제이션 강조

결론

  • 개방형 데이터셋 공개실시간 API 배포를 통해 디지털 보안 문제 해결에 기여
  • 스와힐리어 NLP 모델 개발자에게는 언어별 특성 분석 예제 제공
  • GitHub 및 Kaggle을 통해 커뮤니티 기반 협업 확대 및 프로젝트 성장 촉진