스리랑카 스와힐리어 SMS 스팸 탐지를 위한 오픈소스 데이터셋 및 머신러닝 도구 개발
🤖 AI 추천
이 콘텐츠는 스와힐리어 기반의 SMS 스팸 탐지를 위한 데이터셋 구축 및 머신러닝 모델 개발에 관심 있는 데이터 과학자, 머신러닝 엔지니어, 그리고 동아프리카 지역의 디지털 안전 증진에 기여하고자 하는 개발자에게 매우 유용합니다. 특히 자연어 처리(NLP) 기술을 활용하여 실제 사회 문제를 해결하는 데 관심 있는 주니어부터 시니어 레벨의 개발자들에게 좋은 인사이트를 제공합니다.
🔖 주요 키워드

핵심 기술: 스와힐리어 SMS 스팸 메시지를 탐지하기 위한 오픈소스 데이터셋 구축과 머신러닝 기반 탐지 도구 개발 프로젝트입니다.
기술적 세부사항:
* Bongoscam Dataset: 1,508개의 실제 스와힐리어 SMS 메시지로 구성된 데이터셋을 구축했으며, 메시지는 'scam'(사기성)과 'trust'(정상) 두 가지 범주로 레이블링되었습니다.
* 머신러닝 모델: CountVectorizer를 사용하여 텍스트 데이터를 수치형 특징으로 변환하고, Multinomial Naive Bayes 분류기를 사용하여 스팸 탐지 모델을 구축했습니다.
* 성능: 테스트 데이터셋에서 98.7%의 정확도를 달성했습니다.
* API 및 웹사이트: 개발된 모델은 Flask API로 래핑되어 공개적으로 사용할 수 있는 웹사이트(bongoscam.vercel.app)로 배포되었습니다.
* 기술 스택: Python (CountVectorizer, Multinomial Naive Bayes, Flask), JavaScript (프론트엔드)
* 코드 저장소: GitHub (BongoScamDetection)를 통해 코드 공개 및 기여를 장려합니다.
개발 임팩트: 동아프리카 지역의 디지털 안전 증진에 기여하고, 스와힐리어 등 현지 언어를 지원하는 ML 솔루션 개발의 시발점이 될 수 있습니다. 또한, 오픈소스 데이터셋과 모델 공개를 통해 커뮤니티의 참여와 발전을 유도합니다.
커뮤니티 반응: 프로젝트는 오픈소스화 되어 GitHub 및 Kaggle을 통해 공개되었으며, 스와힐리어 언어 지원, AI 기술의 사회적 기여, 지역 문제 해결 등 긍정적인 측면에서 개발자들의 참여와 피드백을 유도하고 있습니다.
톤앤매너: 실질적인 문제를 기술로 해결하려는 개발자의 열정과 공유 정신이 엿보이는 전문적인 톤앤매너를 유지합니다.