개발 인공지능

D

dev_to

2025. 06. 11

AI 기반 이메일 위협 탐지: 98.65% 정확도 달성

사이버 사기 근절: AI를 활용한 이메일 위협 탐지의 돌파구

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

보안 전문가 및 이메일 시스템 개발자
중급~고급 수준의 ML/NLP 기술 이해가 필요
기존 시스템의 제한점을 극복하고자 하는 개발자

핵심 요약

SVC 모델과 BERT 기반 NLP를 결합하여 이메일 위협 탐지 정확도 98.65% 달성
SMOTE, 언더샘플링, class_weight 조정으로 데이터 불균형 문제 해결
TF-IDF, One-Hot Encoding, BERT 임베딩의 조합이 최적의 특성 추출 방법

섹션별 세부 요약

1. 데이터 준비

Kaggle 이메일 스팸 분류 데이터셋 사용
5172개 이메일, 39.4% 스팸, 60.6% 정상
3002개 특성(단어 빈도) 포함
데이터 불균형 문제 존재 (스팸:정상 = 1:1.5)

2. 데이터 전처리

소문자화, 토큰화, 불용어 제거, 리메이트이제이션 적용
이모티콘, HTML 태그, URL 제거
문맥 기반 의미 분석을 위한 NLP 전처리

3. 특성 추출

One-Hot Encoding: 단어 간 관계 무시, 단순 분류에 유리
TF-IDF 벡터화: 문서 내 빈도 기반 가중치 부여
BERT 임베딩: 문맥 기반 의미 분석으로 정교한 사기 이메일 탐지 가능

4. 불균형 데이터 처리

SMOTE: 스팸 데이터 합성 생성 (재현율 향상)
언더샘플링: 정상 데이터 수 감소 (정확도 약간 하락)
SVC의 class_weight='balanced': 소수 클래스에 가중치 부여

5. 모델 선택 및 학습

SVC 모델 선택 이유:
이진 분류(위협/비위협)에 적합
고차원 데이터(텍스트 특성) 처리 가능
과적합 방지 위한 최적 경계 찾기
하이퍼파라미터 최적화:
C=1.0, kernel='RBF', gamma='scale'
5-fold Cross-Validation 사용

6. SVC 구조 이해

하이퍼플레인을 기반으로 클래스 분리 경계 설정
Support Vectors를 기반으로 최대 마진 확보
커널 함수를 통해 데이터 포인트 유사도 계산

7. 처리 절차

EDA (데이터 탐색 분석) → 전처리 및 데이터 분할 (80% 훈련, 20% 테스트)
SVC 모델 초기화 → 훈련 → 테스트
모델 평가 → 결과 출력

8. 사용 도구

Python 3.7, Pandas, Scikit-learn, BERT, FastAPI
NLP 도구: NLTK, BeautifulSoup
시각화: Matplotlib/Seaborn

9. 배포 방안

브라우저 확장 프로그램 형태로 사용자 PC에 설치
ML/NLP 모듈이 내장된 보안 엔진에서 실시간 분석

결론

BERT + SVC 조합이 기존 SVM, Naïve Bayes 모델보다 98.65% 정확도 달성
데이터 불균형 해결을 위한 SMOTE, 언더샘플링, class_weight 조정 필수
브라우저 확장 프로그램으로 배포하여 실시간 이메일 위협 탐지 가능
NLP 기반 문맥 분석이 사기 이메일 탐지의 핵심 전략

이메일 위협 탐지 인공지능 머신러닝 자연어 처리 피싱 사이버보안 BERT 모델

목록으로 원문 보기