Ensemble Learning으로 스팸 필터 설계

투표 분류기를 사용하여 메시지를 스팸 / 햄으로 필터링

이미지 소스

온라인 소셜 네트워크의 압도적 인 성장과 증가하는 인기로 인해 스팸 문제도 뿌리를 내 렸습니다. 이러한 현실은 악성 코드 / 바이러스의 통제되지 않은 유포로 이어질뿐만 아니라 홍보 광고, 피싱 및 사기도 포함하고 많은 양의 네트워크 대역폭을 소비하여 수익을 줄이고 조직에 상당한 재정적 손실을 초래합니다.

콘텐츠 기반 학습의 기본 아이디어는 스팸 발송자가 상호 작용에서 고유 한 키워드, URL 등을 사용하고 프로필을 정의한다는 관찰에 있습니다.

이러한 콘텐츠 기반 기능은 분류 ML 모델을 교육하여 메시지와 프로필을 합법적이거나 스팸으로 분류하는 데 사용할 수 있습니다. 메시지를 스팸 / 비 스팸으로 분류하는 데 사용되는 접근 방식은 SVM, 의사 결정 트리, Naive Bayes 등과 같은지도 학습 접근 방식 일 수 있습니다.

그러나이 문제를 해결하는 다른 방법이 있습니다. 특히 앙상블 학습을 사용할 수 있습니다.이 기법은 여러 알고리즘이나 모델을 조합하여 개선 된 결과를 생성하는 기술입니다.

그런데 왜 앙상블 학습자일까요?

  1. 낮은 오류 — 일반적으로 앙상블은 예측의 최종 집계로 인해 개별 모델 자체보다 오류율이 낮습니다.
  2. 덜 과적 합 — 우리가 사용하는 각 유형의 학습자에는 편향이 있지만이를 종합하면 편향이 감소하는 경향이 있습니다.
draw.io에서 자체 제작

데이터 세트로드

이 구현을 통해 작업하는 데 필요한 라이브러리는 다음과 같습니다.

  1. NLTK : 인간 언어 데이터로 작업 할 Python 프로그램을 빌드하기위한 플랫폼입니다. 말뭉치 작업, 텍스트 분류, 언어 구조 분석 등을 할 때 사용자를 돕는 기능도 포함합니다.
  2. sklearn : 분류, 회귀, 클러스터링 및 차원 축소를 포함하여 기계 학습 및 통계 모델링을위한 많은 효율적인 도구가 포함 된 Python 라이브러리입니다.
  3. Pandas : 숫자 테이블을 조작하기위한 데이터 구조 및 작업을 제공합니다.
  4. NumPy : 대규모 다차원 배열 및 행렬을 지원하며 이러한 배열에서 작동하는 고수준 수학 함수 모음을 지원합니다.

https://archive.ics.uci.edu/ml/datasets/sms+spam+collection

모든 소셜 사이트에서 원하는 데이터 세트를 사용하거나받은 편지함 / 스팸 폴더에서 데이터를 가져와 데이터 세트의 크기와 다양성을 높일 수 있습니다.

머신 러닝의 미래는 가장자리에 있습니다. Fritz AI 뉴스 레터를 구독하여 모바일 앱에 ML 모델을 포함 할 수있는 가능성과 이점을 알아보십시오.

데이터 전처리

데이터 전처리는 자연어 처리 (실제로 모든 ML 파이프 라인)에서 필수적인 단계로 남아 있습니다. 이 단계에서는 sklearnLabelEncoder를 사용하여 클래스 레이블 (스팸 / 햄)을 이진 값으로 변환하고 , 이메일 주소, URL, 전화 번호 및 기타 기호를 정규 표현식 으로 바꾸고 , 불용어를 제거하고, 단어 어간을 추출합니다.

사전 처리 된 메시지에서 기능 추출

이 예에서는 각 문자 메시지의 단어가 우리의 특징이 될 것입니다. 이를 위해 각 단어를 토큰 화해야합니다 (예 : 문자열을 토큰 목록 또는 해당 단어 목록으로 분할). 우리는 1500 개의 가장 일반적인 단어를 특징으로 사용하고 NLTK 툴킷 을 사용하여 문장을 단어로 토큰 화합니다.

Jupyter 노트북에서 기능 추출

여러 알고리즘 적용

이제 추출 된 기능을 기반으로 데이터 세트가 준비되었으므로 알고리즘 빌드를 시작할 수 있습니다! 간단한 선형 지원 벡터 분류기로 시작한 다음 KNN, 의사 결정 트리, 회귀 자 등과 같은 다른 알고리즘으로 확장하겠습니다. 사용하려는 각 알고리즘을 sklearn에서 가져 와서 설정 한 성능 메트릭에 따라 평가해야합니다.

실험 결과

기계 학습 모델은 서버 나 클라우드에있을 필요가 없습니다. 스마트 폰에서도 사용할 수 있습니다. 그리고 Fritz AI에는 모바일 앱이보고 듣고 감지하고 생각하도록 쉽게 가르치는 도구가 있습니다.

모든 모델 쌓기

다시 말해, 앙상블 학습 기술은 기본적으로 앙상블 투표 분류기로 전달 된 각 개별 분류기의 결과를 집계합니다. 그런 다음 앙상블은 가장 많은 투표를 기반으로 출력 등급을 예측합니다. 투표 분류기는 두 가지 유형의 투표를 지원합니다.

  1. Hard Voting : Hard Voting 에서 예측 출력 클래스는 투표 수가 가장 많은 클래스입니다. 즉, 각 분류 자에 의해 예측 될 확률이 가장 높은 클래스입니다.
  2. 소프트 투표 : 소프트 투표에서 출력 클래스는 해당 클래스에 제공된 확률의 평균을 기반으로 한 예측입니다.

실험 결과

전처리 된 데이터 세트는 무작위 학습 및 테스트 하위 집합으로 분할되었습니다. 앙상블 분류기는 테스트 하위 집합에서 테스트됩니다.

아래 의 혼동 행렬 은 실제 값이 알려진 테스트 데이터 세트에 대한 앙상블 분류 모델의 성능을 설명합니다.

실험 결과

이 데모의 전체 코드는 다음 GitHub 저장소에서 찾을 수 있습니다.

편집자 주 : Heartbeat 는 모바일 앱 개발과 기계 학습의 새로운 교차점을 탐구하는 데 전념하는 기여자 중심의 온라인 출판 및 커뮤니티입니다. 우리는 각계 각층의 개발자와 엔지니어를 지원하고 영감을주기 위해 최선을 다하고 있습니다.

편집자 독립적 인 Heartbeat는 개발자가 장치를보고 듣고 감지하고 생각하도록 가르치는 데 도움이되는 기계 학습 플랫폼 인 Fritz AI 가 후원하고 게시합니다 . 우리는 기여자에게 돈을 지불하고 광고를 판매하지 않습니다.

기여하고 싶다면 기여자 요청으로 이동하세요 . 또한 주간 뉴스 레터 ( Deep Learning WeeklyFritz AI 뉴스 레터 )를 구독 하고 Slack 에서 가입 하고 Twitter 에서 Fritz AI를 팔로우 하여 모든 최신 모바일 기계 학습을 확인할 수 있습니다.

Suggested posts

머신 러닝으로 음악 앱 이탈 예측 : Sparkify 프로젝트

머신 러닝으로 음악 앱 이탈 예측 : Sparkify 프로젝트

이 프로젝트에서는 Udacity Data Scientist 트랙 졸업 프로젝트 인 음악 앱 Sparkify의 이탈 모델링에 대해 설명합니다. 이 프로젝트의 코드는 내 githıb 계정에서 찾을 수 있습니다 : https : // github.

“인공 일반 지능”이란 무엇입니까?

“인공 일반 지능”이란 무엇입니까?

일부 : 인공 일반 지능 소개. “어딘가에 놀라운 것이 알려지기를 기다리고 있습니다.

Related posts

Spotify의 마법 성분 : 기계 학습

Spotify의 마법 성분 : 기계 학습

면책 조항 :이 기사는 Spotify와 관련이 없으며 Spotify 및 현재 관련이 없을 수있는 과거 구조에 대한 확인되지 않은 정보로 구성 될 수 있습니다. 음악은 표현의 한 형태, 예술의 형태, 전체적인 문화 활동입니다.

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

신경 과학에서 자동 분화, 신경망 이론 및 신경 과정의 과소 적합에 이르기까지 현재 추구되고있는 다양한 딥 러닝 연구 흐름에 대한 더 나은 개요를 얻고 싶으십니까? 합리적으로 통과하기에는 열려있는 arXiv 탭이 너무 많습니까? 전체 동영상을 볼 시간이 너무 적습니까? 논문의 핵심 아이디어와 개념에 대한 간략한 요약 만 있다면. 그런 다음 '머신-러닝-콜라주'시리즈를 소개하게되어 기쁩니다.

내부의 관심 네트워크 그래프

수학에서 NumPy까지 단계별 가이드

내부의 관심 네트워크 그래프

그래프 신경망 (GNN)은 그래프 데이터에서 학습 할 수있는 표준 도구 상자로 등장했습니다. GNN은 콘텐츠 추천 또는 신약 발견과 같은 다양한 분야에서 영향이 큰 문제를 개선 할 수 있습니다.

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

안녕하세요! 이미지 분할에 대한이 짧은 시리즈의 첫 번째 부분을 읽지 않았다면 여기에서 읽으십시오. 이전 이야기에서 임계 값 및 색상 분할에 대해 논의 했으므로 2 부에서는 색도 분할과 이미지 차이에 중점을 둘 것입니다.