운동하러 나가시겠습니까? 데이터 과학의 결정

의사 결정 트리 머신 러닝 알고리즘 소개

Pixabay의 사진 : Sorbyphoto 님의 사진입니다.

가장 인기있는 고전적인 기계 학습 알고리즘 중 하나 인 의사 결정 트리는 설명 가능성이 다른 것보다 훨씬 직관적입니다. 다음 대화를 고려해 봅시다.

제이드 :“내일 뛰어야하나요?”
Chris :“날씨는 어때?”
Jade :“휴대 전화로 확인해 보겠습니다. 화창한 날입니다!”
Chris :“좋아요! 그럼 온도는 어때?”
Jade :“흠… 35도”
Chris :“오, 너무 덥습니다. 실내 수영장에서 수영하러 가고 싶습니다.”

우리는 삶에서 많은 결정을 내립니다. 우리가 왜 그러한 결정을 내 렸는지 생각해 보면, 대부분의 경우 위의 그림과 같이 그 뒤에 "의사 결정 트리"가 있습니다. 그렇기 때문에 의사 결정 트리는 아마도 인간의 마음에 매우 가까운 가장 직관적 인 기계 학습 방법 일 것입니다.

의사 결정 트리의 구성 요소

Pixabay의 PublicDomainPictures 님의 사진입니다.

의사 결정 트리는 기계 학습 모델로 어떻게 구축됩니까? 이 의사 결정 트리를 구축하는 여러 가지 인기 알고리즘은,하지만 그들은 두 단계를 포함해야합니다 구축 나무와 가지 치기 나무를.

의사 결정 트리 구성

의사 결정 트리를 구성하려면 알고리즘이 세 가지 유형의 노드를 생성해야합니다.

  • 루트 노드 : 의사 결정 트리에는 트리 맨 위에있는 루트 노드가 하나만 있습니다.
  • 내부 노드 :이 노드는 부모 노드와 자식 노드 사이의 중간입니다.
  • 리프 노드 :이 노드에는 자식 노드가 없으며 실제로 의사 결정 트리에 의해 만들어진 "결정"입니다.
  • 루트 노드에 대해 어떤 기능을 만들어야합니까?
  • 부모 노드를 자식 노드로 분할하기위한 "조건"은 어떻게 결정됩니까?
  • 더 많은 분기 생성을 중지하고 리프 노드로 끝나는시기는 언제입니까?

의사 결정 트리 정리

일단 나무가 세워지면 우리가 끝난 것처럼 들리지만 실제로는 아닙니다. 대부분의 경우 "과적 합"을 피하기 위해 나무를 가지 치기해야합니다.

위의 그래프에서 볼 수 있듯이 빨간색 샘플과 파란색 샘플을 분할하는 각 경계가 의사 결정 트리에서 노드를 분할하는 조건이라고 가정 해 보겠습니다. 왼쪽의 나무가 훈련 예제에 과적 합한 것으로 나타났습니다. 나무를 가지 치기 후 우리는 그것이 오른쪽에 무언가가 될 것으로 기대하고 있습니다.

과적 합의 이유는 일반적으로 훈련 데이터 세트가 작고 분할 된 것으로 간주되는 "특성"이 너무 많기 때문입니다. 의사 결정 트리 모델의 가장 흥미로운 특징은 훈련 데이터 세트에 완벽하게 맞출 수 있다는 것입니다. 즉, 훈련 데이터 세트를 100 % 정확하게 분류 할 수 있습니다. 그러나 그것은 우리가 만든 나무가 일반화 능력을 잃었 음을 거의 의미하기 때문에 우리가 원하는 것이 아닙니다. 즉, 실제 문제에서는 사용할 수없고 훈련 데이터 세트에만 사용할 수 있습니다.

일반적으로 두 가지 유형의 나무 가지 치기 메커니즘이 있습니다.

  • 사전 정리
  • 정리 후

알고리즘이 의사 결정 트리를 구축하는 방법

Pixabay로부터 입수 된 FeeLoona 님의 사진입니다.

의사 결정 트리를 구축하는 데 사용할 알고리즘의 종류에 관계없이 사용되는 두 가지 공통적이고 중요한 기준은 PurityEntropy 입니다.

청정

순결이 무엇인지 이해하는 것은 상당히 쉽습니다. 즉, 단일 기능의 경우 해당 결정이 얼마나 순수한가입니다. 위의 샘플 데이터 세트를 사용하여 시연 해 보겠습니다.

  • 비가 오면 모든 결정은 "아니오"(순도 100 %)
  • 날씨가 화창 할 때 두 가지 결정은“아니요”이고 그 중 하나는“예”입니다.

엔트로피

엔트로피는 엔트로피의 거의 반대 개념입니다. 열역학에서 정보 이론으로 옮겨진 개념 인 Claude Shannon [1]에 의해 처음 초대되었습니다. 일반적으로 정보의“불확실성”을 의미합니다. 공식은 다음과 같이 제공됩니다.

공식에 무서워하지 마십시오. 실제로 우리의 맥락에서 매우 간단합니다. 집합 " X "는 노드 집합의 모든 것이며 " xᵢ "은 각 샘플의 특정 결정을 나타냅니다. 따라서“ P (xᵢ) ”는 특정 결정을 내릴 세트의 확률입니다.

Purity 개념 설명에서 사용한 것과 동일한 예를 사용하겠습니다.

  • 비가 오면 두 가지 결정 모두 "아니오"(순도 100 %)
날씨가 화창 할 때 두 가지 결정은“아니요”이고 그 중 하나는“예”입니다.

정보 획득

Purity와 Entropy의 개념을 이해 한 후이를 사용하여 의사 결정 트리를 구축 할 수 있습니다. 가장 고전적이고 기본적인 의사 결정 트리 알고리즘 중 하나는 "ID3"입니다. 부모 노드의 엔트로피와 모든 자식 노드를 빼서 계산되는 "정보 이득"이라는 개념을 기반으로 노드를 분할합니다. 공식은 다음과 같습니다.

어디

  • "T"는 상위 노드이고 "a"는 "T"의 속성 집합입니다.
  • 표기법 "| T |" 세트의 크기를 의미

위의 그림에서 다음과 같이 날씨 노드 (이 컨텍스트에서 상위 노드)와 하위 노드 "Sunny", "Cloudy"및 "Rainy"의 엔트로피를 쉽게 계산할 수 있습니다.

따라서 "날씨"를 루트 노드로 사용하여 얻은 정보는 다음과 같이 계산할 수 있습니다.

마찬가지로, 동일한 방법을 사용하여 다른 두 기능인 온도 및 바람 수준의 정보 이득을 계산할 수 있습니다.

온도를 루트 노드로 사용하기위한 정보 이득은 0.522이고, 바람 수준의 경우 0.306입니다. 따라서 우리는 가장 높은 정보 이득 인 0.592를 가지고 있기 때문에 날씨를 루트 노드로 사용해야합니다.

루트 노드가 결정되면 모든 분기가 리프 노드, 즉 결정에 도달 할 때까지 나머지 내부 노드에 대해 정보 이득이 계속 사용됩니다.

ID3 알고리즘의 단점 (정보 이득)

Pixabay의 사진

확인. 위에서 언급 한 모든 내용을 이해했다면 ID3 (Information Gain) 알고리즘을 사용하여 의사 결정 트리를 구축하는 방법에 대해 알아야 할 모든 사항을 이해 한 것입니다. 그러나 ID3 알고리즘에는 몇 가지 중요한 단점이 있습니다.

또 다른 기능인 "Date"가 있다고 가정합니다. 분명히“날짜”기능은 우리가 뛰러 나가야하는지 여부를 결정하는 데 그다지 유용하지 않을 수 있습니다. 그러나 일반 ID3 알고리즘은보다 고유 한 값을 가진 기능을 트리의 루트에 닫힌 노드로 선택하는 경향이 있습니다. 즉, 중요한 노드로 사용하지 않는 기능을 가진 트리가 생길 수 있습니다.

물론 매번 발생하지는 않지만 가능합니다. 따라서 의사 결정 트리의 성능을 향상시키기 위해 C4.5 및 CART와 같은 더 많은 기계 학습 알고리즘이 제기됩니다.

다양한 종류의 기계 학습 및 데이터 마이닝 알고리즘으로 계속 업데이트하겠습니다. 따라서 관심이 있으시면 나중에 주시하십시오.

C4.5 알고리즘 :

요약

Pixabay로부터 입수 된 viarami 님의 사진입니다.

이 기사에서는 매우 인기 있고 고전적인 기계 학습 알고리즘 인 의사 결정 트리의 기본 사항을 소개했습니다. 의사 결정 트리 모델의 주요 구성 요소는 구성과 가지 치기로 구성됩니다. 그 후 가장 기본적인 의사 결정 트리 알고리즘 ID3을 소개했습니다. 우리는 퓨리티와 엔트로피가 무엇인지 배웠으며 이러한 유용한 개념은 의사 결정 트리를 구축하는 데 중요한 역할을합니다. ID3는 정보 획득을 사용하여 매우 직관적이고 설명 가능한 의사 결정 트리를 구성합니다. 그러나 다른 종류의 알고리즘에서 개선 될 단점이 있습니다.

다음 기사에서는 ID3의 단점을 극복하기 위해 ID3를 기반으로 한 다른 인기있는 의사 결정 트리 알고리즘에 대해 설명합니다. 기사가 기계 학습 / 데이터 과학 분야를 더 많이 이해하는 데 도움이되기를 바랍니다!

참고

[1] Shannon, CE (1948). 의사 소통의 수학적 이론. 벨 시스템 기술 저널 , 27 (3), 379–423.

Suggested posts

중요하지만 종종 간과되는 데이터 과학 및 분석 기술

중요하지만 종종 간과되는 데이터 과학 및 분석 기술

이제 데이터 과학 및 분석에 들어가는 데 필요한 기술 기술을 배울 수있는 방법이 그 어느 때보 다 많았습니다. 온라인 과정, Kaggle 대회, YouTube 자습서, 스택 오버플로가있는 금광 등이 있습니다. 현장에 침입하려는 사람들은 종종 "X 데이터 작업을 수행하려면 어떤 프로그래밍 기술이 필요한가요?", "어떤 기계 학습 기술을 배워야합니까?", "기술을 구축하려면 어떤 프로젝트를 수행해야합니까?"와 같은 질문을 자주합니다. / 포트폴리오?”.

데이터 포인트가 얼마나 극단적입니까?

특이 치 및 모델 선택

데이터 포인트가 얼마나 극단적입니까?

이상치 및 모델 선택 회귀를 실행할 수있는 것은 하나이지만 올바른 모델과 올바른 데이터를 선택할 수 있다는 것은 또 다른 문제입니다. 곡선의 맨 끝에있는 데이터 포인트가 실수로 여분의 제로 (인간 오류)를 기록한 사람 또는 블랙 스완 이벤트 (드물지만 중요한 이벤트)에서 가져온 것임을 어떻게 알 수 있습니까? 회귀 모델에 유지하면서 여전히 작동하는 예측을 가질 수 있습니까? 이 기사에서 알아 보자.

Related posts

Spotify의 마법 성분 : 기계 학습

Spotify의 마법 성분 : 기계 학습

면책 조항 :이 기사는 Spotify와 관련이 없으며 Spotify 및 현재 관련이 없을 수있는 과거 구조에 대한 확인되지 않은 정보로 구성 될 수 있습니다. 음악은 표현의 한 형태, 예술의 형태, 전체적인 문화 활동입니다.

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

신경 과학에서 자동 분화, 신경망 이론 및 신경 과정의 과소 적합에 이르기까지 현재 추구되고있는 다양한 딥 러닝 연구 흐름에 대한 더 나은 개요를 얻고 싶으십니까? 합리적으로 통과하기에는 열려있는 arXiv 탭이 너무 많습니까? 전체 동영상을 볼 시간이 너무 적습니까? 논문의 핵심 아이디어와 개념에 대한 간략한 요약 만 있다면. 그런 다음 '머신-러닝-콜라주'시리즈를 소개하게되어 기쁩니다.

내부의 관심 네트워크 그래프

수학에서 NumPy까지 단계별 가이드

내부의 관심 네트워크 그래프

그래프 신경망 (GNN)은 그래프 데이터에서 학습 할 수있는 표준 도구 상자로 등장했습니다. GNN은 콘텐츠 추천 또는 신약 발견과 같은 다양한 분야에서 영향이 큰 문제를 개선 할 수 있습니다.

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

안녕하세요! 이미지 분할에 대한이 짧은 시리즈의 첫 번째 부분을 읽지 않았다면 여기에서 읽으십시오. 이전 이야기에서 임계 값 및 색상 분할에 대해 논의 했으므로 2 부에서는 색도 분할과 이미지 차이에 중점을 둘 것입니다.