WestWorld 시리즈는 기계 학습에서 이상 치를 처리하는 방법에 대해 생각하는 데 도움이됩니다.

WestWorld 시리즈에서 중단 된 이상치 기술에 대한 개요입니다.

경고 : WestWold 시즌 3 에피소드 6에는 무해한 스포일러가 있습니다.

처음에는 내가 살펴볼 주제에 대한 브리핑입니다. WestWorld에서 회사는 Rehoboam이라는 시스템을 구축합니다. 이것은 각 개인의 삶에 대한 데이터를 저장하는 지능 인공 소프트웨어입니다. 이 데이터를 사용하여 르호보암은 각 개인 또는 인류의 미래를 예측할 수 있습니다. 이 시스템은 시나리오를 시뮬레이션 할 수 있으며 르호보암 소유자는 결정을 내리고 개인 또는 모든 사람의 미래를 선택할 수 있습니다. 글쎄요, 기계 학습의 좋은 예측 모델이 정확히 작동하는 방식이지만 논리적으로는 무한한 복잡한 시나리오가 있습니다.

이 비디오는 르호보암 시스템의 작동 방식을 설명했습니다.

이 고정밀 시스템이 이상 값을 처리하는 방법을 이해하기 위해 추격을 시작하겠습니다. Rehoboam에서 특이 치는 레코드 줄 (각 ​​레코드는 사람 임)이며 예측 된 동작을 나타내지 않습니다. 이것은 왜곡을 생성하고 모든 모델에 대한 예측을 방해합니다.

모든 모델에 적용 할 수있는 황금률이나 마법 솔루션이 존재하지 않는 것은 사실입니다. 따라서 정확하고 정밀한 예측에서 특이 치 영향을 최소화하기 위해 분석을 수행해야합니다.

우선, 이러한 불일치 지점을 찾는 두 가지 효율적인 방법 :

1- BOXPLOT 만들기 — 사 분위수를 분석하고 특이 치를 찾습니다.

import seaborn as sns
sns.boxplot(y='SalePrice',data=dbfilter)

print('SCORE train',model.score(X_train, y_train))
print('SCORE test',model.score(X_test, y_test))
print('MAE:', mean_absolute_error(y_test, preds))
print('MSE:', mean_squared_error(y_test, preds))
print('RMSE:', np.sqrt(mean_squared_error(y_test, preds)))
y_test.reset_index(inplace=True, drop=True)
plt.figure(figsize=(15,8))
plt.scatter(y_test,preds, c='orange')
plt.xlabel('Y Test')
plt.ylabel('Predicted Y')
plt.show()

모델 평가 메트릭을 사용하여 이상 값을 평활화합니다. 이상 값을 사용 하여 모델을 훈련하지만 예를 들어 Minkowski (오차가 얼마나 클수록 평활화가 가장 큰지)를 사용하여 평가 메트릭을 활용합니다. 신경망 및 Gradient Boosting Regression 모델에서 오류는 각각 다음 세대 또는 트리에서 사용되며이 평활화는 예측에서 정밀도 손실을 초래할 수 있습니다. WestWorld는이 접근법이 사용되었는지 설명하지 않았습니다. 그러나 왜곡이 도입되면이 방법은 성능을 저하시킬 수 있습니다. 이상 치가 아닌 실제 오류는 정확한 조정을해야합니다. 그러나이 기술을 사용하면 오류로 인해 성능 향상에 이상적인 양으로 모델이 조정되지 않습니다.

정규화를 통해 모든 데이터 변환 : 모든 데이터를 Z- 점수 척도에 넣으십시오. 예를 들어 특이 치의 점 효과는 평활화되지만 원본 데이터에 잘못된 숙고를 전제로하기 때문에 왜곡이 발생할 수 있습니다. 즉, 이것은 본질적으로 정규화되지 않은 무언가에서 정규화를 수행합니다. WestWorld는 논리적으로 이러한 기술을 사용하면 그다지 심화되지 않았지만이 기술을 선택하면 데이터의 허용 가능한 원래 변동성을 편견 할 수 있다고 생각합니다. 높은 예측 성능에 대한 우려를 강조하는 것이 중요합니다.

특이 치에 새 값 지정 : 이상치의 부정적인 영향을 제거하는 평균, 중앙값 또는 기타와 같은 통계 메트릭으로 불일치 값을 변경합니다. 그러나 데이터베이스 크기가 작거나 표현적인 특이 치의 양이있는 경우 모델은 귀중한 정보를 잃고 예측 오류를 증가시킬 수 있습니다. 위 항목에서 언급 한 것과 같은 이유로 WestWorld가이 대안을 사용하면 변동성 손실이 발생하고 모델 주장 정도가 감소해야합니다.

단지 관찰 일 뿐인이 시리즈는 레코드 간의 의존 관계 를 보여줍니다 . 이상 치는 모델을 왜곡하고 다른 사람 (사람) 행동에도 영향을 미칩니다. 사람들은 모델에 의해 예측되지만 특이한 영향을 받아 예기치 않은 행동이 발생합니다. 따라서 위에서 언급 한 세 가지 접근 방식은이 종속성 문제에 대한 적절한 해결책이 아닙니다.

이상 값의 한계 속성 지정 : 이 방법은 이상 값을 허용 가능한 마지 한계로 재 할당합니다. 따라서 이상치 영향은 지원 라인으로 제한됩니다 (SVM-지원 벡터 머신 개념). 이 한계는 허용 된 표준 편차 간격을 통해 규정 될 수 있습니다. 따라서 포인트가 해당 범위를 벗어나면 에지 값을 받았습니다. 이것은 Rehoboam 시스템이 이상 값 문제를 해결하기 위해 사용하는 첫 번째 접근 방식입니다. 사람들 (기록)은 규정 된 규칙을 준수해야합니다. 즉, 표준에 맞아야합니다. 모든 사람은 항상 모델에 머무르기 위해 자극을받는 시스템에 대한 순응도에 따라 순위를 매겼습니다. 시스템은 가변성 한계를 알고 각 사람을 한계에 유지하려는 조치를 실현했습니다. 이러한 한계 한계에 대한 지식은 모델 학습 중에 특이 치의 양을 줄이는 데 도움이됩니다.

이상치 삭제 : 데이터베이스 또는 이상치의 수량이 적을 때 중요한 정보량을 손실하기 때문에 삭제 조치는 나쁜 옵션입니다. 반대 상황에서 데이터 볼륨이 더 크고 비례 적으로 이상 값이 거의없는 경우 제거 작업은 모델 왜곡을 방지하고 정보 손실은 미미합니다. Rehoboam 제작자는 사람들 (레코드)이 허용 가능한 변형 제한을 유지하도록 설득 할 수 없을 때이 솔루션을 채택했습니다. 이 특이한 사람들은 나머지 인류와의 접촉없이 체포되었습니다. 따라서이 방법을 사용하면 특이 치는 예측 모델을 편견하거나 다른 레코드 동작을 변경할 수 없습니다.

WestWorld는 인공 지능, 기계 학습 및 예측 모델에 대해 정말 좋은 조언자를 가지고 있습니다. 이 시리즈는 창조 모델 과정에서 항상 많은 분석과 헌신이 필요한 특이한 접근 방식을 이야기에 삽입 한 것처럼 극단적 인 형태로 인류의 미래에 대한 예측을 탐구하고 창조하는 데 숙달되었을뿐만 아니라. 그래서 이번 WestWorld의 세 번째 시즌은 이상 값에 대해 더 많이 배우는 데 도움이되었습니다. 다음 질문은 르호보암이 누락 된 값을 어떻게 처리합니까? !!

Suggested posts

기계 학습 워크 플로를 실행하여 데이터를 변환하고 txtai로 AI 기반 텍스트 인덱스를 구축합니다.

데이터 흐름에 NLP 변환 적용

기계 학습 워크 플로를 실행하여 데이터를 변환하고 txtai로 AI 기반 텍스트 인덱스를 구축합니다.

txtai는 기계 학습 워크 플로우를 실행하여 데이터를 변환하고 AI 기반 텍스트 인덱스를 구축하여 유사성 검색을 수행합니다. txtai는 텍스트 스 니펫, 문서, 오디오 및 이미지 인덱싱을 지원합니다.

Python Datetime 모듈에서 반드시 알아야 할 4 가지 객체

포괄적 인 실용적인 가이드

Python Datetime 모듈에서 반드시 알아야 할 4 가지 객체

시간은 많은 데이터 과학 관련 작업에서 중요한 기능입니다. 예를 들어, 일일 판매 및 재고 정보는 소매 분석에 매우 중요합니다.

Related posts

Spotify의 마법 성분 : 기계 학습

Spotify의 마법 성분 : 기계 학습

면책 조항 :이 기사는 Spotify와 관련이 없으며 Spotify 및 현재 관련이 없을 수있는 과거 구조에 대한 확인되지 않은 정보로 구성 될 수 있습니다. 음악은 표현의 한 형태, 예술의 형태, 전체적인 문화 활동입니다.

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

신경 과학에서 자동 분화, 신경망 이론 및 신경 과정의 과소 적합에 이르기까지 현재 추구되고있는 다양한 딥 러닝 연구 흐름에 대한 더 나은 개요를 얻고 싶으십니까? 합리적으로 통과하기에는 열려있는 arXiv 탭이 너무 많습니까? 전체 동영상을 볼 시간이 너무 적습니까? 논문의 핵심 아이디어와 개념에 대한 간략한 요약 만 있다면. 그런 다음 '머신-러닝-콜라주'시리즈를 소개하게되어 기쁩니다.

내부의 관심 네트워크 그래프

수학에서 NumPy까지 단계별 가이드

내부의 관심 네트워크 그래프

그래프 신경망 (GNN)은 그래프 데이터에서 학습 할 수있는 표준 도구 상자로 등장했습니다. GNN은 콘텐츠 추천 또는 신약 발견과 같은 다양한 분야에서 영향이 큰 문제를 개선 할 수 있습니다.

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

안녕하세요! 이미지 분할에 대한이 짧은 시리즈의 첫 번째 부분을 읽지 않았다면 여기에서 읽으십시오. 이전 이야기에서 임계 값 및 색상 분할에 대해 논의 했으므로 2 부에서는 색도 분할과 이미지 차이에 중점을 둘 것입니다.