BERT 텍스트 분류 예제를 사용한 교차 검증으로서 K- 폴드

K-Fold Cross-Validation을 사용하여 BERT Text-Classification의 예를 통해 Transformers 모델 유효성 검사를 개선합니다.

Unsplash에 Martin Sanchez의 사진

2020 년 4 월 7 일 https://www.philschmid.de처음 게시되었습니다 .

K-fold는 보이지 않는 데이터에 대한 기계 학습 모델의 기술을 추정하는 데 사용되는 교차 검증 방법입니다. 이해하기 쉽고 구현하기 쉽고 결과가 일반 검증 방법보다 더 많은 정보를 제공하기 때문에 모델을 검증하는 데 일반적으로 사용됩니다.

교차 검증은 제한된 데이터 세트에서 기계 학습 모델을 검증하는 데 사용되는 리샘플링 절차입니다. 프로 시저에는 K주어진 데이터 샘플이 분할 될 그룹의 수를 나타내는 단일 매개 변수 가 있습니다. 이것이 K-fold라고 불리는 이유입니다.

선택 K은 일반적으로 5 또는 10이지만 공식적인 규칙은 없습니다. 으로 K큰지고, 리샘플링 부분 집합은 점점 작아지고있다. 의 수는 K기계 학습 모델이 학습되는 빈도도 정의합니다. 대부분의 경우 데이터를 80 % -20 %, 90 % -10 % 또는 70 % -30 %의 학습 / 검증 세트로 분할하고 모델을 한 번 학습합니다. 교차 검증에서는 모델 K시간 을 분할 한 다음 훈련합니다. 이로 인해 교육 과정이 더 길어질 것입니다.

K- 폴드 단계 :

  1. 데이터 세트를 섞습니다.
  2. 데이터 세트를 K그룹 으로 분할합니다 .
  3. 각 고유 한 그룹에 대해 g:
    1. g테스트 데이터 세트로 가져 갑니다.
    2. 나머지 그룹을 훈련 데이터 세트로 가져옵니다.
    3. 훈련 세트에 모델을 맞추고 테스트 세트에서 평가합니다.
    4. 평가 점수를 유지하고 모델을 폐기합니다.
  4. 모델 평가 점수 샘플을 사용하여 모델의 기술을 요약합니다.
K- 폴드 교차 검증 그림

Scitkit-Learn 예제

예제는 scikit-learnscalar numpy array.

Simpletransformers 예제 (BERT 텍스트 분류)

예제는 BERT Text-Classificationwith simpletransformers라이브러리scikit-learn.

K- 폴드 교차 검증의 이점

모든 데이터 사용 : K- 폴드 교차 검증을 사용하여 전체 데이터 세트를 사용합니다. 이는 K검증 데이터 세트에 대해 X %를 낭비하는 대신 모델 시간을 분할하고 훈련하여 성능을 확인 하기 때문에 작은 데이터 세트가있는 경우에 유용합니다 .

더 많은 메트릭 얻기 : 대부분의 경우 메트릭 결과가 하나 있지만 K-Fold K를 사용하면 메트릭의 결과 를 얻을 수 있고 모델의 성능을 더 자세히 살펴볼 수 있습니다.

더 높은 정밀도 달성 : 여러 "검증 세트"에 대해 모델을 검증함으로써 더 높은 수준의 신뢰성을 얻습니다. 다음 예를 상상해보십시오. 3 명의 스피커와 1500 개의 녹음이 있습니다 (각 스피커에 대해 500 개). 간단한 학습 / 검증 분할을 수행하면 분할에 따라 결과가 매우 다를 수 있습니다.

Suggested posts

기계 학습을 사용하여 분류

기계 학습을 사용하여 분류

저는 Emeritus를 통해 Columbia Engineering과 함께 Applied Machine Learning을 공부하고 있습니다. 제가 정말 즐겼고 추천 할만한 5 개월 코스입니다.

머신 러닝으로 음악 앱 이탈 예측 : Sparkify 프로젝트

머신 러닝으로 음악 앱 이탈 예측 : Sparkify 프로젝트

이 프로젝트에서는 Udacity Data Scientist 트랙 졸업 프로젝트 인 음악 앱 Sparkify의 이탈 모델링에 대해 설명합니다. 이 프로젝트의 코드는 내 githıb 계정에서 찾을 수 있습니다 : https : // github.

Related posts

Spotify의 마법 성분 : 기계 학습

Spotify의 마법 성분 : 기계 학습

면책 조항 :이 기사는 Spotify와 관련이 없으며 Spotify 및 현재 관련이 없을 수있는 과거 구조에 대한 확인되지 않은 정보로 구성 될 수 있습니다. 음악은 표현의 한 형태, 예술의 형태, 전체적인 문화 활동입니다.

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

신경 과학에서 자동 분화, 신경망 이론 및 신경 과정의 과소 적합에 이르기까지 현재 추구되고있는 다양한 딥 러닝 연구 흐름에 대한 더 나은 개요를 얻고 싶으십니까? 합리적으로 통과하기에는 열려있는 arXiv 탭이 너무 많습니까? 전체 동영상을 볼 시간이 너무 적습니까? 논문의 핵심 아이디어와 개념에 대한 간략한 요약 만 있다면. 그런 다음 '머신-러닝-콜라주'시리즈를 소개하게되어 기쁩니다.

내부의 관심 네트워크 그래프

수학에서 NumPy까지 단계별 가이드

내부의 관심 네트워크 그래프

그래프 신경망 (GNN)은 그래프 데이터에서 학습 할 수있는 표준 도구 상자로 등장했습니다. GNN은 콘텐츠 추천 또는 신약 발견과 같은 다양한 분야에서 영향이 큰 문제를 개선 할 수 있습니다.

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

안녕하세요! 이미지 분할에 대한이 짧은 시리즈의 첫 번째 부분을 읽지 않았다면 여기에서 읽으십시오. 이전 이야기에서 임계 값 및 색상 분할에 대해 논의 했으므로 2 부에서는 색도 분할과 이미지 차이에 중점을 둘 것입니다.