몇 분 안에 교차 엔트로피 손실 이해

우리는 항상 Cross Entropy Loss에 대해 쓰고 싶었습니다. 인기있는 Softmax 활성화 기사에 대한 자연스러운 후속 조치 일뿐 입니다. 그들은 최고의 친구입니다. 교차 엔트로피 손실을 언급하지 않고 Softmax에 대해 작성하는 것이 너무 이상했습니다! 우리는 또한 기사 파이프 라인 기사 에 대한 투표 에서 독자의 의견을 듣습니다 .우리의 목표는 초보자에게 친숙한 ML, DL, 강화 학습 및 데이터 과학 자습서를 최대한 많이 작성하는 것입니다. 다음 단계는 기계 학습 논문에 대해 쓰고 중국어와 일본어로 기계 학습에 대해 쓰는 것입니다! 아이디어가 마음에 들면 파이프 라인 기사에서 투표하십시오. 평소처럼 원하는 경우 시크릿 모드에서이 문서를 읽을 수 있습니다. Uniqtech 학생 장학생이되고 싶습니까? hi@uniqtech.co로 작성해 주시면 피드백 및 / 또는 이메일 등록에 대한 대가로 몇 가지 기사를 무료로 제공 해드립니다. Softmax가 무엇인지 알고 있다고 가정합니다. 그렇지 않은 경우 이전 기사를 읽으십시오. 인터넷에서 가장 인기가 있습니다.

이진 교차 엔트로피 손실과 다중 클래스 교차 엔트로피 손실이 있습니다. 먼저 교차 엔트로피 손실에 대해 이야기 해 봅시다. 이진 손실은 나중에 고려할 것입니다. 이제 Softmax를 알고 있습니다. 모델은 확률 벡터를 예측합니다. [0.7, 0.2, 0.1]Sum of 70 % 20 % 10 %는 100 %이고 첫 번째 항목이 가장 가능성이 높습니다. 그리고 네, 당신의 진정한 라벨은 [1, 0, 0]– 확실히 고양이, 엔트리 2의 개가 아니라, 확실히 엔트리 3의 새가 아닙니다. 그렇다면 모델의 확률 예측은 얼마나 잘 했습니까? 약간의 선형 대수가 도움이 될 것입니다. 특히 내적입니다! 내적은 항목별로 두 벡터의 곱셈의 합입니다. 의사 코드는 [0.7, 0.2,0.1] dot [1,0,0].transpose1 x 3 벡터 도트 a 3 x 1 벡터 = 1x1 = 숫자입니다. 0.7 *1 + 0.2 * 0 + 0.1 * 0= 0.7. 0을 곱한 값은 0이기 때문에 잘못된 항목은 항상 0이됩니다. 그리고 진정한 레이블에는 항상 1 인 항목이 [1,0,0], [0,1,0], or [0,0,1]하나만 있습니다. 고양이, 개 또는 새일 수만 있고 모든 것을 가질 수는 없습니다!

두 벡터가 얼마나 유사한 지 계산하려면 내적을 계산하십시오! — 우리에게 Uniqtech가 말했다 :)

왜 무작위 계산을 하는가? 우리는 교차 엔트로피 손실을하지 않습니까? 위의 접근 방식은 두 벡터 간의 유사성을 측정하는 한 가지 방법입니다. 실제로 이것은 협업 필터링이라고하는 영화 및 도서 추천 시스템에서 사용됩니다! 다른 기사에서 이에 대해 자세히 알아보십시오. 교차 엔트로피는 Softmax 출력이 얼마나 좋은지 측정하는 또 다른 방법입니다. [1,0,0], [0,1,0],[0,0,1]예를 들어 클래스가 세 개 뿐인 경우 Softmax 출력 벡터를 실제 벡터와 비교하는 것이 이것이 얼마나 유사합니다 . Softmax는 다중 클래스 분류 작업을위한 것입니다. 회귀 작업의 경우 평균 제곱 손실 MSL을 사용할 수 있습니다. 다중 클래스 분류 작업의 경우 교차 엔트로피 손실은 훌륭한 후보이며 아마도 인기있는 것입니다!

교차 엔트로피 손실의 좋은 기능은 아래 스크린 샷을 참조하십시오. 또한 링크 할 Udacity 비디오에서 가져온 것입니다. 하지만 먼저 몇 분 동안 함께 살펴 보겠습니다. 이것의 또 다른 이름은 범주 형 교차 엔트로피 손실입니다.

S (y)는 소프트 맥스 함수의 출력입니다. 이것은 예측이므로 y_hat이라고도합니다. L은 진실입니다! 실제 클래스의 핫 인코딩 된 레이블 하나, 항목 하나만 1이고 나머지는 0입니다. 출력 벡터의 각 항목에 대해 1 단계 Softmax는 첫 번째 항목의 로그 (일반적으로 1보다 작은 숫자)를 취하므로 매우 음수입니다. 예를 들어 log_base_2 0.7은 음수 0.5145731728297583이고 2의 -0.5145731728297583 제곱은 0.7입니다. , 2 단계 항목에 Ground Truth를 곱한 log(0.7)*1다음 3 단계 우리는 L_i 앞에 단순 합산되는 빅 시그마 때문에 log(0.2)*0물론 0이고 0 인 각 항목에 대해이를 수행합니다. log(0.1)*0Log (S_i) 우리는 -0.5145731728297583 인 모든 손실을 합산하고, 5 단계 앞면의 큰 음수 부호로 인해 -1을 곱하고 손실을 양수 0.5145731728297583으로 바꿉니다.

원-핫 인코딩 된 Ground Truth에는 거의 항상 항목이 0 개이고 로그 0을 취할 수 없기 때문에 로그가 Softmax 출력에만 적용된다는 것을 기억하기 쉽습니다.

평균 제곱 손실 과 마찬가지로 손실을 활용할 수 있습니다. 아래 스크린 샷의 1 / N을 참조하십시오. 따라서 데이터 포인트 수가 많은 경우에도 손실 함수가 잘 작동합니다. 아래 스크린 샷에서 y는 실측 값이고 y_hat은 예측입니다. 평균을 계산하기 위해 1 / N으로 위와 동일합니다.

이진 교차 엔트로피 (로그 손실)

이진 교차 엔트로피 손실은 더 복잡해 보이지만 올바른 방식으로 생각하면 실제로 쉽습니다.

이진 분류에는 세계의 두 가지 상태가있을 수 있습니다. y 지상 진실은 1 또는 0입니다.

y = 0이면 첫 번째 항이 0이므로 (1- y) * log (1-y_hat) 만 계산합니다. y는 0이므로 (1-y) = 1–0 = 1입니다. 따라서이 항은 log (1–y_hat)입니다.

y = 1이면 두 번째 항이 0이면 첫 번째 항만 적용됩니다.

야생의 이진 교차 엔트로피 이미지는 아래를 참조하십시오. 예는 Stanford의 ChexNet 논문입니다.

딥 러닝의 교차 엔트로피 손실

교차 엔트로피 함수는 내 딥 러닝 파이프 라인에서 어디에 적합합니까? Softmax 함수 바로 뒤에 위치하며 Softmax 함수 출력과 실제 레이블에서 입력을받습니다.

이제 Cross Entropy Loss에 대해 많이 알게되었으므로 Google Deep Learning 실무자가 아래 동영상을 쉽게 이해할 수 있습니다.

교차 엔트로피 손실의 목표는 Softmax의 확률 분포 출력이 데이터의 원-핫 인코딩 된 지상 실측 레이블과 얼마나 잘 일치하는지 비교하는 것임을 기억하십시오. 핫 인코딩 된 하나는 각 열 벡터에서 하나의 항목 만 1이고 나머지는 0임을 의미합니다. 일반적으로 모든 클래스 또는 범주가 독립적 인 범주 형 데이터를 인코딩하는 데 사용됩니다. 예를 들어 개체는 동시에 고양이, 개 및 새가 될 수 없습니다.

이와 같은 더 많은 기사를 보려면 우리를 따르십시오!

왜 공식에 로그인합니까? 직관은 두 벡터 간의 유사성을 측정하기 위해 두 벡터의 내적을 취할 수 있다고 말합니다. 교차 엔트로피 공식은 정보 이론에 뿌리를두고 있으며 정보가 얼마나 빨리 효율적으로 전달 될 수 있는지 측정합니다. 예를 들어, 특히 적은 수의 비트로 더 빈번한 정보를 인코딩하는 인코딩입니다. 로그를 사용하여 계산된다는 것이 밝혀졌습니다. 예를 들어 log (1 / y).

Suggested posts

베이지안 확산 모델링을 사용한 고급 예측

베이지안 확산 모델링을 사용한 고급 예측

데이터 과학의 모든 영역에서 동적 현상을 예측하고 설명하기위한 혁신적인 모델링 솔루션에 대한 수요가 많습니다. 모델링 및 동적 현상 예측의 높은 프로필 사용 사례는 다음과 같습니다. 오픈 소스 데이터 세트에 적용된 베이지안 확산 모델링을 보여주는 종단 간 예제가 제공됩니다.

비용이 많이 드는 앱은 무료 앱보다 높은 평가를 받습니까?

비용이 많이 드는 앱은 무료 앱보다 높은 평가를 받습니까?

애플리케이션의 평균 사용자 평점은 사용자가 앱을 즐기는 지 여부와 앱의 성공 수준을 결정하는 데 도움이되는 훌륭한 지표입니다. 사용자가 응용 프로그램을 구입해야하는 경우 응용 프로그램에 대한 표준이 무료 응용 프로그램에 비해 높습니다.