기술 통계량 이해

추론 과정 전에 기술 통계가 중요합니다.

Unsplash에 NORTHFOLK의 사진

목차

  1. 소개
  2. 데이터 유형
  3. 정량적 데이터 분석
    I.
    센터
    측정 II. 확산
    대책 III. 분포 형태
    IV. 이상치
  4. 기술 통계와 추론 통계
  5. 앞서보기
  6. 요약

"데이터"라는 단어는 별개의 정보로 정의됩니다. 데이터는 단순히 스프레드 시트의 숫자로 생각할 수 있지만 텍스트에서 비디오, 스프레드 시트, 데이터베이스, 이미지, 오디오에 이르기까지 다양한 형태로 제공 될 수 있습니다. 데이터 활용은 세상의 새로운 방식입니다 . 데이터는 조기 질병 발견부터 전 세계 사람들과 연결하고 소통 할 수있는 소셜 네트워크에 이르기까지 우리 삶의 거의 모든 측면을 이해하고 개선하는 데 사용됩니다. 보험, 은행, 의학, 교육, 농업 등 어떤 분야에 있든 상관없이 데이터를 활용하여 더 나은 결정을 내리고 목표를 달성 할 수 있습니다 . 추론 통계 프로세스를 시작하기 전에 데이터 세트에 대한 기술 통계를 실행하는 것이 절대적으로 중요 합니다.. 많은 사람들, 특히 초보자들은 연구에서 신중하게 기술 통계를 실행하고 데이터를 정리하고 데이터가보다 강력한 통계 테스트에 필요한 가정을 충족하는지 확인하지만이 프로세스를 수행하는 것이 절대적으로 중요합니다. 바르게.

데이터 유형

  • 양적 데이터 는 수학적 연산을 수행 할 수있는 숫자 값을 사용합니다.
    - 연속 데이터 는 더 작은 단위로 나눌 수 있지만 여전히 더 작은 단위가 존재합니다. (예를 들어 연령 단위를 년, 월, 일, 시간, 초 단위로 측정 할 수 있지만 이와 관련 될 수있는 더 작은 단위가 여전히 있습니다).
    - 이산 데이터 는 셀 수있는 값만 취합니다.
  • 범주 형 데이터 는 항목 그룹 또는 집합에 레이블을 지정하는 데 사용됩니다.
    - 범주 서수 : 데이터 (예를 들어, A가에서 규모에 상호 작용을 평가하기위한 평가 순서에 걸릴 Very badVery Good).
    -범주 형 명목 :
    순서 나 순위가없는 데이터입니다.

정량적 데이터 분석

중심 측정

  1. 평균
    평균은 종종라고 평균 또는 기대 값 수학을. 모든 값을 더하고 데이터 세트의 값 수로 나누어 평균을 계산합니다.
  2. 중앙값
    중앙값은 데이터를 분할하여 값의 50 %가 더 낮고 50 %가 더 높습니다.
    - 홀수 값의 중앙값 : 관측치 수가 홀수 인 경우 중앙값 은 단순히 바로 중간
    에있는 숫자입니다 . - 우리가있는 경우 에도 관찰의 수의 중앙값 은 IS 중간에있는 두 값의 평균 .
    참고 : 중앙값을 계산 하려면 먼저 값을 정렬해야합니다 .
  3. 모드
    모드는 우리의 데이터 집합에서 가장 빈번하게 관찰 된 값입니다.
    참고 1 : 특정 데이터 세트에 대해 여러 모드 가 있거나 모드전혀 없을 수 있습니다 .
    참고 2 : 분포 모드는 기본적으로 히스토그램에서 가장 높은 막대입니다. 히스토그램의 피크 수에 따라 여러 모드가있을 수 있습니다.

데이터의 확산을 측정하는 가장 일반적인 방법 중 하나는 Five Number Summary를 보는 것 입니다. 다음과 같은 5 개의 값으로 구성됩니다.

  1. 최소값 : 데이터 세트에서 가장 작은 숫자입니다.
  2. 1 사 분위 Q1 : 데이터의 25 %가 아래로 떨어지는 값입니다.
  3. 2 사 분위 Q2 (중앙값) : 데이터의 50 %가 아래로 떨어지는 값입니다.
  4. 3 사 분위 Q3 : 데이터의 75 %가 아래로 떨어지는 값입니다.
  5. 최대: 데이터 세트에서 가장 큰 값입니다.
출처 : 저자

스프레드 측정은 데이터가 서로 어떻게 퍼져 있는지에 대한 아이디어를 제공하는 데 사용됩니다. 일반적인 확산 측정은 다음과 같습니다.

  1. 범위 :
    범위 사이의 차이가 최대최소 .
  2. 분위 범위 (IQR는)
    분위 범위 사이의 차이로서 계산된다 Q3Q1 .
  3. 분산 :
    분산은 서로 다른 두 그룹의 산포를 비교하는 데 사용됩니다. 분산이 더 높은 데이터 세트는 분산이 더 낮은 데이터 세트보다 더 분산되어 있습니다. 그러나 대부분의 데이터가 실제로 매우 근접 할 때 분산을 증가시키는 특이 치 (또는 특이 치)가 있을 수 있습니다 . 분산은이다 평균으로부터 각각의 관측 평균 제곱 차이.
분산 공식 : 작성자 별 출처
표준 편차 공식 : 저자별 출처

참고 : LaTeX를 사용한 수학적 작문에 관심이 있다면이 기사를 확인하세요.

분포의 형태

히스토그램에서 데이터의 모양을 신속하게 식별 할 수 있으며 실제로 중앙 및 산포 측정 값에 대해 많은 것을 알 수 있습니다. 데이터 분포는 세 가지 형태 중 하나와 자주 연관됩니다.

  1. 오른쪽 기울어 짐을
    가진 히스토그램 짧은 빈들 오른쪽 빈들 왼쪽은 오른쪽 비대칭 형상으로 간주된다. 이 분포에서 평균은 중앙값보다 큽니다.
    실제 사례 : 시간이 지남에 따라 혈류에 남은 약물의 양, 인간의 운동 능력…
  2. 왼쪽 비스듬
    가진 히스토그램 짧은 빈들 좌측 빈들 오른쪽은 오른쪽 비대칭 형상으로 간주된다. 이 분포에서 평균은 중앙값보다 작습니다.
    실제 사례 : 사망 연령, 자산 가격 변동…
  3. 대칭
    중간에 선을 그릴 수 있고 오른쪽이 왼쪽을 미러링하는 모든 분포는 대칭으로 간주됩니다. 가장 일반적인 대칭 분포 중 하나는 정규 분포 로 알려져 있으며 ' 종 곡선 ' 이라고도 합니다.
    대칭 분포는 중앙값과 동일한 평균을 가지며, 이는 모드와 동일합니다. 또는 대칭 상자 지점도 있습니다.
    실제 사례 : 높이, 무게, 강수량…
출처 : 저자

이상치

특이 치는 데이터 세트의 나머지 값에서 매우 멀리 떨어진 데이터 포인트입니다. 매우 먼 것을 결정하기 위해 여러 가지 방법이 있습니다. 이상 값을 탐지하는 데 일반적으로 사용하는 방법은 과학적이지 않습니다. 데이터를 플로팅하고 다른 데이터 포인트에서 실제로 멀리 떨어진 포인트가 있는지 확인합니다. 여기 에서 특이 치를 식별하는 방법과 기술을 확인할
수 있습니다 .

데이터의 빠른 플롯은 짧은 시간에 많은 것을 이해하는 데 도움이되는 경우가 많습니다.

출처 : 저자

이상 치가 요약 통계를보고하는 방식에 미칠 수있는 영향을 설명하기 위해 스타트 업 / 회사의 수입을 고려해 보겠습니다. 10 개의 스타트 업 수익을 선택하고 여기에서이 9 개의 값을 수천 달러의 수익으로 가져오고 열 번째는 Facebook 또는 Tesla입니다. 평균, 분산, 표준 편차의 측정 값은 믿을 수 없을 정도로 오해의 소지가 있으며 10 개의 급여 중 어느 것도 계산 된 평균에 가까울 수 없습니다. 더 나은 중심 측정은 확실히 중앙값입니다.

이상치 작업

당신이보고를하는 사람이라면, 데이터를 분석 할 때 저의 개인적인 가이드 라인은 다음과 같습니다.

  1. 데이터 플로팅
  2. 이상 값이있는 경우 처리 방법을 결정하십시오. 이를 위해서는 해당 분야의 도메인 전문가가 필요할 수 있습니다. 제거해야합니까? 고쳐야하나요? 보관해야하나요?
  3. 이전에 보았던 종 모양 인 정규 분포 된 데이터로 작업하는 경우 평균과 표준 편차 만 사용하여 데이터에 대한 모든 세부 정보를 찾을 수 있습니다. 놀랍게 보일지 모르지만 사실입니다. 그러나 치우친 데이터로 작업하는 경우 5 자리 요약 은 이러한 데이터 세트에 대한 평균 및 표준 편차가 제공 할 수있는 것보다 훨씬 더 많은 정보를 제공합니다.
    참고 : 데이터가 정규 분포를 따르는 지 확실하지 않은 경우 데이터가 정규 분포를 따르는 지 여부를 이해하는 데 도움이 되는 Kolmogorov-Smirnov 테스트 와 같은 통계 방법이 있습니다 .

최소한 우리는 그것들이 존재한다는 점에 유의해야합니다. 요약 통계에 미치는 영향을 인식해야합니다. 이상 값이 오타 또는 데이터 입력 오류 인 경우 이러한 점을 제거해야하는 이유이거나, 그 값이 무엇인지 알고있는 경우 올바른 값으로 업데이트 할 수 있습니다. 위의 예 (Startups / Facebook)와 같은 경우, 다른 스타트 업과 비교할 때 이상 치가 얼마나 다른지 이해하려고 할 수 있습니다. 이 스타트 업 / 회사는 어떻게 그렇게 성공적이 되었습니까? 그리고 수입이 왜 그렇게 큰가? 이 아이디어를 겨냥한 " 이상 탐지 " 라는 전체 분야가 있습니다 .

단일 숫자는 데이터에서 실제로 일어나는 일에 대해 매우 오해의 소지가 있습니다 . 일부 통계는 다른 통계보다 오해의 소지가 있습니다. 우리 모두가 데이터를 기반으로하는 정보의 소비자라면 주변 통계에 대해 올바른 질문을하는 방법을 아는 것이 중요합니다.

기술 통계와 추론 통계

지금까지 다룬 주제는 모두 기술 통계를 목표로했습니다. 즉, 우리가 수집 한 데이터를 설명합니다. 추론 통계로 알려진 다른 전체 통계 분야는 해당 인구의 개인 표본만을 기반으로 개인 인구에 대한 결론을 도출하는 것을 목표로합니다.

어휘 당신이 필요가 알아야 할 사항

  1. 인구 : 분석중인 모든 측정의 모음입니다.
  2. 표본 : 모집단의 일부입니다.
  3. 통계 : 샘플에서 계산 된 모든 숫자 요약입니다.
  4. 매개 변수 : 모집단에 대한 숫자 요약 (추론 통계의 결과 : 모든 모집단의 정보를 필요로하는 숫자이므로이 숫자를 알 수 없습니다).

앞서보기

이 기사를 통해 우리는 추론 통계에 대해 깊이 파고 들지 않을 것입니다. 이제이 두 가지 통계 분기의 차이점을 알게되었습니다. 추론 통계를 수행하는 방식은 기술이 발전함에 따라 변화하고 있습니다. 기계 학습인공 지능 과 관련된 많은 경력 경로는 수집 된 데이터를 사용하여 개별 수준에서 전체 모집단에 대한 결론을 도출하는 것을 목표로합니다.

요약

우리는 데이터 유형을 범주 형 또는 양적으로 식별하는 것으로 시작했습니다. 그런 다음 정량적 데이터를 연속 형 또는 이산 형으로 식별하고 범주 형 데이터를 순서 형 또는 명목 형으로 식별 할 수 있음을 배웠습니다.

범주 형 변수를 분석 할 때 일반적으로 범주의 각 수준에 속하는 그룹의 개수 또는 백분율 만 확인합니다.
정량적 데이터를 분석 할 때 네 가지 주요 측면이 있습니다 .

  1. 센터의
    측정 I. 수단
    II. 중앙값
    III. 모드
  2. 확산
    측정 I. 범위
    II.
    사 분위 간 범위 (IQR)
    III.
    분산
    IV.
    표준 편차
  3. 분포 형태
    I. 오른쪽으로 치우쳐 짐
    II. 왼쪽으로 치우친
    III. 대칭
  4. 이상치

2. 추론 통계 : 여기에서는 다양한 테스트를 실행하고 더 많은 모집단에 귀속시킬 수있는 표본에 대한 결론을 도출합니다. 추론 통계를 잘 수행하려면 관심있는 모집단을 정확하게 나타내는 표본을 가져와야합니다.

자원

내 다른 기사를 확인하고 Medium에서 나를 따르십시오.

켈리 피 아흐메드 아지즈

Suggested posts

IBM Watson Studio의 AutoAI 노트북으로 마술사 코드 깨기

IBM Watson Studio의 AutoAI 노트북으로 마술사 코드 깨기

가장 유명한 행동 강령 중 하나입니다. "마술사는 절대 비밀을 밝히지 않습니다." 그러나 청중이 너무나 놀라워 서 '방금 일어난 일'이라는 느낌에 놀라서 비밀을 밝히지 않는 것이 거의 잔인한 순간이 있습니다.

Python 코드 한 줄로 여러 시계열 예측 모델 학습

Auto-TS 라이브러리를 사용하여 ARIMA, SARIMAX, FB Prophet, VAR 및 ML 모델 개발

Python 코드 한 줄로 여러 시계열 예측 모델 학습

Automated Machine Learning (AutoML)은 기계 학습 파이프 라인의 일부 구성 요소를 자동화하는 것을 말합니다. AutoML은 일부 모델 개발 프로세스를 자동화하여 데이터 과학자의 워크 플로를 가속화합니다.

Related posts

데이터 과학을위한 필수 수학 : 기초 및 기초 변경

데이터 과학을위한 필수 수학 : 기초 및 기초 변경

고유 분해 및 SVD에 유용한 기저의 선형 대수 개념 이해이 기사에서는 고유 분해 또는 특이 값 분해 (SVD)와 같은 행렬 분해 방법을 이해하는 흥미로운 방법 인 기저 개념에 대해 알아 봅니다. 정의 기본은 벡터 공간 (벡터 집합)을 설명하는 데 사용되는 좌표계입니다.

판다와 에라스무스 연구 교환 분석

판다와 에라스무스 연구 교환 분석

Erasmus 프로그램 2011-12에서 발생한 20 만 개의 연구 교환으로 데이터 세트를 분석 한 결과 1987 년 이후 Erasmus 프로그램은 매년 수십만 명의 유럽 학생들에게 한 학기 또는 1 년을 해외에서 보낼 기회를 다른 유럽에서 보낼 수있는 기회를 제공합니다. 경제적 인 지원뿐만 아니라 쉬운 교환 과정을 제공합니다. 유럽의 다양한 사람, 언어 및 문화에 대한 마음과 마음을 열어주는 정말 귀중한 경험입니다.

데이터 과학을위한 8 가지 기본 통계 개념

… 평범한 영어로 설명

데이터 과학을위한 8 가지 기본 통계 개념

통계는 "수량 데이터의 수집, 분석, 해석 및 표현을 다루는 수학의 한 분야"입니다. 프로그래밍과 기계 학습을 혼합하면 데이터 과학의 핵심 기술에 대해 꽤 잘 설명 할 수 있습니다.

데이터 과학의 9 가지 거리 측정

일반적인 거리 측정의 장점과 함정

데이터 과학의 9 가지 거리 측정

감독되거나 감독되지 않는 많은 알고리즘은 거리 측정을 사용합니다. 유클리드 거리 또는 코사인 유사성과 같은 이러한 측정은 종종 k-NN, UMAP, HDBSCAN 등과 같은 알고리즘에서 찾을 수 있습니다.