타이타닉은 귀하의 비즈니스 성장에 어떻게 도움이 될 수 있습니까?

소개

저는 최근에 Google에서 호스팅하는 데이터 과학 플레이트 양식 인 Kaggle의 머신 러닝 과제에 참여하기로 결정했습니다.

이 플레이트 폼에서 가장 유명한 프로젝트 중 하나는 기계 학습 모델을 사용하여 어떤 승객이 타이타닉 난파선에서 살아남을 것인지 예측하는 것입니다. 이것은 흥미 진진한 프로젝트이며 구체적인 문제에 대해 데이터 과학을 연습 할 수있는 좋은 기회입니다. 여러분 모두가 시도해 보시기 바랍니다.

나는 상위 9 %에 랭크되어 합리적으로 잘했고 그 과정을 통해 많은 것을 배웠으며 친구, 가족 또는 채용 담당자와 그것에 대해 이야기했을 때 반응은 거의 동일했습니다.

이유에 대해 답해 봅시다.

타이타닉 도전

문제는 승객을“생존”과“생존하지 않음”의 두 가지 범주로 분류하는 것 입니다. 이를 위해 연령, 성별, 티켓 가격 등의 변수를 사용하여 우리를 위해 일할 모델에 입력 할 수 있습니다.

마술 맞죠? 글쎄, 예 그리고 아니오.

여러분 중 일부는 머신 러닝으로이를 달성 할 수있는 방법을 궁금해 할 것입니다.이 기사는 모든 사람 (즉, 기술 및 비전문가)을위한 것이므로 세부 사항을 건너 뛰고 단순하게 유지하겠습니다. 관심이 있으시면 솔루션을 Github .

그러나 잠깐, 실제로 기계 학습이란 무엇입니까? 이 주제는 유행하는 주제이므로 오해가 많으므로 잠시 핵심 개념을 설명하겠습니다.

기계 학습 정의

Wikipedia에 따르면 :

머신 러닝 (ML)은 경험을 통해 자동으로 향상되는 컴퓨터 알고리즘을 연구하는 것입니다.

좋습니다. 하나의 정의가 있습니다. 그러나 전통적인 프로그래밍과의 큰 차이점은 무엇이며 모든 사람들이 그것을 사용하는 이유는 무엇입니까?

일을 쉽게하기 위해 몇 가지 기능을 기반으로 데이터베이스에 어떤 종류의 동물이 있는지 추측하는 애플리케이션을 코딩하려고한다고 가정 해 보겠습니다.

입력 내용은 다음과 같습니다.

  • 당신의 특징 : 깃털이 있느냐 없느냐, 치즈 좋아 하느냐 아니냐, 당신이 그것을 쓰다듬 으면 물지 않느냐…
  • 목표 : 동물의 유형

기존 프로그래밍 (TP)과 기계 학습 (ML)의 근본적인 차이점은 다음과 같습니다.

TP는 입력 데이터에 프로그램을 적용하여 출력 데이터를 생성하는 반면, ML은 입력 및 출력 데이터를 기반으로 프로그램 (모델)을 만든 다음 그 결론을 알려지지 않은 새로운 데이터로 일반화합니다.

TP는 프로그래머가 일련의 명령을 미리 정의하도록합니다. 우리의 경우에는“치즈를 먹는다면 동물은 쥐”와 같은“그렇지 않으면”의 세리입니다.

ML은 데이터를 관찰하여 학습하는 반면,“오 마이”는 컴퓨터를 외치며 놀랐습니다.“데이터베이스에있는 거의 99 %의 마우스가 치즈 를 먹는 것을 좋아합니다. 오늘부터 치즈를 먹는 것을 좋아하는 동물은 마우스로 분류 !”.

이 두 가지 패러다임에는 특성과 기본값이 있으며 특정 문제에는 둘 중 하나가 필요합니다. 우리의 경우 몇 가지 제한 사항이 있습니다.

  • TP는 프로그래머가 동물에 대한 확장 된 지식을 가지고 있거나 전문가의 도움을 받아야합니다. 또한 코드가 빠르게 길고 유지 관리가 어려울 수 있습니다. 정확한 예측을하려면 많은 기능에 대해 많은 조건을 작성해야 할 수 있으며 생물 다양성을 파괴하려는 노력에도 불구하고 지구에는 여전히 많은 종이 있습니다. 확인 된 160 만 ).
  • ML은 잘 수행 되려면 정리 된 (대표적인) 고품질 데이터 가 많이 필요합니다 . 데이터 세트가 클수록 모델을 학습하는 데 더 오래 걸리고 더 많은 비용이 듭니다 ( 그리고 더 많은 CO2를 배출합니다 ).
  • 레이블이 지정된 데이터를 사용하여 학습하는 감독 알고리즘. 위의 동물 예제는지도 학습의 경우입니다.
  • 레이블이 지정되지 않은 데이터를 사용하여 학습하는 비지도 알고리즘. 예를 들어 DNA 패턴을 클러스터 화하기 위해 유전학에 사용됩니다. 여기에서이 멋진 프로젝트를 살펴보세요.https://www.c4xdiscovery.com/technology/taxonomy3.html
  • 레이블이 지정된 데이터와 레이블이없는 데이터를 모두 사용하여 학습하는 준지도 알고리즘입니다. 예를 들어, 페이스 북과 같은 회사는 사진에 나타나는 사용자를 기준으로 사진을 그룹화 할 수 있으며이 사람이 이전에 태그 된 경우 누군가를 태그하도록 제안합니다.
  • 일반적으로 보상 시스템을 통해 A 지점에서 B 지점으로 이동하기 위해 환경을 조작하여 학습하는 강화 알고리즘. 예를 들어, 다음과 같은 보상을 설정하여 슈퍼 마리오 레벨을이기는 방법 (예 : A 지점에서 B 지점으로 이동)을 배우도록 프로그램을 가르 칠 수 있습니다.
  • 화면 오른쪽으로 이동 = +5 포인트
  • 왼쪽으로 이동 = -5 점
  • 구멍에 빠지기 = -10 점
  • 움직이지 않음 = -1 포인트 / 5 초
  • 우리는 우리가 다루는 문제의 유형에 따라 알고리즘을 한 단계 더 분류 할 수 있습니다. 데이터를 그룹으로 분류할까요, 아니면 값을 예측할까요? ( 예 : 집값 )

    이제 머신 러닝이 무엇인지에 대한 명확한 아이디어를 얻었으므로 배로 돌아가 보겠습니다.

    타이타닉 문제를 해결합시다

    한 번 더 문제를 공식화합시다. 우리의 특징 인 연령, 성별, 항공권 가격 등과 같은 승객 정보와 목표 변수로 구성된 데이터베이스가 있습니다. 승객이 생존 했습니까?

    전통적인 프로그래밍

    전통적인 프로그래밍을 사용하여이 문제를 해결한다면 악명 높은 "여성과 어린이 우선!"에 대해 생각할 수 있습니다. 쓰기:

    passenger.gender가 여성 인 경우 : 생존 = 예

    그렇지 않으면 : 살아 남음 = 아니오

    사실, 여성의 74 %와 어린이의 52 %가 구해졌지만 남성의 20 % 만 ( 출처 ) Kaggle에서 76.56 %의 정확도를 기록한 좋은 기준 모델입니다.

    기계 학습

    짐작했듯이 이것은 레이블이 지정된 데이터를 사용하는 분류 문제입니다! 우리는 승객이 살아남 았는지 여부를 말하고 싶습니다. 즉, 승객을 생존자 또는 비 생존자로 분류하고 싶습니다. 그리고 예측을 위해 레이블이 지정된 데이터로 모델을 훈련시킬 수 있습니다.

    이 문제를 해결할 수있는 많은 알고리즘이 있습니다. 그 중 하나는 의사 결정 트리 알고리즘입니다. 입력 데이터를 수집하고 관찰을 기반으로 결정과 관련된 분기가있는 트리를 생성합니다.

    의사 결정 트리는 여러 수준과 조건으로 깊고 복잡 할 수도 있고 한두 수준으로 간단 할 수도 있습니다. 다음은 의사 결정 트리의 예입니다.

    기계 학습을 사용하여 비즈니스를 성장시키는 방법

    기계 학습을 사용하여 비즈니스를 성장시키는 방법

    아, 언급하는 것을 잊었습니다. 랜덤 포레스트 모델을 사용하여 기준 점수를 76.56 %에서 78.95 %로 향상 시켰습니다. 하지만 2.4 %는 그다지 인상적이지 않습니다.

    글쎄, 그것이 일이 흥미로워지는 곳입니다.

    수학이 더 쉽고 현실이 복잡하지 않은 가상의 세계에 상상의 회사가 있고 제품을 광고하고 싶다고 가정 해 보겠습니다.

    10 만 명의 잠재 고객에게 제품 샘플을 보내기 위해 메일 링 캠페인에 사용할 수있는 $ 100.000가 있습니다.

    1. 그들이 당신의 제품에 관심이 있고 실제로 구매한다면, 당신은 고객 당 평균 $ 10를 벌게 될 것입니다.
    2. 그들이 관심이 없다면 당신은 돈을 잃어 버립니다.

    평균 수입 : (12.000 * $ 10) — 100.000 = 메일 링 캠페인 당 $ 20.000

    어느 날 뛰어난 데이터 과학자를 고용하기로 결정했습니다. Nassim이라고 부르겠습니다. Nassim은 몇 주 후에 잠재 고객을 선택하는 새로운 방법을 제시합니다. 전환율. 처음에는 감명을받지 못했지만 수학을하면서 다음과 같은 평균 수입을 의미한다는 것을 깨달았습니다.

    (15.000 * $ 10) — 100.000 = $ 50.000! (이것은 팩토리얼이 아니라 느낌표입니다)

    이 결과에 만족합니다. 당신은 그가 진행하도록 허락하고 캄파 인의 전환율이 앞서 언급 한 15 %가 아닌 14 %라는 사실보다 나중에 배우는 것에 약간 놀랐습니다. 때로는 훈련 데이터에서 얻은 결과가 다음과 약간 다릅니다. 현실에서 얻을 수있는 것.

    글쎄, 어쨌든 당신은 당신의 우편 캠페인에 대한 수익을 두 배로 늘 렸기 때문에 행복합니다. 그래서 Nassim에게 인상을 주기로 결정했습니다. :)

    결론

    이 기사는 기계 학습에 대한 짧은 소개로, 딥 러닝, NLP 또는 컴퓨터 비전과 같은 주제를 의도적으로 피했습니다.

    우리는 이미 많은 것을 배웠으므로 다른 기사에서 봅시다!

    또한 이것은 저의 첫 번째 기사이므로 저의 글쓰기를 향상시키는 데 도움이되는 조언이 있으면 기꺼이 읽어 보겠습니다.

    마지막으로 더 자세히 알고 싶다면이 기사를 참조하십시오.

    https://www.analyticsvidhya.com/blog/2019/07/ultimate-list-popular-machine-learning-use-cases/

    Nassim Ouannoughi

Suggested posts

초보자를위한 Pandas — 데이터 프레임 재구성 — 2 부

긴 형식에서 넓은 형식으로 데이터 변환

초보자를위한 Pandas — 데이터 프레임 재구성 — 2 부

지난 튜토리얼에서 우리는 와이드 데이터 양식을 긴 양식으로 재구성하는 Pandas melt 함수를 시연했습니다. 이 튜토리얼은 반대 과정에 초점을 맞출 것입니다.

마케팅 데이터 분석가가되기 전에 알아야 할 사항

마케팅 분석 경험의 장단점

마케팅 데이터 분석가가되기 전에 알아야 할 사항

데이터 분석가가 마케팅을 지원하는 것은 일반적이지만 마케팅 데이터 분석가가되는 것이 실제로 어떤 것인지 알려주는 정보가 많지 않습니다. 여러 회사에서 데이터 분석가로서 마케팅을 지원 한 경험과 마케팅 분석 역할을 맡기로 결정한 경우 내 경험에 대해 논의하고 싶습니다.