가장 중요하고 유용한 NLP 작업 중 일부입니다.

이 기사는 Late Alan Turing에 전념합니다 .

안녕 외계인

자연어 처리 (NLP)

일반적으로 NLP라고하는 자연어 처리는 자연어를 사용하여 컴퓨터와 인간 간의 상호 작용을 처리하는 인공 지능의 한 분야입니다. NLP의 궁극적 인 목적은 가치있는 방식으로 인간 언어를 읽고, 해독하고, 이해하고, 이해하는 것입니다. 대부분의 NLP 기술은 기계 학습에 의존하여 인간 언어에서 의미를 도출합니다. NLP는 기계-인간 상호 작용을 지원하는 데 중요한 역할을합니다.

이 기사에서는 수행 된 NLP 작업 중 일부를 알려 드리고 나중에 웹에 배포하여 완전한 패키지로 만들 것입니다.

작업은 아래에 언급되어 있습니다.

  1. 텍스트를 분석하고 텍스트의 토큰과 기본형을 가져옵니다.
  2. 또한 입력 된 텍스트에서 NER (Named Entity Recognition)를 가져옵니다.
  3. 감성 분석.
  4. 텍스트 요약 (추출 요약)
  5. 기계 번역.

1. 토큰과 기본형

토큰은 말뭉치의 가장 작은 부분입니다. 그리고 토큰 화는 토큰이라고 불리는 조각으로 자르는 작업입니다.

예를 들면 :

입력 : NLP와 기계 학습은 함께 진행됩니다.

토큰 화 후 출력은이 문장에있는 각 단어에 불과합니다. NLP는 하나의 토큰입니다. Machine은 또 다른 토큰이며이 목록은 이와 같이 계속됩니다.

기본 정리는 주어진 단어의 뿌리에 도달하는 것과 같습니다. Lemma는 wordnet 코퍼스를 사용합니다. lemmatization의 출력이 적절한 단어이기 때문에 더 인간이 이해할 수있는 단어를 원할 때 사용할 수 있습니다. 예를 들어 더 명확해질 것입니다.

“going”,“goes”,“gone”의 세 단어를 봅시다. 기본형은 "go"라는 어근을 얻는 것입니다.

텍스트의 토큰과 기본형.

2. NER (Named Entity Recognition)

모든 텍스트 문서에는 더 많은 정보를 제공하고 고유 한 컨텍스트를 가진 특정 엔티티를 나타내는 특정 용어가 있습니다. 이러한 엔터티를 명명 된 엔터티라고하며보다 구체적으로 사람, 장소, 조직 등과 같은 실제 개체이며 종종 고유 한 이름으로 표시됩니다.

개체 청킹 / 추출이라고도하는 명명 된 개체 인식 (NER)은 명명 된 개체를 식별 및 분할하고 미리 정의 된 다양한 클래스로 분류하거나 분류하기 위해 정보 추출에 사용되는 인기있는 기술입니다.

명명 된 엔티티 인식

3. 감성 분석.

감정 분석은 텍스트 분석 기술을 사용하여 텍스트 데이터 내에서 감정 (긍정적, 부정적 및 중립적)을 해석하고 분류하는 것입니다. 감성 분석 도구를 통해 기업은 온라인 피드백에서 제품, 브랜드 또는 서비스에 대한 고객 감성을 식별 할 수 있습니다.

텍스트 분석을위한 감정 분석 시스템은 자연어 처리 ( NLP ) 및 기계 학습 기술을 결합 하여 문장 또는 구문 내의 엔티티, 주제, 주제 및 범주에 가중치가 부여 된 감정 점수를 할당합니다.

예 : "이 영화는 최악의 시간이었습니다"라는 영화 리뷰를 보겠습니다. 물론 이것은 부정적인 감정입니다. 인간으로서 우리는 그렇게 말할 수 있지만 기계는 어떻습니까? 따라서이 텍스트의 감정을 알려주는 TextBlob이라는 멋진 패키지가 있으며 백그라운드에서는 기본 NaiveBayes Analyzer를 사용하고 있습니다.

리뷰는 부정적이며이 리뷰가 부정적 일 확률은 거의 80.5 %입니다. 잘 했어.

4. 텍스트 요약

텍스트 요약은 긴 텍스트 조각을 줄이는 기술을 말합니다. 의도는 주요 정보 내용과 전체적인 의미를 유지하면서 유창한 요약을 작성하는 것입니다. 텍스트 요약을 적용하면 읽기 시간이 단축되고 정보 검색 프로세스가 가속화되며 한 영역에 들어갈 수있는 정보의 양이 늘어납니다.

요약.

요약은 읽는 시간을 줄여줍니다. 자동 요약은 인덱싱의 효율성을 향상시키고 사람 요약 자보다 편향이 적습니다.

텍스트 요약에 사용되는 크게 두 가지 접근 방식이 있습니다.

  1. 추출 요약
  2. 추상 요약

텍스트를 요약하기 위해 거의 4 개의 알고리즘을 사용했습니다.

Gensim.

  • 이 모듈은 텍스트를 요약하는 기능을 제공합니다. 요약은 TextRank 알고리즘의 변형을 사용하는 텍스트 문장의 순위를 기반으로합니다.
  • 이 모듈은 텍스트에서 하나 이상의 중요한 문장을 추출하여 주어진 텍스트를 자동으로 요약합니다. 비슷한 방식으로 키워드를 추출 할 수도 있습니다.
  • 그래프 기반 문장의 중심 점수를 기반으로 한 텍스트 요약에 대한 비지도 접근 방식.
  • 주요 아이디어는 문장이 독자에게 다른 유사한 문장을 "추천"한다는 것입니다. 따라서 한 문장이 다른 많은 문장과 매우 ​​유사하다면 더 중요한 문장이 될 것입니다.
  • 가장 중요한 단어의 빈도를 기반으로합니다.
  • 텍스트를 요약하기 위해 특이 값 분해를 사용하는 용어 빈도 기술을 기반으로합니다.

기계 번역 (MT)은 한 언어에서 다른 언어로의 자동 번역입니다. 기계 번역은 소스 콘텐츠를 대상 언어로 번역 할 수있는 완전 자동화 된 소프트웨어를 의미합니다. 인간은 MT를 사용하여 텍스트와 음성을 다른 언어로 렌더링 할 수 있습니다.

여기에서는 번역을 위해 TextBlob 패키지를 사용했습니다. 입력은 모든 언어 텍스트 일 ​​수 있습니다. 최종 사용자가 원하는 지정된 언어가 출력됩니다.

영어에서 힌디어로

입력 문장은 영어 텍스트이며 출력은 힌디어로 번역됩니다. 그리고 우리는 그것을 얻었습니다.

또한 입력은 모든 언어가 될 수 있습니다. 하나 더 아랍어로 가자.

아랍어-힌디어

한 번 교차 확인합니다.

아랍어에서 영어로

이제 배포로 넘어갑니다.

따라서 마찬가지로 모든 패키지를 가져 와서 함수를 만들고 사용자가 특정 필드를 선택할 때마다 호출합니다. 여기 에서 전체 코드를 찾을 수 있습니다 .

따라서 배포가 완료되면 비즈니스를 지원할 준비가 된 멋진 웹 앱을 볼 수 있습니다.

웹 앱.

간단하고 아름다운 웹 앱이 만들어집니다. 이제 클라우드 배포에 Heroku를 사용할 수 있습니다.

다음 기사에서 "혼란 매트릭스"에서 당신의 혼란을 없애려고 노력할 것입니다.

업데이트를받을 수 있도록 Medium에서 저를 팔로우 해주세요.

행복한 학습 …….

Linkedin에서 나를 따르라 : www.linkedin.com/in/karteek-menda

안녕 외계인.

Karteek Menda입니다.

사인 오프

Suggested posts

단어 구름 위의 어린 왕자

이런 식으로 그의 미스터리를 풀 수 있을까요?

단어 구름 위의 어린 왕자

책, 웹 사이트, 소셜 네트워크, 블로그, 미디어 등을 포함하여 오늘날 엄청난 정보 흐름을 감안할 때 78 년 전에 쓰여진 작은 책이 여전히 많은 관심을 끌고 있다는 것이 놀랍습니다.

Google Brain 및 NYU 가이드 라인, '깨진'NLU 벤치마킹 해결

Google Brain 및 NYU 가이드 라인, '깨진'NLU 벤치마킹 해결

*********************************************** *** ******************************************** 새로운 Google Brain 및 New York University 연구는 자연어 이해 (NLU) 작업에 대한 현재 평가 기술이 깨 졌다고 주장하며 더 나은 NLU 벤치 마크를 생성하도록 설계된 지침을 제안합니다. 새로운 Google Brain 및 New York University 연구에서는 자연어 이해 (NLU) 작업에 대한 현재 평가 기술이 깨 졌다고 주장하고 더 나은 NLU 벤치 마크를 생성하도록 설계된 지침을 제안합니다.

Related posts

Spotify의 마법 성분 : 기계 학습

Spotify의 마법 성분 : 기계 학습

면책 조항 :이 기사는 Spotify와 관련이 없으며 Spotify 및 현재 관련이 없을 수있는 과거 구조에 대한 확인되지 않은 정보로 구성 될 수 있습니다. 음악은 표현의 한 형태, 예술의 형태, 전체적인 문화 활동입니다.

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

신경 과학에서 자동 분화, 신경망 이론 및 신경 과정의 과소 적합에 이르기까지 현재 추구되고있는 다양한 딥 러닝 연구 흐름에 대한 더 나은 개요를 얻고 싶으십니까? 합리적으로 통과하기에는 열려있는 arXiv 탭이 너무 많습니까? 전체 동영상을 볼 시간이 너무 적습니까? 논문의 핵심 아이디어와 개념에 대한 간략한 요약 만 있다면. 그런 다음 '머신-러닝-콜라주'시리즈를 소개하게되어 기쁩니다.

내부의 관심 네트워크 그래프

수학에서 NumPy까지 단계별 가이드

내부의 관심 네트워크 그래프

그래프 신경망 (GNN)은 그래프 데이터에서 학습 할 수있는 표준 도구 상자로 등장했습니다. GNN은 콘텐츠 추천 또는 신약 발견과 같은 다양한 분야에서 영향이 큰 문제를 개선 할 수 있습니다.

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

안녕하세요! 이미지 분할에 대한이 짧은 시리즈의 첫 번째 부분을 읽지 않았다면 여기에서 읽으십시오. 이전 이야기에서 임계 값 및 색상 분할에 대해 논의 했으므로 2 부에서는 색도 분할과 이미지 차이에 중점을 둘 것입니다.