NLP- 텍스트 전처리 기법

자연어 처리 (NLP) 란 무엇입니까?
NLP (Natural Language Processing)는 메일, 소셜 미디어 게시물, 웹 페이지 콘텐츠, SMS 등과 같은 텍스트 데이터를 처리하여 텍스트 데이터에서 정보를 추출하고이를 계산 및 알고리즘에 사용하는 기술입니다.

텍스트 전처리는 기계 학습 모델을 구축하는 데 필수적인 단계이며 데이터가 얼마나 잘 전처리되었는지에 따라 결과가 표시됩니다.

벡터 공간 모델에서 각 단어 / 용어는 축 / 차원입니다. 텍스트 / 문서는 다차원 공간에서 벡터로 표현됩니다.
고유 한 단어의 수는 차원의 수를 의미합니다.

데이터의 차원이 매우 높을 때, 즉 말뭉치에 고유 한 단어가 많이있을 때 우리는 차원의 저주로 끝날 수 있으며 문서 매트릭스는 희소합니다. 차원의 저주에 대한 자세한 내용은이 블로그를 참조하십시오 . 따라서 다양한 텍스트 전처리 단계가 차원 감소에 널리 사용됩니다.

목차

1. 문자열을 소문자 또는 대문자로 변환

2. 특수 문자 제거

3. 단어 제거 중지

4. 스테 밍

5. 주제화

6. 품사 태깅

문자열을 소문자 또는 대문자로 변환

모든 단어를 소문자 또는 대문자로 변환하십시오. 데이터를 벡터화 할 때 동일한 단어에 대해 2 개의 다른 차원이 있기 때문에 수행됩니다. 예를 들어 'UPPER'와 'upper'는 다른 차원을 갖습니다. 더 낮은 값으로 변환하면 모든 단어에 대해 1 차원을 갖게됩니다.

특수 문자 제거

우리가 가진 원시 텍스트에는 구두점, 특수 문자 및 추가 공백과 같은 많은 노이즈가 있습니다. 어떤 경우에는 텍스트 / 문장에 의미를 추가하지 않습니다. 따라서 regex ( re ) 또는 문자열 함수 라는 인기있는 파이썬 라이브러리를 사용하여 제거 할 수 있습니다.

그들은 자신의 장점과 단점이 있습니다. re를 사용하여 약어를 확장하고, 공백을 제거하고, 숫자를 제거하고, 1000000에서 1million 등을 바꿀 수 있습니다.

중지 단어 제거

텍스트에는 'the', 'is', 'are'와 같은 불용어가 포함될 수 있습니다. 처리 할 텍스트에서 불용어를 필터링 할 수 있습니다. nlp 연구에는 불용어의 보편적 인 목록이 없지만 nltk 모듈에는 불용어 목록이 포함되어 있습니다.

중지 단어 제거는 작업에 따라 다릅니다. 예를 들어 텍스트 분류 또는 감정 분석 작업이있는 경우 중지 단어는 모델에 정보를 제공하지 않으므로 중지 단어를 제거해야하지만 언어 번역 작업이있는 경우 중지 단어가 유용합니다.

어간

어간은 어간 자체가 언어에서 유효한 단어가 아닌 경우에도 단어 그룹을 동일한 어간에 매핑하는 것과 같이 어근 형태로 단어의 굴절을 줄이는 프로세스입니다. 형태소 분석은 일반적으로 연극과 같은 규칙 세트를 사용하여 단어를 다듬습니다. 재생 및 재생은 접미사 's', 'ing'및 'ed'를 제거하여 재생하도록 다듬습니다.

형태소 분석에는 주로 두 가지 오류가 있습니다 – 과다 형태소와 하부 형태소 분석

어간이 다른 동일한 어근에서 파생 된 두 단어의 경우 과다 형태소 분석이 발생합니다. 과도한 형태소 분석은 또한 위양성으로 간주 될 수 있습니다.

Under-stemming은 두 단어가 다른 어간이 아닌 동일한 어근에서 유래 된 경우 발생합니다. Under-stemming은 거짓 음성으로 해석 될 수 있습니다. 여기에서 다양한 유형의 형태소 분석에 대해 자세히 알아보십시오 .

주형 화

형태소 분석과 분류법의 차이점은 분류법은 문맥을 고려하고 단어를 의미있는 기본 형식으로 변환하는 반면, 형태소 분석은 마지막 몇 개의 문자 만 제거하여 종종 잘못된 의미와 철자 오류로 이어진다는 것입니다.

예를 들어, lemmatization은 'caring'의 기본 형태를 'care'로 정확하게 식별하는 반면, stemming은 'ing'부분을 잘라내어 자동차로 변환합니다. 여기에서 다양한 기본형에 대해 자세히 알아보십시오 .

그것은 좋은 일을하지 않았다는 것을 주목하십시오. 대부분의 단어가 동일하게 유지되기 때문입니다. lemmatize ()에 대한 두 번째 인수로 올바른 '품사'태그 (POS 태그)를 제공하면이 문제를 수정할 수 있습니다 .

완벽 해 보입니다. 보시다시피 단어는 적절한 의미의 어근으로 내려갑니다.

POS 태깅

POS 태깅은 문장의 각 단어에 적절한 품사를 붙이는 과정입니다. 우리는 이미 품사에 명사, 동사, 부사, 형용사, 대명사, 접속사 및 그 하위 범주가 포함된다는 것을 알고 있습니다.

대부분의 POS 태깅은 Rule Base POS 태깅, Stochastic POS 태깅 및 변환 기반 태깅에 속합니다. 다른 POS 태깅에 대한 자세한 내용은 여기를 참조 하십시오 .

아래의 예에는 4 개의 문장이있는 텍스트가 있습니다. best4 개의 문장 모두에 있는 단어 에 유의하십시오 . 같은 단어 "best"가 네 문장 모두에서 다르게 사용됩니다.

결론

다음은 NLP의 텍스트 전처리 단계입니다. nltk , spaCyTextBlob 과 같은 다양한 Python 라이브러리를 사용할 수 있습니다.

참고 문헌

Python의 텍스트 전처리 : 단계, 도구 및 예제 NLP 가이드 : 조건부 임의 필드를 사용하여 음성 태그의 일부 식별

Suggested posts

기계 학습 워크 플로를 실행하여 데이터를 변환하고 txtai로 AI 기반 텍스트 인덱스를 구축합니다.

데이터 흐름에 NLP 변환 적용

기계 학습 워크 플로를 실행하여 데이터를 변환하고 txtai로 AI 기반 텍스트 인덱스를 구축합니다.

txtai는 기계 학습 워크 플로우를 실행하여 데이터를 변환하고 AI 기반 텍스트 인덱스를 구축하여 유사성 검색을 수행합니다. txtai는 텍스트 스 니펫, 문서, 오디오 및 이미지 인덱싱을 지원합니다.

법적 계약 검토를위한 기계 학습 모델을 설정하는 방법 — 2 부

악명 높은 512 토큰 제한 극복

법적 계약 검토를위한 기계 학습 모델을 설정하는 방법 — 2 부

이것은 무엇에 관한 것입니까? 이전 블로그 게시물에서 계약 검토를 자동화하는 데 도움이되는 새로 출시 된 CUAD 데이터 세트를 시작하는 방법을 살펴 보았습니다. 모델을로드하고 계약의 짧은 추출 (처음 100 단어)에 대한 첫 번째 예측을 실행했습니다.

Related posts

Spotify의 마법 성분 : 기계 학습

Spotify의 마법 성분 : 기계 학습

면책 조항 :이 기사는 Spotify와 관련이 없으며 Spotify 및 현재 관련이 없을 수있는 과거 구조에 대한 확인되지 않은 정보로 구성 될 수 있습니다. 음악은 표현의 한 형태, 예술의 형태, 전체적인 문화 활동입니다.

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

2021 년 2 월에 읽을 4 가지 딥 러닝 논문

신경 과학에서 자동 분화, 신경망 이론 및 신경 과정의 과소 적합에 이르기까지 현재 추구되고있는 다양한 딥 러닝 연구 흐름에 대한 더 나은 개요를 얻고 싶으십니까? 합리적으로 통과하기에는 열려있는 arXiv 탭이 너무 많습니까? 전체 동영상을 볼 시간이 너무 적습니까? 논문의 핵심 아이디어와 개념에 대한 간략한 요약 만 있다면. 그런 다음 '머신-러닝-콜라주'시리즈를 소개하게되어 기쁩니다.

내부의 관심 네트워크 그래프

수학에서 NumPy까지 단계별 가이드

내부의 관심 네트워크 그래프

그래프 신경망 (GNN)은 그래프 데이터에서 학습 할 수있는 표준 도구 상자로 등장했습니다. GNN은 콘텐츠 추천 또는 신약 발견과 같은 다양한 분야에서 영향이 큰 문제를 개선 할 수 있습니다.

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

분할에 대한 고정 2 부 : Python으로 이미지 분할을 수행하는 방법

안녕하세요! 이미지 분할에 대한이 짧은 시리즈의 첫 번째 부분을 읽지 않았다면 여기에서 읽으십시오. 이전 이야기에서 임계 값 및 색상 분할에 대해 논의 했으므로 2 부에서는 색도 분할과 이미지 차이에 중점을 둘 것입니다.