텍스트 시각화를위한 두 개의 Python 저장소

Unsplash의 @scottwebb의 사진과 작성자의 추가 텍스트

잘 만들어진 것에서 놀라운 텍스트 시각화까지

인터넷, 특히 Python과 같은 대규모 사용자 기반의 프로그래밍 언어에서 무료로 사용할 수있는 것은 정말 놀랍습니다. GitHub에서 텍스트 시각화 라는 주제를 찾는 것은 놀라운 일입니다 . 이 주제에서 가장 별표가 많은 두 저장소 (repo (s)), 즉 Texthero와 Scattertext를 살펴 보겠다고 생각했습니다.

Texthero

곧바로 Texthero 는 쉬운 소개로 시작됩니다.

그것은 모두에 관한 것입니다 :

  1. 텍스트 전처리.
  2. 대표.
  3. 심상.

“Texthero는 텍스트 기반 데이터 세트를 빠르고 쉽게 작업 할 수있는 Python 툴킷입니다. Texthero는 배우기가 매우 간단하며 Pandas 위에서 사용하도록 설계되었습니다. "

여기에는 여러 측면에 대한 도구가 포함됩니다.

  • " 텍스트 데이터 전처리 : 두 가지 기본 솔루션을 모두 제공하지만 맞춤형 솔루션에도 유연합니다.
  • 자연어 처리 : 키 프레이즈 및 키워드 추출, 명명 된 엔티티 인식.
  • 텍스트 표현 : TF-IDF, 용어 빈도 및 사용자 지정 단어 임베딩 (wip)
  • 벡터 공간 분석 : 클러스터링 (K- 평균, Meanshift, DBSCAN 및 계층 적), 주제 모델링 (wip) 및 해석.
  • 텍스트 시각화 : 벡터 공간 시각화,지도에 현지화 배치 (wip).”

그들의 주장은 다른 NLP 도구 (NLTK, SpaCy, Gensim, TextBlob, Sklearn)를 다루는 것이 어렵다는 것입니다.

이것이 그들이 솔루션을 개발 한 이유입니다.

다음을 통해 texthero 설치 pip:

pip install texthero

더 빠른 성능을 위해 Spacy 버전> = 2.2를 설치했는지 확인하십시오. 또한 최신 버전의 python이 있는지 확인하세요…”

꽤 깔끔하게 보일 수 있습니다.

나는 그것을 확인하는 것이 좋습니다! 나는 내 프로젝트에서 그것을 시도 할 것입니다.

Scattertext

또 다른 패키지는 Scattertext 입니다. 나는 이것이 보완 적이라고 말하고 싶습니다. 또한 인터랙티브 플롯으로 매우 인상적이며 데이터에 대한 올바른 조건이 주어지면 시각적으로 매력적인 방식으로 정보를 표시하려는 경우 깔끔 할 수 있습니다.

“말뭉치에서 구별되는 용어를 찾아 대화식 HTML 산점도에 표시하는 도구입니다. 용어에 해당하는 포인트는 다른 라벨이나 포인트와 겹치지 않도록 선택적으로 라벨이 지정됩니다.”

Scattertext에는 많은 데모가 있습니다! 따라서 실험하거나 영감을 얻을 수있는 많은 예제를 찾을 수 있습니다.

많은 문서가 있고 모든 발생과 함께 빈도를 표시하려는 경우 이것은 다소 우수 할 수 있습니다.

시각화는 대화 형이며 검색 가능합니다. 여기에서 확인 하십시오 .

이것을 만드는 데 어떤 종류의 작업이 들어 갔는지 놀랍고 온라인에서 공유하는 것이 도움이됩니다.

현재 텍스트로 작업하는 경우 도움이 되었기를 바랍니다.

당신은 이것을 직접 발견 할 수도 있었을 것입니다. 그러나 당신이 제 여정을 따라 가고 있다면 이전에 알지 못했던 것을 발견했으면합니다.

이것은 # 500daysofAI이고 당신은 기사 440을 읽고 있습니다. 저는 500 일 동안 인공 지능에 관한 새로운 기사를 매일 쓰고 있습니다.

Suggested posts

Google Brain 및 NYU 가이드 라인, '깨진'NLU 벤치마킹 해결

Google Brain 및 NYU 가이드 라인, '깨진'NLU 벤치마킹 해결

*********************************************** *** ******************************************** 새로운 Google Brain 및 New York University 연구는 자연어 이해 (NLU) 작업에 대한 현재 평가 기술이 깨 졌다고 주장하며 더 나은 NLU 벤치 마크를 생성하도록 설계된 지침을 제안합니다. 새로운 Google Brain 및 New York University 연구에서는 자연어 이해 (NLU) 작업에 대한 현재 평가 기술이 깨 졌다고 주장하고 더 나은 NLU 벤치 마크를 생성하도록 설계된 지침을 제안합니다.

BERT, GPT2, XLNet을 사용한 텍스트 요약

BERT, GPT2, XLNet을 사용한 텍스트 요약

인공 지능은 의심 할 여지없이 인간처럼 생각하고 행동을 모방하도록 프로그래밍 된 기계에서 인간 지능의 극단적 인 시뮬레이션을 합리화했습니다. 인공 지능의 하위 집합은 컴퓨터와 인간 언어 간의 상호 작용, 특히 대량의 자연 언어 데이터를 처리하고 분석하도록 컴퓨터를 프로그래밍하는 방법과 관련된 자연 언어 처리입니다.

Related posts

"실용적인 프로그래머"의 5 가지 필수 사항

역대 베스트셀러 코딩 북의 요점

"실용적인 프로그래머"의 5 가지 필수 사항

Pragmatic Programmer는 1999 년에 처음 출판되었으며 이후 역대 최고의 프로그래밍 책으로 선정되었습니다. 저자 Andy Hunt와 David Thomas는 Agile Manifesto의 원저자 중 하나였으며 몇 가지 심각한 자격을 가지고 있습니다.

대규모 GraphQL 쿼리 공격으로부터 보호

공격자가 공개적으로 사용 가능한 GraphQL 인터페이스를 사용하여 사이트를 스크랩하거나 서비스 거부 공격을 실행하는 방법에 대해 알아보십시오. 이들은 4 가지 방법 중 하나로이를 수행 할 수 있습니다. 단일 대형 쿼리를 신중하게 구성하여 실행하고, 관련 데이터를 가져올 수있는 병렬 쿼리를 많이 작성하고, 일괄 요청을 사용하여 많은 쿼리를 연속적으로 실행하고, 마지막으로 많은 요청을 보냅니다.

기술 인터뷰의 사회적 구성 요소

코딩 문제는 스트레스가 많지만 스트레스에 대한 당신의 반응은 당신의 기술적 능력보다 더 크게 말합니다.

기술 인터뷰의 사회적 구성 요소

기술 업계의 직책을 위해 인터뷰 할 때 일반적으로 제안을 고려하기 전에 최소한 3 차례의 인터뷰를 거치게됩니다. 라운드는 일반적으로 다음과 같습니다. 그렇게 생각하면 잘못된 것입니다.

훌륭한 개발자의 3 가지 행동 특성

훌륭한 개발자의 3 가지 행동 특성

훌륭한 개발자를 만드는 비 기술적 인 것들 나는이 기사를 작성하는 것을 한동안 미루고 있습니다. 나는 그것을 작성할 자격이 있다고 생각하지 못했습니다. 오늘은 쓸 때라고 생각했습니다.