품목

chatGPT를 사용한 텍스트 파싱

텍스트 분석 또는 텍스트 마이닝은 대량의 구조화되지 않은 텍스트 데이터에서 귀중한 통찰력을 추출하는 데 필수적인 기술입니다. 

여기에는 텍스트를 처리하고 분석하여 패턴, 추세 및 관계를 발견하는 작업이 포함됩니다.

이를 통해 기업, 연구원 및 조직은 텍스트에서 수집한 정보를 기반으로 결정을 내릴 수 있습니다. 

구조화되지 않은 데이터의 양이 기하급수적으로 증가함에 따라 정확하고 효율적인 텍스트 분석 도구에 대한 필요성은 마케팅, 금융, 의료 및 사회 과학과 같은 다양한 산업에서 점점 더 중요해지고 있습니다.

전통적으로 텍스트 분석은 규칙 기반 방법과 SpaCY 및 변환기 기술과 같은 기계 학습 기술을 사용하여 수행되었습니다. 이러한 방법은 효과적인 것으로 입증되었지만 완벽하게 수행하려면 상당한 노력과 전문 지식이 필요합니다.

다음과 같은 대규모 언어 모델(LLM)의 출현으로 ChatGPT di OpenAI. 인간과 유사한 텍스트를 생성하고 컨텍스트를 이해하는 놀라운 기능을 보여주어 다음과 같은 텍스트 분석 작업을 위한 유망한 도구가 되었습니다. entity recognition, sentiment analysis, 그리고 topic modeling.

이제 ChatGPT를 사용하여 텍스트 구문 분석을 수행하는 방법을 살펴보겠습니다.

전통적인 방법(단일 모델) 대 LLM

과거에는 기계 학습에서 다양한 작업에 대해 항상 다양한 모델을 사용했습니다. 예를 들어 텍스트에서 지식을 추출하려면 명명된 엔터티 인식 모델(NER – Named Entity Recognition), 텍스트를 별도의 클래스로 분류해야 하는 경우 분류 모델이 필요합니다. 서로 다른 활동마다 전이 학습 또는 훈련을 통해 각 활동에 대해 모델을 다르게 훈련해야 했습니다.

의 도입으로 Large Language Model(LLM), LLM 모델은 교육 유무에 관계없이 여러 NLP 작업을 수행할 수 있습니다. 어떤 활동이라도 가능하다 defi프롬프트의 지침을 변경하면 간단하게 완료됩니다.

이제 전통적인 NLP 작업을 수행하는 방법을 살펴보겠습니다. ChatGPT 그리고 그것을 전통적인 방법과 비교하십시오. 수행할 NLP 작업 ChatGPT 이 문서에서:

  • 지식 추출(NER)
  • 텍스트 분류
  • Sentiment analysis
  • Riepilogo

지식 추출(NER)

NER(Named Entity Recognition)은 서로 다른 텍스트 데이터 블록에서 용어를 자동으로 식별하는 작업을 말합니다. 주로 임상 기록에서 약물 이름, 보험 청구에서 사고 관련 용어 및 레코드에서 기타 도메인별 용어와 같은 중요한 엔터티 범주를 추출하는 데 사용됩니다.

이 활동은 의료 영역에만 해당됩니다. 이전에는 단일 모델이 텍스트의 특정 클래스와 용어를 알기 위해 10.000개 이상의 데이터 행에 주석을 달고 훈련해야 했습니다. ChatGPT는 사전 훈련된 텍스트나 미세 조정 없이 용어를 올바르게 식별할 수 있어 비교적 좋은 결과입니다!

텍스트 분류

텍스트 분류는 방대한 데이터에서 텍스트를 찾아 범주별로 자동 분류하는 과정을 말하며, 텍스트 데이터 검색 및 추출에 필수적인 역할을 합니다. 텍스트 분류 애플리케이션의 예로는 임상 경고 또는 위험 요소 분류, 자동 진단 분류 및 스팸 탐지가 있습니다.

Sentiment analysis

Sentiment analysis 텍스트에 표현된 느낌이나 감정을 결정하는 것이 포함됩니다. 텍스트를 사전 카테고리로 분류하는 것을 목표로 합니다.defi저자가 전달한 기본 감정에 따라 긍정적, 부정적 또는 중립으로 구분됩니다. 

감정 분석의 응용 프로그램은 다음과 같습니다.

  • 고객 리뷰 및 피드백 분석,
  • 소셜 미디어 감정 추적,
  • 시장 동향 모니터링 e
  • 선거 운동 중 정치적 정서 측정.

Riepilogo

자동 요약은 하나 이상의 문서의 주요 주제를 식별하고 간결하고 정확한 방식으로 제시하는 프로세스를 말합니다. 이를 통해 사용자는 짧은 시간에 많은 양의 데이터를 살펴볼 수 있습니다. 예제 응용 프로그램에는 뉴스 기사에서 초록을 자동으로 생성하고 연구 논문 초록에서 문장을 추출하여 정보를 요약할 수 있는 요약 시스템이 포함됩니다.

ChatGPT는 특히 긴 기사와 복잡한 리뷰를 위한 훌륭한 요약 도구입니다. ChatGPT에 리뷰를 붙여넣기 하면 한눈에 상품평 요약을 쉽게 알 수 있습니다.

LLM의 한계

이 문서의 목적은 텍스트 분석 작업을 수행하는 LLM의 능력을 탐색하는 것이므로 LLM의 한계도 인식하는 것이 중요합니다. LLM의 주요 제한 사항 중 일부는 다음과 같습니다.

  1. 자원 활용 : LLM을 사용하려면 상당한 계산 및 재정 리소스가 필요하므로 리소스가 제한된 소규모 조직이나 개별 연구원에게는 어려울 수 있습니다. 현재 ChatGPT는 입력 및 출력에 대해 약 8.000개의 토큰만 허용하고 대량의 데이터를 구문 분석하기 위해 사용자가 텍스트를 여러 데이터 청크로 분할해야 하며 작업을 위해 여러 API 호출이 필요할 수 있습니다.
  2. 프롬프트 문구에 대한 민감도 : LLM의 성능은 프롬프트가 표현되는 방식에 영향을 받을 수 있습니다. 프롬프트 문구를 조금만 변경해도 다른 결과가 나올 수 있으므로 일관되고 신뢰할 수 있는 결과를 찾을 때 문제가 될 수 있습니다.
  3. 도메인별 전문성 부족 : LLM은 다양한 도메인에 대한 일반적인 이해를 가지고 있지만 도메인별 데이터에 대해 훈련된 전문 모델과 동일한 수준의 전문 지식을 가지고 있지 않을 수 있습니다. 결과적으로 일부 경우 성능이 최적이 아닐 수 있으며 특히 고도로 전문화된 정보나 기술 정보를 처리할 때 미세 조정 또는 외부 지식이 필요할 수 있습니다.

Ercole Palmeri

혁신 뉴스레터
혁신에 관한 가장 중요한 뉴스를 놓치지 마세요. 이메일로 받으려면 가입하세요.

최근 기사

미래가 여기에 있습니다: 해운 산업이 글로벌 경제를 어떻게 혁신하고 있습니까?

해군 부문은 150억 시장을 향해 항해해온 진정한 글로벌 경제강국입니다.

1 월 2024

출판사와 OpenAI, 인공지능이 처리하는 정보의 흐름을 규제하기 위한 계약 체결

지난 월요일, Financial Times는 OpenAI와의 계약을 발표했습니다. FT는 세계적 수준의 저널리즘에 라이선스를 부여합니다…

4월 30 2024

온라인 결제: 스트리밍 서비스를 통해 영원히 결제하는 방법은 다음과 같습니다.

수백만 명의 사람들이 스트리밍 서비스 비용을 지불하고 월간 구독료를 지불합니다. 당신은…

4월 29 2024

Veeam은 보호부터 대응, 복구까지 랜섬웨어에 대한 가장 포괄적인 지원을 제공합니다.

Coveware by Veeam은 계속해서 사이버 강탈 사건 대응 서비스를 제공할 것입니다. Coveware는 법의학 및 교정 기능을 제공할 것입니다…

4월 23 2024