用品

使用 chatGPT 進行文本解析

文本分析或文本挖掘是從大量非結構化文本數據中提取有價值見解的重要技術。 

它涉及處理和分析文本以發現模式、趨勢和關係。

它允許公司、研究人員和組織根據從文本中收集的信息做出決策。 

隨著非結構化數據量繼續呈指數增長,對準確高效的文本分析工具的需求在市場營銷、金融、醫療保健和社會科學等不同行業變得越來越重要。

傳統上,文本分析是使用基於規則的方法和機器學習技術(如 SpaCY 和轉換器技術)進行的。 雖然這些方法已被證明是有效的,但它們需要相當大的努力和專業知識才能完善。

隨著大型語言模型 (LLM) 的出現,例如 ChatGPT di OpenAI. 它在生成類似人類的文本和理解上下文方面展示了非凡的能力,使其成為文本分析任務的有前途的工具,例如 entity recognition, sentiment analysis,而 topic modeling.

現在讓我們看看如何使用 ChatGPT 執行文本解析。

傳統方法(單一模型)對比法學碩士

過去,我們總是在機器學習中針對不同的任務使用不同的模型。 例如,如果我想從文本中提取知識,我將需要使用命名實體識別模型(NER - Named Entity Recognition),如果我需要將我的文本分類到單獨的類中,我將需要一個分類模型。 每項不同的活動都需要針對每項活動對模型進行不同的訓練,無論是通過遷移學習還是通過訓練。

隨著介紹 Large Language Models (LLM),無論是否經過訓練,LLM 模型都能夠執行多項 NLP 任務。 任何活動都可以 defi只需更改提示中的說明即可完成。

現在讓我們看看如何完成傳統的 NLP 任務 ChatGPT 並與傳統方式進行比較。 將執行的 NLP 任務 ChatGPT 在這篇文章中是:

  • 知識提取(NER)
  • 文本分類
  • Sentiment analysis
  • Riepilogo

知識提取(NER)

命名實體識別 (NER) 是指自動識別不同文本數據塊中的術語的任務。 它主要用於提取重要的實體類別,例如臨床筆記中的藥物名稱、保險索賠中的事故相關術語以及記錄中的其他領域特定術語。

請注意,此活動特定於醫學領域。 過去需要我們為單個模型標註和訓練 10.000 多行數據才能知道文本中具體的類和詞。 ChatGPT 無需任何預訓練文本或微調即可正確識別術語,這是一個比較好的結果!

文本分類

文本分類是指從海量數據中發現文本並將其歸類的自動過程,它在文本數據的檢索和提取中起著至關重要的作用。 文本分類應用程序的示例包括臨床警報或風險因素分類、自動診斷分類和垃圾郵件檢測。

Sentiment analysis

Sentiment analysis 涉及確定一段文本中表達的感覺或情感。 它的目的是將文本分類為預類別defi根據作者傳達的潛在情緒,將其分為積極、消極或中立。 

情緒分析的應用包括:

  • 分析客戶評論和反饋,
  • 跟踪社交媒體情緒,
  • 監控市場趨勢
  • 競選期間政治情緒的衡量。

Riepilogo

自動摘要是指以簡潔準確的方式識別和呈現一個或多個文檔的主要主題的過程。 這允許用戶在短時間內查看大量數據。 示例應用程序包括一個摘要係統,該系統允許從新聞文章中自動生成摘要,並通過從研究論文摘要中提取句子來進行信息摘要。

ChatGPT 是一個優秀的總結工具,尤其是對於長篇文章和復雜的評論。 通過在 ChatGPT 中粘貼評論,我們可以輕鬆地一目了然地了解產品評論摘要。

法學碩士的限制

由於本文的目的是探索 LLM 執行文本分析任務的能力,因此還必須認識到它們的局限性。 LLM 的一些主要限制包括:

  1. 資源利用率 :使用 LLM 需要大量的計算和財務資源,這對於資源有限的小型組織或個人研究人員來說可能是一個挑戰。 截至目前,ChatGPT 僅接受大約 8.000 個輸入和輸出令牌,以解析大量數據,需要用戶將文本分成多個數據塊,並且可能需要多次 API 調用來完成任務。
  2. 提示措辭的敏感性 :LLM 的表現可能會受到提示措辭方式的影響。 提示措辭的細微變化可能會產生不同的結果,這可能會在尋找一致且可靠的輸出時引起關注。
  3. 缺乏特定領域的專業知識 :雖然 LLM 對各個領域有一般的了解,但他們可能不具備與針對特定領域數據訓練的專業模型相同水平的專業知識。 因此,它們的性能在某些情況下可能不是最佳的,並且可能需要微調或外部知識,特別是在處理高度專業化或技術性的信息時。

Ercole Palmeri

創新通訊
不要錯過有關創新的最重要新聞。 註冊以通過電子郵件接收它們。

最近的文章

英國反壟斷監管機構對 GenAI 向 BigTech 發出警報

英國 CMA 對大型科技公司在人工智慧市場的行為發出了警告。那裡…

18月2024

Casa Green:義大利永續未來的能源革命

歐盟為提高建築物能源效率而製定的「綠色案例」法令已結束立法程序…

18月2024

根據新的 Casaleggio Associati 報告,義大利電子商務成長了 27%

Casaleggio Associati 發布了義大利電子商務年度報告。題為「人工智慧商務:人工智慧電子商務的前沿」的報告...

17月2024

絕妙點子:Bandalux 推出 Airpure®,淨化空氣的窗簾

不斷技術創新以及對環境和人民福祉的承諾的結果。 Bandalux 推出 Airpure®,一款帳篷…

12月2024