随着非结构化数据量继续呈指数增长,对准确高效的文本分析工具的需求在市场营销、金融、医疗保健和社会科学等不同行业变得越来越重要。
传统上,文本分析是使用基于规则的方法和机器学习技术(如 SpaCY 和转换器技术)进行的。 虽然这些方法已被证明是有效的,但它们需要相当大的努力和专业知识才能完善。
随着大型语言模型 (LLM) 的出现,例如 ChatGPT di OpenAI. 它在生成类似人类的文本和理解上下文方面展示了非凡的能力,使其成为文本分析任务的有前途的工具,例如 entity recognition
, sentiment analysis
和 topic modeling
.
现在让我们看看如何使用 ChatGPT 执行文本解析。
过去,我们总是在机器学习中针对不同的任务使用不同的模型。 例如,如果我想从文本中提取知识,我将需要使用命名实体识别模型(NER - Named Entity Recognition
),如果我需要将我的文本分类到单独的类中,我将需要一个分类模型。 每项不同的活动都需要针对每项活动对模型进行不同的训练,无论是通过迁移学习还是通过训练。
随着引入 Large Language Models (LLM),无论是否经过训练,LLM 模型都能够执行多项 NLP 任务。 任何活动都可以 defi只需更改提示中的说明即可完成。
现在让我们看看如何完成传统的 NLP 任务 ChatGPT 并与传统方式进行比较。 将执行的 NLP 任务 ChatGPT 在这篇文章中是:
Sentiment analysis
命名实体识别 (NER) 是指自动识别不同文本数据块中的术语的任务。 它主要用于提取重要的实体类别,例如临床笔记中的药物名称、保险索赔中的事故相关术语以及记录中的其他领域特定术语。
请注意,此活动特定于医学领域。 过去需要我们为单个模型标注和训练 10.000 多行数据才能知道文本中具体的类和词。 ChatGPT 无需任何预训练文本或微调即可正确识别术语,这是一个比较好的结果!
文本分类是指从海量数据中发现文本并将其归类的自动过程,它在文本数据的检索和提取中起着至关重要的作用。 文本分类应用程序的示例包括临床警报或风险因素分类、自动诊断分类和垃圾邮件检测。
Sentiment analysis
Sentiment analysis
涉及确定一段文本中表达的感觉或情感。 它的目的是将文本分类为预类别defi根据作者传达的潜在情绪,将其分为积极、消极或中立。
情绪分析的应用包括:
自动摘要是指以简洁准确的方式识别和呈现一个或多个文档的主要主题的过程。 这允许用户在短时间内查看大量数据。 示例应用程序包括一个摘要系统,该系统允许从新闻文章中自动生成摘要,并通过从研究论文摘要中提取句子来进行信息摘要。
ChatGPT 是一个优秀的总结工具,尤其是对于长篇文章和复杂的评论。 通过在 ChatGPT 中粘贴评论,我们可以轻松地一目了然地了解产品评论摘要。
由于本文的目的是探索 LLM 执行文本分析任务的能力,因此还必须认识到它们的局限性。 LLM 的一些主要限制包括:
Ercole Palmeri