Статті

Розбір тексту за допомогою chatGPT

Аналітика тексту, або інтелектуальний аналіз тексту, є життєво важливою технікою для отримання цінної інформації з великої кількості неструктурованих текстових даних. 

Він передбачає обробку й аналіз тексту для виявлення закономірностей, тенденцій і зв’язків.

Це дозволяє компаніям, дослідникам і організаціям приймати рішення на основі інформації, отриманої з текстів. 

Оскільки обсяг неструктурованих даних продовжує зростати в геометричній прогресії, потреба в точних і ефективних інструментах аналізу тексту стає все більш критичною в таких різноманітних галузях, як маркетинг, фінанси, охорона здоров’я та соціальні науки.

Традиційно аналіз тексту виконується за допомогою методів на основі правил і методів машинного навчання, таких як SpaCY і метод трансформатора. Хоча ці методи виявилися ефективними, вони потребують значних зусиль і досвіду для вдосконалення.

З появою великих мовних моделей (LLM), таких як ChatGPT di OpenAI. Він продемонстрував надзвичайні можливості у створенні людського тексту та розумінні контексту, що робить його перспективним інструментом для завдань аналізу тексту, таких як entity recognition, sentiment analysisІ topic modeling.

Тепер давайте подивимося, як ми можемо виконати розбір тексту за допомогою ChatGPT.

Традиційний метод (окремі моделі) проти. магістр права

У минулому ми завжди використовували різні моделі для різних завдань машинного навчання. Наприклад, якщо я хочу отримати знання з тексту, мені потрібно буде використовувати модель розпізнавання іменованих сутностей (NER – Named Entity Recognition), якщо мені потрібно класифікувати мій текст на окремі класи, мені знадобиться модель класифікації. Кожна різна діяльність вимагала окремого навчання моделей для кожної діяльності, або шляхом перенесення навчання, або шляхом навчання.

З введенням Large Language Models (LLM), модель LLM зможе виконувати кілька завдань НЛП з навчанням або без нього. Будь-яка діяльність може бути defiзавершується, просто змінивши інструкції в підказках.

Тепер давайте подивимося, як виконати традиційне завдання НЛП ChatGPT і порівняти це з традиційним способом. Завдання НЛП, які буде виконувати ChatGPT у цій статті є:

  • Витяг знань (NER)
  • Класифікація тексту
  • Sentiment analysis
  • Riepilogo

Витяг знань (NER)

Розпізнавання іменованих сутностей (NER) відноситься до завдання автоматичної ідентифікації термінів у різних блоках текстових даних. Він в основному використовується для вилучення важливих категорій об’єктів, таких як назви ліків із клінічних записок, пов’язані з нещасними випадками терміни зі страхових претензій та інші доменні терміни із записів.

Зверніть увагу, що ця діяльність є специфічною для сфери медицини. Раніше нам доводилося анотувати та навчати понад 10.000 XNUMX рядків даних для однієї моделі, щоб знати конкретний клас і термін у тексті. ChatGPT може правильно визначити термін без будь-якого попередньо навченого тексту чи тонкого налаштування, що є відносно хорошим результатом!

Класифікація тексту

Класифікація тексту стосується автоматичного процесу пошуку та класифікації тексту за категоріями з величезних даних, вона відіграє важливу роль у пошуку та вилученні текстових даних. Приклади програм класифікації тексту включають клінічні сповіщення або категоризацію факторів ризику, автоматичну діагностичну класифікацію та виявлення спаму.

Sentiment analysis

Sentiment analysis передбачає визначення почуття чи емоції, вираженої у фрагменті тексту. Він спрямований на класифікацію тексту на попередні категоріїdefinite, як позитивний, негативний або нейтральний, залежно від глибинного почуття, переданого автором. 

Застосування аналізу настроїв включають:

  • аналіз відгуків клієнтів,
  • відстеження настроїв у соціальних мережах,
  • моніторинг ринкових тенденцій e
  • вимірювання політичних настроїв під час виборчих кампаній.

Riepilogo

Автоматичні резюме стосуються процесу, за допомогою якого основні теми одного або кількох документів визначаються та подаються в стислій і точній формі. Це дозволяє користувачеві переглядати великі фрагменти даних за короткий проміжок часу. Приклади програм включають систему резюме, яка дозволяє автоматично генерувати анотації з новинних статей і підсумовувати інформацію шляхом вилучення речень із анотацій наукової статті.

ChatGPT є чудовим інструментом підсумовування, особливо для довгих статей і складних оглядів. Вставивши відгуки в ChatGPT, ми можемо легко дізнатися короткий огляд продукту з першого погляду.

Обмеження LLMs

Оскільки метою цієї статті є вивчення здатності LLM виконувати завдання аналізу тексту, важливо також визнати їх обмеження. Деякі з ключових обмежень LLM включають:

  1. Використання ресурсів : використання LLM вимагає значних обчислювальних і фінансових ресурсів, що може бути проблемою для невеликих організацій або окремих дослідників з обмеженими ресурсами. Станом на сьогодні ChatGPT приймає лише близько 8.000 токенів для введення та виведення, для аналізу великої кількості даних, вимагає від користувача розбивати текст на кілька фрагментів даних і може вимагати кількох викликів API для завдань.
  2. Чутливість до швидкого фразування : На продуктивність LLM може впливати те, як сформульовані підказки. Невелика зміна формулювання підказки може призвести до інших результатів, що може стати причиною для занепокоєння при пошуку послідовного та надійного результату.
  3. Відсутність спеціального досвіду : Хоча магістратури мають загальне уявлення про різні домени, вони можуть не мати такого ж рівня досвіду, як спеціалізовані моделі, навчені на даних, що стосуються предметної області. Як наслідок, у деяких випадках їхня продуктивність може бути неоптимальною та може вимагати тонкої настройки або зовнішніх знань, особливо при роботі з вузькоспеціалізованою або технічною інформацією.

Ercole Palmeri

Інноваційний бюлетень
Не пропустіть найважливіші новини про інновації. Підпишіться, щоб отримувати їх електронною поштою.

Останні статті

Британський антимонопольний регулятор викликає тривогу BigTech через GenAI

CMA Великобританії випустило попередження щодо поведінки Big Tech на ринку штучного інтелекту. Там…

Квітень 18 2024

Casa Green: енергетична революція для сталого майбутнього в Італії

Указ «Case Green», розроблений Європейським Союзом для підвищення енергоефективності будівель, завершив свій законодавчий процес з…

Квітень 18 2024

Електронна комерція в Італії на +27% згідно з новим звітом Casaleggio Associati

Представлено щорічний звіт Casaleggio Associati про електронну комерцію в Італії. Доповідь під назвою «AI-Commerce: передові межі електронної комерції зі штучним інтелектом».…

Квітень 17 2024

Чудова ідея: Bandalux представляє Airpure®, завісу, яка очищає повітря

Результат постійних технологічних інновацій і відданості навколишньому середовищу та добробуту людей. Bandalux представляє Airpure®, намет…

Квітень 12 2024

Читайте Innovation своєю мовою

Інноваційний бюлетень
Не пропустіть найважливіші новини про інновації. Підпишіться, щоб отримувати їх електронною поштою.

Слідуйте за нами