Статті

Розбір тексту за допомогою chatGPT

Аналітика тексту, або інтелектуальний аналіз тексту, є життєво важливою технікою для отримання цінної інформації з великої кількості неструктурованих текстових даних.

Він передбачає обробку й аналіз тексту для виявлення закономірностей, тенденцій і зв’язків.

Це дозволяє компаніям, дослідникам і організаціям приймати рішення на основі інформації, отриманої з текстів.

Оскільки обсяг неструктурованих даних продовжує зростати в геометричній прогресії, потреба в точних і ефективних інструментах аналізу тексту стає все більш критичною в таких різноманітних галузях, як маркетинг, фінанси, охорона здоров’я та соціальні науки.

Традиційно аналіз тексту виконується за допомогою методів на основі правил і методів машинного навчання, таких як SpaCY і метод трансформатора. Хоча ці методи виявилися ефективними, вони потребують значних зусиль і досвіду для вдосконалення.

З появою великих мовних моделей (LLM), таких як ChatGPT di OpenAI. Він продемонстрував надзвичайні можливості у створенні людського тексту та розумінні контексту, що робить його перспективним інструментом для завдань аналізу тексту, таких як entity recognition, sentiment analysisІ topic modeling.

Тепер давайте подивимося, як ми можемо виконати розбір тексту за допомогою ChatGPT.

Традиційний метод (окремі моделі) проти. магістр права

У минулому ми завжди використовували різні моделі для різних завдань машинного навчання. Наприклад, якщо я хочу отримати знання з тексту, мені потрібно буде використовувати модель розпізнавання іменованих сутностей (NER – Named Entity Recognition), якщо мені потрібно класифікувати мій текст на окремі класи, мені знадобиться модель класифікації. Кожна різна діяльність вимагала окремого навчання моделей для кожної діяльності, або шляхом перенесення навчання, або шляхом навчання.

З введенням Large Language Models (LLM), модель LLM зможе виконувати кілька завдань НЛП з навчанням або без нього. Будь-яка діяльність може бути defiзавершується, просто змінивши інструкції в підказках.

Тепер давайте подивимося, як виконати традиційне завдання НЛП ChatGPT і порівняти це з традиційним способом. Завдання НЛП, які буде виконувати ChatGPT у цій статті є:

  • Витяг знань (NER)
  • Класифікація тексту
  • Sentiment analysis
  • Riepilogo

Витяг знань (NER)

Розпізнавання іменованих сутностей (NER) відноситься до завдання автоматичної ідентифікації термінів у різних блоках текстових даних. Він в основному використовується для вилучення важливих категорій об’єктів, таких як назви ліків із клінічних записок, пов’язані з нещасними випадками терміни зі страхових претензій та інші доменні терміни із записів.

Пов'язані статті

Зверніть увагу, що ця діяльність є специфічною для сфери медицини. Раніше нам доводилося анотувати та навчати понад 10.000 XNUMX рядків даних для однієї моделі, щоб знати конкретний клас і термін у тексті. ChatGPT може правильно визначити термін без будь-якого попередньо навченого тексту чи тонкого налаштування, що є відносно хорошим результатом!

Класифікація тексту

Класифікація тексту стосується автоматичного процесу пошуку та класифікації тексту за категоріями з величезних даних, вона відіграє важливу роль у пошуку та вилученні текстових даних. Приклади програм класифікації тексту включають клінічні сповіщення або категоризацію факторів ризику, автоматичну діагностичну класифікацію та виявлення спаму.

Sentiment analysis

Sentiment analysis передбачає визначення почуття чи емоції, вираженої у фрагменті тексту. Він спрямований на класифікацію тексту на попередні категоріїdefinite, як позитивний, негативний або нейтральний, залежно від глибинного почуття, переданого автором. 

Застосування аналізу настроїв включають:

  • аналіз відгуків клієнтів,
  • відстеження настроїв у соціальних мережах,
  • моніторинг ринкових тенденцій e
  • вимірювання політичних настроїв під час виборчих кампаній.

Riepilogo

Автоматичні резюме стосуються процесу, за допомогою якого основні теми одного або кількох документів визначаються та подаються в стислій і точній формі. Це дозволяє користувачеві переглядати великі фрагменти даних за короткий проміжок часу. Приклади програм включають систему резюме, яка дозволяє автоматично генерувати анотації з новинних статей і підсумовувати інформацію шляхом вилучення речень із анотацій наукової статті.

ChatGPT є чудовим інструментом підсумовування, особливо для довгих статей і складних оглядів. Вставивши відгуки в ChatGPT, ми можемо легко дізнатися короткий огляд продукту з першого погляду.

Обмеження LLMs

Оскільки метою цієї статті є вивчення здатності LLM виконувати завдання аналізу тексту, важливо також визнати їх обмеження. Деякі з ключових обмежень LLM включають:

  1. Використання ресурсів : використання LLM вимагає значних обчислювальних і фінансових ресурсів, що може бути проблемою для невеликих організацій або окремих дослідників з обмеженими ресурсами. Станом на сьогодні ChatGPT приймає лише близько 8.000 токенів для введення та виведення, для аналізу великої кількості даних, вимагає від користувача розбивати текст на кілька фрагментів даних і може вимагати кількох викликів API для завдань.
  2. Чутливість до швидкого фразування : На продуктивність LLM може впливати те, як сформульовані підказки. Невелика зміна формулювання підказки може призвести до інших результатів, що може стати причиною для занепокоєння при пошуку послідовного та надійного результату.
  3. Відсутність спеціального досвіду : Хоча магістратури мають загальне уявлення про різні домени, вони можуть не мати такого ж рівня досвіду, як спеціалізовані моделі, навчені на даних, що стосуються предметної області. Як наслідок, у деяких випадках їхня продуктивність може бути неоптимальною та може вимагати тонкої настройки або зовнішніх знань, особливо при роботі з вузькоспеціалізованою або технічною інформацією.

Ercole Palmeri

Інноваційний бюлетень
Не пропустіть найважливіші новини про інновації. Підпишіться, щоб отримувати їх електронною поштою.

Останні статті

Статистичні функції Excel: навчальний посібник із прикладами, частина перша

Excel надає широкий спектр статистичних функцій, які виконують обчислення від основного середнього значення, медіани та моди до розподілу…

Жовтень 1 2023

Зведені таблиці: що це таке, як створити в Excel і Google. Підручник з прикладами

Зведені таблиці — це метод аналізу електронних таблиць. Вони дозволяють абсолютно новачкові з нульовим досвідом...

30 вересня 2023

Проблема з авторським правом

Нижче наведено другу й останню статтю цього бюлетеня, присвячену зв’язку між конфіденційністю та авторським правом від…

30 вересня 2023

Інновації для електричної мобільності та розумних мереж: нові кальцієво-іонні батареї

Проект ACTEA, ENEA та Римський університет Сапієнца розроблятимуть нові кальцієво-іонні акумулятори. Нові кальцієво-іонні акумулятори як альтернатива…

30 вересня 2023

Основні моменти щорічної зустрічі AOFAS 2023 Ортопедичні дослідження та інновації

Понад 900 хірургів-ортопедів стопи та гомілковостопного суглоба, передових медичних працівників, лікарів-ортопедів та студентів-медиків відвідали...

28 вересня 2023

Бум робототехніки: лише у 2022 році по всьому світу було встановлено 531.000 35 роботів. Очікуване зростання на 2027% на рік до XNUMX року. ЗВІТ PROTOLABS

Згідно з останнім звітом Protolabs про робототехніку для виробництва, майже третина (32%) респондентів вважають, що в найближчі кілька років...

28 вересня 2023

CNH отримала нагороду Agritechnica Innovation Awards за свою технологію в галузі сільського господарства

CNH рішуче прагне розвивати свою технологію, щоб зробити сільське господарство простішим, ефективнішим і стійкішим для своїх…

27 вересня 2023

NTT і Qualcomm вирішили співпрацювати, щоб вийти за межі можливостей ШІ

Стратегічний крок сприятиме швидшому розвитку приватної екосистеми 5G для всіх цифрових пристроїв, повідомляє NTT...

27 вересня 2023

Neuralink розпочинає набір для першого клінічного випробування мозкового імплантату на людях

Neuralink, нейротехнологічний стартап, який належить Ілону Маску, нещодавно оголосив, що розпочне набір пацієнтів для свого…

26 вересня 2023

Privacy Loop: штучний інтелект у лабіринті конфіденційності та авторського права

Це перша з двох статей, у яких я розглядаю делікатний зв’язок між конфіденційністю та авторським правом, з одного боку,…

26 вересня 2023

Читайте Innovation своєю мовою

Інноваційний бюлетень
Не пропустіть найважливіші новини про інновації. Підпишіться, щоб отримувати їх електронною поштою.

Слідуйте за нами