Чланци

Рашчлањивање текста помоћу цхатГПТ-а

Аналитика текста, или рударење текста, је витална техника за извлачење вредних увида из великих количина неструктурираних текстуалних података. 

Укључује обраду и анализу текста како би се открили обрасци, трендови и односи.

Омогућава компанијама, истраживачима и организацијама да доносе одлуке на основу информација прикупљених из текстова. 

Како обим неструктурираних података наставља експоненцијално да расте, потреба за прецизним и ефикасним алатима за анализу текста постаје све критичнија у различитим индустријама као што су маркетинг, финансије, здравство и друштвене науке.

Традиционално, анализа текста се врши коришћењем метода заснованих на правилима и техникама машинског учења као што су СпаЦИ и техника трансформатора. Иако су се ове методе показале ефикасним, захтевају значајан труд и стручност да би се усавршиле.

Са појавом великих језичких модела (ЛЛМ) као нпр ЦхатГПТ di ОпенАИ. Показао је изванредне способности у генерисању текста налик човеку и разумевању контекста, што га чини обећавајућим алатом за задатке анализе текста као што су entity recognition, sentiment analysisИ topic modeling.

Хајде да сада видимо како можемо да извршимо рашчлањивање текста користећи ЦхатГПТ.

Традиционална метода (појединачни модели) вс. ЛЛМ

У прошлости смо увек користили различите моделе за различите задатке у машинском учењу. На пример, ако желим да извучем знање из текста, мораћу да користим модел препознавања именованих ентитета (НЕР – Named Entity Recognition), ако треба да класификујем свој текст у засебне класе, требаће ми модел класификације. Свака различита активност захтевала је да модели буду различито обучени за сваку активност, било трансфером учења или обуком.

Са увођењем Large Language Modelс (ЛЛМ), ЛЛМ модел ће моћи да обавља више НЛП задатака са или без обуке. Свака активност може бити defiзаврши једноставно променом упутстава у упитима.

Сада да видимо како да урадимо традиционални НЛП задатак ЦхатГПТ и упореди га са традиционалним начином. НЛП задаци које ће обављати ЦхатГПТ у овом чланку су:

  • Екстракција знања (НЕР)
  • Класификација текста
  • Sentiment analysis
  • Резиме

Екстракција знања (НЕР)

Препознавање именованих ентитета (НЕР) се односи на задатак аутоматског идентификовања појмова у различитим блоковима текстуалних података. Углавном се користи за издвајање важних категорија ентитета као што су називи лекова из клиничких белешки, термини у вези са несрећом из захтева осигурања и други термини специфични за домен из евиденције.

Имајте на уму да је ова активност специфична за медицински домен. Некада је од нас захтевало да означимо и обучимо више од 10.000 редова података за један модел да бисмо знали специфичну класу и термин у тексту. ЦхатГПТ може исправно да идентификује термин без претходно обученог текста или финог подешавања, што је релативно добар резултат!

Класификација текста

Класификације текста се односе на аутоматски процес проналажења и разврставања текста у категорије из огромних података, игра суштинску улогу у проналажењу и издвајању текстуалних података. Примери апликација за класификацију текста укључују клиничка упозорења или категоризацију фактора ризика, аутоматску дијагностичку класификацију и откривање нежељене поште.

Sentiment analysis

Sentiment analysis укључује одређивање осећања или емоције изражене у делу текста. Циљ му је да класификује текст у пре-категоријеdefiконачно, као позитивно, негативно или неутрално, на основу основног осећања које је пренео аутор. 

Примене анализе осећања укључују:

  • анализа рецензија и повратних информација купаца,
  • праћење расположења друштвених медија,
  • праћење тржишних трендова е
  • мерење политичког осећања током изборних кампања.

Резиме

Аутоматски резимеи се односе на процес којим се главне теме једног или више докумената идентификују и представљају на концизан и тачан начин. Ово омогућава кориснику да погледа велике комаде података за кратко време. Примери апликација укључују систем резимеа који омогућава аутоматско генерисање сажетака из новинских чланака и сумирање информација издвајањем реченица из сажетака истраживачких радова.

ЦхатГПТ је одличан алат за сажетак, посебно за дугачке чланке и компликоване рецензије. Налепљивањем рецензија у ЦхатГПТ, лако можемо на први поглед сазнати сажетак прегледа производа.

Лимит ЛЛМ-а

Пошто је сврха овог чланка да истражи способност ЛЛМ-а да обављају задатке анализе текста, неопходно је препознати и њихова ограничења. Нека од кључних ограничења ЛЛМ-а укључују:

  1. Коришћење ресурса : Коришћење ЛЛМ захтева значајне рачунарске и финансијске ресурсе, што може бити изазов за мање организације или појединачне истраживаче са ограниченим ресурсима. Од данас, ЦхатГПТ прихвата само око 8.000 токена за унос и излаз, за ​​рашчлањивање велике количине података, захтева од корисника да разбије текст на више делова података и може захтевати више АПИ позива за задатке.
  2. Осетљивост на брзо изражавање : На перформансе ЛЛМ-а може утицати начин на који су упутства формулисана. Мала промена у брзим формулацијама може произвести различите резултате, што може бити разлог за забринутост када се тражи доследан и поуздан резултат.
  3. Недостатак стручности специфичне за домен : Док ЛЛМ имају опште разумевање различитих домена, можда немају исти ниво стручности као специјализовани модели обучени на подацима специфичним за домен. Као резултат тога, њихов учинак можда неће бити оптималан у неким случајевима и може захтевати фино подешавање или екстерно знање, посебно када се ради са високо специјализованим или техничким информацијама.

Ercole Palmeri

Иновациони билтен
Не пропустите најважније вести о иновацијама. Пријавите се да их примате путем е-поште.

Недавни чланци

Предности бојанка за децу - свет магије за све узрасте

Развијање финих моторичких вештина кроз бојење припрема децу за сложеније вештине попут писања. Боји…

КСНУМКС Мај КСНУМКС

Будућност је ту: Како бродарска индустрија револуционише глобалну економију

Поморски сектор је права глобална економска сила, која је кренула ка тржишту од 150 милијарди...

КСНУМКС Мај КСНУМКС

Издавачи и ОпенАИ потписују уговоре за регулисање протока информација које обрађује вештачка интелигенција

Прошлог понедељка, Финанциал Тимес је објавио договор са ОпенАИ. ФТ лиценцира своје новинарство светске класе…

КСНУМКС април КСНУМКС

Онлине плаћања: Ево како вас услуге стримовања чине да плаћате заувек

Милиони људи плаћају услуге стриминга, плаћајући месечне претплате. Увријежено је мишљење да сте…

КСНУМКС април КСНУМКС

Прочитајте Иновације на свом језику

Иновациони билтен
Не пропустите најважније вести о иновацијама. Пријавите се да их примате путем е-поште.

Пратите нас