Паколькі аб'ём неструктураваных даных працягвае расці ў геаметрычнай прагрэсіі, патрэба ў дакладных і эфектыўных інструментах аналізу тэксту становіцца ўсё больш важнай у такіх розных галінах, як маркетынг, фінансы, ахова здароўя і сацыяльныя навукі.
Традыцыйна аналіз тэксту праводзіўся з выкарыстаннем метадаў, заснаваных на правілах, і метадаў машыннага навучання, такіх як SpaCY і метад трансфарматара. Нягледзячы на тое, што гэтыя метады даказалі сваю эфектыўнасць, яны патрабуюць значных намаганняў і вопыту для ўдасканалення.
З з'яўленнем вялікіх моўных мадэляў (LLM), такіх як Чат GPT di OpenAI. Ён прадэманстраваў выдатныя магчымасці ў стварэнні чалавечага тэксту і разуменні кантэксту, што робіць яго перспектыўным інструментам для задач аналізу тэксту, такіх як entity recognition
, sentiment analysis
І topic modeling
.
Давайце зараз паглядзім, як мы можам выканаць разбор тэксту з дапамогай ChatGPT.
У мінулым мы заўсёды выкарыстоўвалі розныя мадэлі для розных задач машыннага навучання. Напрыклад, калі я хачу атрымаць веды з тэксту, мне трэба будзе выкарыстаць мадэль распазнання найменных аб'ектаў (NER - Named Entity Recognition
), калі мне трэба класіфікаваць мой тэкст на асобныя класы, мне спатрэбіцца мадэль класіфікацыі. Кожная розная дзейнасць патрабавала навучання мадэляў па-рознаму для кожнай дзейнасці, альбо шляхам пераноснага навучання, альбо шляхам навучання.
З увядзеннем в Large Language Models (LLM), мадэль LLM зможа выконваць некалькі задач НЛП з або без навучання. Любая дзейнасць можа быць defiскончыўся, проста змяніўшы інструкцыі ў падказках.
Зараз давайце паглядзім, як выканаць традыцыйнае заданне НЛП Чат GPT і параўнаць яго з традыцыйным спосабам. Задачы НЛП, якія будзе выконваць Чат GPT у гэтым артыкуле:
Sentiment analysis
Распазнаванне названых аб'ектаў (NER) адносіцца да задачы аўтаматычнай ідэнтыфікацыі тэрмінаў у розных блоках тэкставых даных. У асноўным ён выкарыстоўваецца для вылучэння важных катэгорый аб'ектаў, такіх як назвы лекаў з клінічных нататак, тэрміны, звязаныя з няшчаснымі выпадкамі, са страхавых патрабаванняў і іншыя тэрміны, звязаныя з даменам, з запісаў.
Звярніце ўвагу, што гэтая дзейнасць адносіцца да сферы медыцыны. Раней нам патрабавалася анатаваць і навучаць больш за 10.000 XNUMX радкоў даных для адной мадэлі, каб ведаць пэўны клас і тэрмін у тэксце. ChatGPT можа правільна ідэнтыфікаваць тэрмін без папярэдняй падрыхтоўкі тэксту або тонкай налады, што з'яўляецца адносна добрым вынікам!
Тэкставыя класіфікацыі адносяцца да аўтаматычнага працэсу пошуку і класіфікацыі тэксту па катэгорыях з велізарных даных, яны адыгрываюць важную ролю ў пошуку і выманні тэкставых даных. Прыклады прыкладанняў для класіфікацыі тэкстаў ўключаюць клінічныя абвесткі або катэгарызацыю фактараў рызыкі, аўтаматычную дыягнастычную класіфікацыю і выяўленне спаму.
Sentiment analysis
Sentiment analysis
прадугледжвае вызначэнне пачуцця або эмоцыі, выражаных у тэксце. Ён накіраваны на класіфікацыю тэксту па папярэдніх катэгорыяхdefinite, як пазітыўны, адмоўны або нейтральны, у залежнасці ад асноўных пачуццяў, перададзеных аўтарам.
Прыкладанні аналізу настрояў ўключаюць:
Аўтаматычныя рэзюмэ адносяцца да працэсу, пры якім асноўныя тэмы аднаго або некалькіх дакументаў вызначаюцца і прадстаўляюцца ў сціслай і дакладнай форме. Гэта дазваляе карыстальніку зірнуць на вялікія кавалкі дадзеных за кароткі прамежак часу. Прыклады прыкладанняў уключаюць сістэму рэзюмэ, якая дазваляе аўтаматычна ствараць анатацыі з навінавых артыкулаў і абагульняць інфармацыю шляхам вылучэння прапаноў з рэфератаў навуковай працы.
ChatGPT з'яўляецца выдатным інструментам рэзюмэ, асабліва для доўгіх артыкулаў і складаных аглядаў. Устаўляючы агляды ў ChatGPT, мы можам лёгка даведацца аб зводцы агляду прадукту з першага погляду.
Паколькі мэта гэтага артыкула - вывучыць здольнасць LLM выконваць задачы па аналізе тэксту, вельмі важна таксама прызнаць іх абмежаванні. Некаторыя з асноўных абмежаванняў LLM ўключаюць:
Ercole Palmeri
Ваенна-марскі сектар - гэта сапраўдная глабальная эканамічная сіла, якая перайшла да 150-мільярднага рынку...
У мінулы панядзелак Financial Times абвясціла аб здзелцы з OpenAI. FT ліцэнзуе сваю журналістыку сусветнага ўзроўню...
Мільёны людзей плацяць за струменевыя паслугі, плацячы штомесячную абаненцкую плату. Распаўсюджана меркаванне, што вы…
Coveware ад Veeam працягне прадастаўляць паслугі рэагавання на інцыдэнты кібервымагальніцтва. Coveware будзе прапаноўваць судова-медыцынскую экспертызу і магчымасці выпраўлення…