Артыкулы

Разбор тэксту з дапамогай chatGPT

Тэкставая аналітыка, або аналіз тэксту, з'яўляецца жыццёва важнай тэхнікай для атрымання каштоўнай інфармацыі з вялікіх аб'ёмаў неструктураваных тэкставых даных. 

Яна ўключае ў сябе апрацоўку і аналіз тэксту, каб выявіць заканамернасці, тэндэнцыі і адносіны.

Гэта дазваляе кампаніям, даследчыкам і арганізацыям прымаць рашэнні на аснове інфармацыі, атрыманай з тэкстаў. 

Паколькі аб'ём неструктураваных даных працягвае расці ў геаметрычнай прагрэсіі, патрэба ў дакладных і эфектыўных інструментах аналізу тэксту становіцца ўсё больш важнай у такіх розных галінах, як маркетынг, фінансы, ахова здароўя і сацыяльныя навукі.

Традыцыйна аналіз тэксту праводзіўся з выкарыстаннем метадаў, заснаваных на правілах, і метадаў машыннага навучання, такіх як SpaCY і метад трансфарматара. Нягледзячы на ​​тое, што гэтыя метады даказалі сваю эфектыўнасць, яны патрабуюць значных намаганняў і вопыту для ўдасканалення.

З з'яўленнем вялікіх моўных мадэляў (LLM), такіх як Чат GPT di OpenAI. Ён прадэманстраваў выдатныя магчымасці ў стварэнні чалавечага тэксту і разуменні кантэксту, што робіць яго перспектыўным інструментам для задач аналізу тэксту, такіх як entity recognition, sentiment analysisІ topic modeling.

Давайце зараз паглядзім, як мы можам выканаць разбор тэксту з дапамогай ChatGPT.

Традыцыйны метад (адзінкавыя мадэлі) супраць. магістр права

У мінулым мы заўсёды выкарыстоўвалі розныя мадэлі для розных задач машыннага навучання. Напрыклад, калі я хачу атрымаць веды з тэксту, мне трэба будзе выкарыстаць мадэль распазнання найменных аб'ектаў (NER - Named Entity Recognition), калі мне трэба класіфікаваць мой тэкст на асобныя класы, мне спатрэбіцца мадэль класіфікацыі. Кожная розная дзейнасць патрабавала навучання мадэляў па-рознаму для кожнай дзейнасці, альбо шляхам пераноснага навучання, альбо шляхам навучання.

З увядзеннем в Large Language Models (LLM), мадэль LLM зможа выконваць некалькі задач НЛП з або без навучання. Любая дзейнасць можа быць defiскончыўся, проста змяніўшы інструкцыі ў падказках.

Зараз давайце паглядзім, як выканаць традыцыйнае заданне НЛП Чат GPT і параўнаць яго з традыцыйным спосабам. Задачы НЛП, якія будзе выконваць Чат GPT у гэтым артыкуле:

  • Выманне ведаў (NER)
  • Класіфікацыя тэкстаў
  • Sentiment analysis
  • Рэзюмэ

Выманне ведаў (NER)

Распазнаванне названых аб'ектаў (NER) адносіцца да задачы аўтаматычнай ідэнтыфікацыі тэрмінаў у розных блоках тэкставых даных. У асноўным ён выкарыстоўваецца для вылучэння важных катэгорый аб'ектаў, такіх як назвы лекаў з клінічных нататак, тэрміны, звязаныя з няшчаснымі выпадкамі, са страхавых патрабаванняў і іншыя тэрміны, звязаныя з даменам, з запісаў.

Звярніце ўвагу, што гэтая дзейнасць адносіцца да сферы медыцыны. Раней нам патрабавалася анатаваць і навучаць больш за 10.000 XNUMX радкоў даных для адной мадэлі, каб ведаць пэўны клас і тэрмін у тэксце. ChatGPT можа правільна ідэнтыфікаваць тэрмін без папярэдняй падрыхтоўкі тэксту або тонкай налады, што з'яўляецца адносна добрым вынікам!

Класіфікацыя тэкстаў

Тэкставыя класіфікацыі адносяцца да аўтаматычнага працэсу пошуку і класіфікацыі тэксту па катэгорыях з велізарных даных, яны адыгрываюць важную ролю ў пошуку і выманні тэкставых даных. Прыклады прыкладанняў для класіфікацыі тэкстаў ўключаюць клінічныя абвесткі або катэгарызацыю фактараў рызыкі, аўтаматычную дыягнастычную класіфікацыю і выяўленне спаму.

Sentiment analysis

Sentiment analysis прадугледжвае вызначэнне пачуцця або эмоцыі, выражаных у тэксце. Ён накіраваны на класіфікацыю тэксту па папярэдніх катэгорыяхdefinite, як пазітыўны, адмоўны або нейтральны, у залежнасці ад асноўных пачуццяў, перададзеных аўтарам. 

Прыкладанні аналізу настрояў ўключаюць:

  • аналіз водгукаў і водгукаў кліентаў,
  • адсочванне настрояў у сацыяльных сетках,
  • маніторынг рынкавых тэндэнцый e
  • вымярэнне палітычных настрояў падчас выбарчых кампаній.

Рэзюмэ

Аўтаматычныя рэзюмэ адносяцца да працэсу, пры якім асноўныя тэмы аднаго або некалькіх дакументаў вызначаюцца і прадстаўляюцца ў сціслай і дакладнай форме. Гэта дазваляе карыстальніку зірнуць на вялікія кавалкі дадзеных за кароткі прамежак часу. Прыклады прыкладанняў уключаюць сістэму рэзюмэ, якая дазваляе аўтаматычна ствараць анатацыі з навінавых артыкулаў і абагульняць інфармацыю шляхам вылучэння прапаноў з рэфератаў навуковай працы.

ChatGPT з'яўляецца выдатным інструментам рэзюмэ, асабліва для доўгіх артыкулаў і складаных аглядаў. Устаўляючы агляды ў ChatGPT, мы можам лёгка даведацца аб зводцы агляду прадукту з першага погляду.

Ліміт LLMs

Паколькі мэта гэтага артыкула - вывучыць здольнасць LLM выконваць задачы па аналізе тэксту, вельмі важна таксама прызнаць іх абмежаванні. Некаторыя з асноўных абмежаванняў LLM ўключаюць:

  1. Выкарыстанне рэсурсаў : Выкарыстанне LLM патрабуе значных вылічальных і фінансавых рэсурсаў, што можа стаць праблемай для невялікіх арганізацый або асобных даследчыкаў з абмежаванымі рэсурсамі. На сённяшні дзень ChatGPT прымае толькі каля 8.000 токенаў для ўводу і вываду, каб аналізаваць вялікі аб'ём даных, патрабуе ад карыстальніка разбівання тэксту на некалькі фрагментаў даных і можа спатрэбіцца некалькі выклікаў API для задач.
  2. Адчувальнасць да імклівых фраз : Прадукцыйнасць LLMs можа залежаць ад таго, як фармулююцца падказкі. Невялікае змяненне хуткай фармулёўкі можа прывесці да розных вынікаў, што можа быць прычынай для турботы пры пошуку паслядоўнага і надзейнага выніку.
  3. Адсутнасць вопыту ў канкрэтнай вобласці : Нягледзячы на ​​тое, што магістранты валодаюць агульным разуменнем розных даменаў, яны могуць не мець такога ж узроўню ведаў, як спецыялізаваныя мадэлі, навучаныя на даменных даных. У выніку іх прадукцыйнасць можа быць не аптымальнай у некаторых выпадках і можа патрабаваць тонкай налады або знешніх ведаў, асабліва пры працы з вузкаспецыялізаванай або тэхнічнай інфармацыяй.

Ercole Palmeri

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Апошнія артыкулы

Будучыня тут: як індустрыя суднаходства рэвалюцыянізуе сусветную эканоміку

Ваенна-марскі сектар - гэта сапраўдная глабальная эканамічная сіла, якая перайшла да 150-мільярднага рынку...

1 мая 2024

Выдаўцы і OpenAI падпісваюць пагадненні аб рэгуляванні патоку інфармацыі, апрацаванай штучным інтэлектам

У мінулы панядзелак Financial Times абвясціла аб здзелцы з OpenAI. FT ліцэнзуе сваю журналістыку сусветнага ўзроўню...

Красавік 30 2024

Інтэрнэт-плацяжы: вось як паслугі струменевай перадачы прымушаюць вас плаціць вечна

Мільёны людзей плацяць за струменевыя паслугі, плацячы штомесячную абаненцкую плату. Распаўсюджана меркаванне, што вы…

Красавік 29 2024

Veeam прапануе самую поўную падтрымку праграм-вымагальнікаў - ад абароны да адказу і аднаўлення

Coveware ад Veeam працягне прадастаўляць паслугі рэагавання на інцыдэнты кібервымагальніцтва. Coveware будзе прапаноўваць судова-медыцынскую экспертызу і магчымасці выпраўлення…

Красавік 23 2024

Чытайце Innovation на сваёй мове

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Выконвайце за намі