artikels

Tekst parsearje mei chatGPT

Tekstanalytyk, of tekstmining, is in fitale technyk foar it ekstrahearjen fan weardefolle ynsjoggen út grutte hoemannichten unstrukturearre tekstgegevens. 

It giet om it ferwurkjen en analysearjen fan tekst om patroanen, trends en relaasjes te ûntdekken.

It lit bedriuwen, ûndersikers en organisaasjes besluten nimme op basis fan ynformaasje út teksten. 

As it folume fan net-strukturearre gegevens eksponinsjele groeit, is de needsaak foar krekte en effisjinte ark foar tekstanalytyk hieltyd kritysk wurden oer yndustry sa ferskaat as marketing, finânsjes, sûnenssoarch en sosjale wittenskippen.

Tradysjoneel is tekstanalyse útfierd mei op regels basearre metoaden en techniken foar masinelearen lykas SpaCY en de transformatortechnyk. Hoewol dizze metoaden effektyf hawwe bewiisd, fereaskje se in soad ynspanning en ekspertize om te perfeksjonearjen.

Mei de komst fan grutte taalmodellen (LLM) lykas Chat GPT di OpenAI. It hat opmerklike mooglikheden oantoand by it generearjen fan minsklike tekst en it begripen fan kontekst, wêrtroch it in kânsryk ark is foar tekstanalysetaken lykas entity recognition, sentiment analysis, en topic modeling.

Litte wy no sjen hoe't wy tekstparsearje kinne útfiere mei ChatGPT.

Tradysjonele metoade (single modellen) vs. LLM

Yn it ferline hawwe wy altyd ferskate modellen brûkt foar ferskate taken yn masine learen. Bygelyks, as ik kennis út in tekst ekstrahearje wol, sil ik in neamd entiteitsherkenningsmodel moatte brûke (NER - Named Entity Recognition), as ik myn tekst yn aparte klassen moat klassifisearje, haw ik in klassifikaasjemodel nedich. Elke ferskillende aktiviteit easke dat de modellen foar elke aktiviteit oars wurde traind, itsij troch transferlearen of troch training.

Mei de ynfiering fan de Large Language Models (LLM), sil in LLM-model meardere NLP-taken kinne útfiere mei of sûnder training. Elke aktiviteit kin wêze defifoltôge gewoan troch de ynstruksjes yn 'e prompts te feroarjen.

Litte wy no sjen hoe't jo de tradisjonele NLP-taak kinne dwaan yn Chat GPT en fergelykje it mei de tradisjonele manier. De NLP-taken dy't sille wurde útfierd troch Chat GPT yn dit artikel binne:

  • Kenniswinning (NER)
  • Tekstklassifikaasje
  • Sentiment analysis
  • Gearfetting

Kenniswinning (NER)

Named Entity Recognition (NER) ferwiist nei de taak om termen automatysk te identifisearjen yn ferskate blokken fan tekstgegevens. It wurdt fral brûkt om wichtige entiteitskategoryen te ekstrahearjen, lykas medisynnammen út klinyske notysjes, ûngemakken-relatearre termen út fersekeringsclaims, en oare domeinspesifike termen út records.

Tink derom dat dizze aktiviteit spesifyk is foar it medyske domein. It easke ús eartiids om mear dan 10.000 rigen gegevens te annotearjen en te trenen foar ien model om de spesifike klasse en term yn 'e tekst te kennen. ChatGPT kin de term korrekt identifisearje sûnder foarôf oplaat tekst of fine-tuning, wat in relatyf goed resultaat is!

Tekstklassifikaasje

Tekstklassifikaasjes ferwiist nei it automatyske proses fan it finen en klassifisearjen fan tekst yn kategoryen út enoarme gegevens, it spilet in essensjele rol yn it opheljen en ekstrahearjen fan tekstgegevens. Foarbylden fan applikaasjes foar tekstklassifikaasje omfetsje klinyske warskôgings as risikofaktor-kategorisearring, automatyske diagnostyske klassifikaasje, en spam-deteksje.

Sentiment analysis

Sentiment analysis giet it om it fêststellen fan it gefoel of emoasje dat útdrukt wurdt yn in stikje tekst. It hat as doel om tekst te klassifisearjen yn foarkategoryendefinite, as posityf, negatyf of neutraal, basearre op it ûnderlizzende sentimint oerbrocht troch de skriuwer. 

Tapassingen fan sentimintanalyse omfetsje:

  • analyze fan klantbeoardielingen en feedback,
  • tracking sosjale media sentimint,
  • monitoring merk trends e
  • it mjitten fan politike sentimint tidens ferkiezingskampanjes.

Gearfetting

Automatyske gearfettings ferwize nei it proses wêrby't de haadûnderwerpen fan ien of mear dokuminten wurde identifisearre en presintearre op in beknopte en krekte manier. Hjirmei kin de brûker in sjoch sjen op grutte stikken gegevens yn in koarte tiid. Foarbyld-applikaasjes omfetsje in gearfettingsysteem dat de automatyske generaasje fan abstrakten út nijsartikels mooglik makket en de gearfetting fan ynformaasje troch it ekstrahearjen fan sinnen út abstrakten fan ûndersykspapier.

ChatGPT is in poerbêst gearfettingsark, foaral foar lange artikels en yngewikkelde resinsjes. Troch de beoardielingen yn ChatGPT te plakjen, kinne wy ​​de gearfetting fan produktresinsjes maklik yn ien eachopslach kenne.

Limyt fan de LLMs

Sûnt it doel fan dit artikel is om it fermogen fan LLM's te ferkennen om tekstanalysetaken út te fieren, is it essensjeel om har beheiningen ek te erkennen. Guon fan 'e wichtichste beheiningen fan LLM's omfetsje:

  1. Resource utilisaasje : It brûken fan LLM's fereasket wichtige komputative en finansjele middels, wat in útdaging kin wêze foar lytsere organisaasjes as yndividuele ûndersikers mei beheinde middels. Fanôf hjoed akseptearret ChatGPT allinich sawat 8.000 tokens foar ynfier en útfier, om in grutte hoemannichte gegevens te parsearjen, fereasket de brûker om tekst yn meardere stikken gegevens te brekken, en kin meardere API-oproppen foar taken fereaskje.
  2. Gefoelichheid foar prompt frasearring : De prestaasjes fan LLM's kinne wurde beynfloede troch de manier wêrop prompts formulearre wurde. In lichte feroaring yn 'e prompt formulearring kin ferskate resultaten produsearje, wat in reden wêze kin foar soarch as jo sykje nei konsekwinte en betroubere útfier.
  3. Gebrek oan domein spesifike ekspertize : Wylst LLM's in algemien begryp hawwe fan ferskate domeinen, hawwe se miskien net itselde nivo fan saakkundigens as spesjalisearre modellen oplaat op domeinspesifike gegevens. As gefolch dêrfan kinne har prestaasjes yn guon gefallen net optimaal wêze en kinne fine-tuning of eksterne kennis fereaskje, benammen by it omgean mei heul spesjalisearre of technyske ynformaasje.

Ercole Palmeri

Ynnovaasje nijsbrief
Mis it wichtichste nijs oer ynnovaasje net. Meld jo oan om se fia e-post te ûntfangen.

Recent articles

Ynnovative yntervinsje yn Augmented Reality, mei in Apple-sjogger by de Catania Polyclinic

In ophthalmoplasty-operaasje mei de Apple Vision Pro kommersjele werjouwer waard útfierd by de Catania Polyclinic ...

3 mei 2024

De foardielen fan kleurplaten foar bern - in wrâld fan magy foar alle leeftiden

It ûntwikkeljen fan fynmotoryske feardigens troch kleurjen taret bern op mear komplekse feardigens lykas skriuwen. Kleurje...

2 mei 2024

De takomst is hjir: hoe't de skipfeartsektor de wrâldekonomy revolúsjonearret

De marinesektor is in wiere wrâldwide ekonomyske macht, dy't navigearre is nei in merk fan 150 miljard ...

1 mei 2024

Utjouwers en OpenAI tekenje oerienkomsten om de stream fan ynformaasje te regeljen ferwurke troch Artificial Intelligence

Ofrûne moandei kundige de Financial Times in deal oan mei OpenAI. FT lisinsje har sjoernalistyk fan wrâldklasse ...

30 april 2024