As it folume fan net-strukturearre gegevens eksponinsjele groeit, is de needsaak foar krekte en effisjinte ark foar tekstanalytyk hieltyd kritysk wurden oer yndustry sa ferskaat as marketing, finânsjes, sûnenssoarch en sosjale wittenskippen.
Tradysjoneel is tekstanalyse útfierd mei op regels basearre metoaden en techniken foar masinelearen lykas SpaCY en de transformatortechnyk. Hoewol dizze metoaden effektyf hawwe bewiisd, fereaskje se in soad ynspanning en ekspertize om te perfeksjonearjen.
Mei de komst fan grutte taalmodellen (LLM) lykas Chat GPT di OpenAI. It hat opmerklike mooglikheden oantoand by it generearjen fan minsklike tekst en it begripen fan kontekst, wêrtroch it in kânsryk ark is foar tekstanalysetaken lykas entity recognition
, sentiment analysis
, en topic modeling
.
Litte wy no sjen hoe't wy tekstparsearje kinne útfiere mei ChatGPT.
Yn it ferline hawwe wy altyd ferskate modellen brûkt foar ferskate taken yn masine learen. Bygelyks, as ik kennis út in tekst ekstrahearje wol, sil ik in neamd entiteitsherkenningsmodel moatte brûke (NER - Named Entity Recognition
), as ik myn tekst yn aparte klassen moat klassifisearje, haw ik in klassifikaasjemodel nedich. Elke ferskillende aktiviteit easke dat de modellen foar elke aktiviteit oars wurde traind, itsij troch transferlearen of troch training.
Mei de ynfiering fan de Large Language Models (LLM), sil in LLM-model meardere NLP-taken kinne útfiere mei of sûnder training. Elke aktiviteit kin wêze defifoltôge gewoan troch de ynstruksjes yn 'e prompts te feroarjen.
Litte wy no sjen hoe't jo de tradisjonele NLP-taak kinne dwaan yn Chat GPT en fergelykje it mei de tradisjonele manier. De NLP-taken dy't sille wurde útfierd troch Chat GPT yn dit artikel binne:
Sentiment analysis
Named Entity Recognition (NER) ferwiist nei de taak om termen automatysk te identifisearjen yn ferskate blokken fan tekstgegevens. It wurdt fral brûkt om wichtige entiteitskategoryen te ekstrahearjen, lykas medisynnammen út klinyske notysjes, ûngemakken-relatearre termen út fersekeringsclaims, en oare domeinspesifike termen út records.
Tink derom dat dizze aktiviteit spesifyk is foar it medyske domein. It easke ús eartiids om mear dan 10.000 rigen gegevens te annotearjen en te trenen foar ien model om de spesifike klasse en term yn 'e tekst te kennen. ChatGPT kin de term korrekt identifisearje sûnder foarôf oplaat tekst of fine-tuning, wat in relatyf goed resultaat is!
Tekstklassifikaasjes ferwiist nei it automatyske proses fan it finen en klassifisearjen fan tekst yn kategoryen út enoarme gegevens, it spilet in essensjele rol yn it opheljen en ekstrahearjen fan tekstgegevens. Foarbylden fan applikaasjes foar tekstklassifikaasje omfetsje klinyske warskôgings as risikofaktor-kategorisearring, automatyske diagnostyske klassifikaasje, en spam-deteksje.
Sentiment analysis
Sentiment analysis
giet it om it fêststellen fan it gefoel of emoasje dat útdrukt wurdt yn in stikje tekst. It hat as doel om tekst te klassifisearjen yn foarkategoryendefinite, as posityf, negatyf of neutraal, basearre op it ûnderlizzende sentimint oerbrocht troch de skriuwer.
Tapassingen fan sentimintanalyse omfetsje:
Automatyske gearfettings ferwize nei it proses wêrby't de haadûnderwerpen fan ien of mear dokuminten wurde identifisearre en presintearre op in beknopte en krekte manier. Hjirmei kin de brûker in sjoch sjen op grutte stikken gegevens yn in koarte tiid. Foarbyld-applikaasjes omfetsje in gearfettingsysteem dat de automatyske generaasje fan abstrakten út nijsartikels mooglik makket en de gearfetting fan ynformaasje troch it ekstrahearjen fan sinnen út abstrakten fan ûndersykspapier.
ChatGPT is in poerbêst gearfettingsark, foaral foar lange artikels en yngewikkelde resinsjes. Troch de beoardielingen yn ChatGPT te plakjen, kinne wy de gearfetting fan produktresinsjes maklik yn ien eachopslach kenne.
Sûnt it doel fan dit artikel is om it fermogen fan LLM's te ferkennen om tekstanalysetaken út te fieren, is it essensjeel om har beheiningen ek te erkennen. Guon fan 'e wichtichste beheiningen fan LLM's omfetsje:
Ercole Palmeri
In ophthalmoplasty-operaasje mei de Apple Vision Pro kommersjele werjouwer waard útfierd by de Catania Polyclinic ...
It ûntwikkeljen fan fynmotoryske feardigens troch kleurjen taret bern op mear komplekse feardigens lykas skriuwen. Kleurje...
De marinesektor is in wiere wrâldwide ekonomyske macht, dy't navigearre is nei in merk fan 150 miljard ...
Ofrûne moandei kundige de Financial Times in deal oan mei OpenAI. FT lisinsje har sjoernalistyk fan wrâldklasse ...