Ker obseg nestrukturiranih podatkov še naprej eksponentno narašča, postaja potreba po natančnih in učinkovitih orodjih za analizo besedila vse bolj kritična v panogah, ki so tako raznolike, kot so trženje, finance, zdravstvo in družbene vede.
Tradicionalno se analiza besedila izvaja z metodami, ki temeljijo na pravilih, in tehnikami strojnega učenja, kot sta SpaCY in tehnika transformatorja. Čeprav so se te metode izkazale za učinkovite, zahtevajo veliko truda in strokovnega znanja za njihovo izpopolnitev.
S pojavom velikih jezikovnih modelov (LLM), kot je npr ChatGPT di OpenAI. Dokazal je izjemne zmožnosti pri ustvarjanju besedila, podobnega človeku, in razumevanju konteksta, zaradi česar je obetavno orodje za naloge analize besedila, kot je npr. entity recognition
, sentiment analysis
, In topic modeling
.
Poglejmo zdaj, kako lahko izvedemo razčlenjevanje besedila z uporabo ChatGPT.
V preteklosti smo pri strojnem učenju vedno uporabljali različne modele za različne naloge. Na primer, če želim pridobiti znanje iz besedila, bom moral uporabiti model prepoznavanja imenovane entitete (NER – Named Entity Recognition
), če moram svoje besedilo razvrstiti v ločene razrede, bom potreboval klasifikacijski model. Vsaka druga dejavnost je zahtevala, da se modeli usposobijo drugače za vsako dejavnost, bodisi s prenosom učenja bodisi z usposabljanjem.
Z uvedbo Large Language Models (LLM), bo model LLM sposoben opravljati več NLP nalog z ali brez usposabljanja. Vsaka dejavnost je lahko defipreprosto zaključite tako, da spremenite navodila v pozivih.
Zdaj pa poglejmo, kako narediti tradicionalno NLP nalogo ChatGPT in ga primerjajte s tradicionalnim načinom. NLP naloge, ki jih bo izvajal ChatGPT v tem članku so:
Sentiment analysis
Prepoznavanje imenovanih entitet (NER) se nanaša na nalogo samodejnega prepoznavanja izrazov v različnih blokih besedilnih podatkov. Uporablja se predvsem za pridobivanje pomembnih kategorij subjektov, kot so imena zdravil iz kliničnih opomb, izrazi, povezani z nesrečami, iz zavarovalnih zahtevkov in drugi izrazi, specifični za domeno, iz evidenc.
Upoštevajte, da je ta dejavnost specifična za medicinsko področje. Prej smo zahtevali, da označimo in usposobimo več kot 10.000 vrstic podatkov za en sam model, da poznamo določen razred in izraz v besedilu. ChatGPT lahko pravilno identificira izraz brez vnaprej pripravljenega besedila ali natančnega prilagajanja, kar je razmeroma dober rezultat!
Klasifikacije besedila se nanašajo na samodejni postopek iskanja in razvrščanja besedila v kategorije iz ogromnih podatkov, igrajo bistveno vlogo pri pridobivanju in ekstrakciji besedilnih podatkov. Primeri aplikacij za razvrščanje besedil vključujejo klinična opozorila ali kategorizacijo dejavnikov tveganja, samodejno diagnostično razvrščanje in zaznavanje neželene pošte.
Sentiment analysis
Sentiment analysis
vključuje določanje občutka ali čustva, izraženega v delu besedila. Njegov namen je razvrstiti besedilo v predkategorijedefinite, kot pozitiven, negativen ali nevtralen, glede na osnovno občutje, ki ga posreduje avtor.
Aplikacije analize razpoloženja vključujejo:
Samodejni povzetki se nanašajo na postopek, s katerim so glavne teme enega ali več dokumentov identificirane in predstavljene na jedrnat in natančen način. To omogoča uporabniku, da si v kratkem času ogleda velike kose podatkov. Primeri aplikacij vključujejo sistem povzetkov, ki omogoča samodejno ustvarjanje izvlečkov iz novičarskih člankov in povzemanje informacij z ekstrakcijo stavkov iz izvlečkov raziskovalnih člankov.
ChatGPT je odlično orodje za povzetke, zlasti za dolge članke in zapletene ocene. Z lepljenjem mnenj v ChatGPT lahko enostavno na prvi pogled spoznamo povzetek ocene izdelka.
Ker je namen tega članka raziskati zmožnost LLM-jev za izvajanje nalog analize besedila, je bistveno prepoznati tudi njihove omejitve. Nekatere ključne omejitve LLM vključujejo:
Ercole Palmeri
Prejšnji ponedeljek je Financial Times objavil dogovor z OpenAI. FT licencira svoje vrhunsko novinarstvo ...
Milijoni ljudi plačujejo storitve pretakanja in plačujejo mesečne naročnine. Splošno mnenje je, da si…
Coveware by Veeam bo še naprej zagotavljal storitve odzivanja na incidente kibernetskega izsiljevanja. Coveware bo nudil forenziko in zmogljivosti sanacije ...
Prediktivno vzdrževanje revolucionira sektor nafte in plina z inovativnim in proaktivnim pristopom k upravljanju obratov.…