Članki

Razčlenjevanje besedila z uporabo chatGPT

Besedilna analitika ali besedilno rudarjenje je pomembna tehnika za pridobivanje dragocenih vpogledov iz velikih količin nestrukturiranih besedilnih podatkov. 

Vključuje obdelavo in analizo besedila za odkrivanje vzorcev, trendov in odnosov.

Podjetjem, raziskovalcem in organizacijam omogoča sprejemanje odločitev na podlagi informacij, pridobljenih iz besedil. 

Ker obseg nestrukturiranih podatkov še naprej eksponentno narašča, postaja potreba po natančnih in učinkovitih orodjih za analizo besedila vse bolj kritična v panogah, ki so tako raznolike, kot so trženje, finance, zdravstvo in družbene vede.

Tradicionalno se analiza besedila izvaja z metodami, ki temeljijo na pravilih, in tehnikami strojnega učenja, kot sta SpaCY in tehnika transformatorja. Čeprav so se te metode izkazale za učinkovite, zahtevajo veliko truda in strokovnega znanja za njihovo izpopolnitev.

S pojavom velikih jezikovnih modelov (LLM), kot je npr ChatGPT di OpenAI. Dokazal je izjemne zmožnosti pri ustvarjanju besedila, podobnega človeku, in razumevanju konteksta, zaradi česar je obetavno orodje za naloge analize besedila, kot je npr. entity recognition, sentiment analysis, In topic modeling.

Poglejmo zdaj, kako lahko izvedemo razčlenjevanje besedila z uporabo ChatGPT.

Tradicionalna metoda (posamezni modeli) vs. LLM

V preteklosti smo pri strojnem učenju vedno uporabljali različne modele za različne naloge. Na primer, če želim pridobiti znanje iz besedila, bom moral uporabiti model prepoznavanja imenovane entitete (NER – Named Entity Recognition), če moram svoje besedilo razvrstiti v ločene razrede, bom potreboval klasifikacijski model. Vsaka druga dejavnost je zahtevala, da se modeli usposobijo drugače za vsako dejavnost, bodisi s prenosom učenja bodisi z usposabljanjem.

Z uvedbo Large Language Models (LLM), bo model LLM sposoben opravljati več NLP nalog z ali brez usposabljanja. Vsaka dejavnost je lahko defipreprosto zaključite tako, da spremenite navodila v pozivih.

Zdaj pa poglejmo, kako narediti tradicionalno NLP nalogo ChatGPT in ga primerjajte s tradicionalnim načinom. NLP naloge, ki jih bo izvajal ChatGPT v tem članku so:

  • Pridobivanje znanja (NER)
  • Klasifikacija besedila
  • Sentiment analysis
  • Povzetek

Pridobivanje znanja (NER)

Prepoznavanje imenovanih entitet (NER) se nanaša na nalogo samodejnega prepoznavanja izrazov v različnih blokih besedilnih podatkov. Uporablja se predvsem za pridobivanje pomembnih kategorij subjektov, kot so imena zdravil iz kliničnih opomb, izrazi, povezani z nesrečami, iz zavarovalnih zahtevkov in drugi izrazi, specifični za domeno, iz evidenc.

Upoštevajte, da je ta dejavnost specifična za medicinsko področje. Prej smo zahtevali, da označimo in usposobimo več kot 10.000 vrstic podatkov za en sam model, da poznamo določen razred in izraz v besedilu. ChatGPT lahko pravilno identificira izraz brez vnaprej pripravljenega besedila ali natančnega prilagajanja, kar je razmeroma dober rezultat!

Klasifikacija besedila

Klasifikacije besedila se nanašajo na samodejni postopek iskanja in razvrščanja besedila v kategorije iz ogromnih podatkov, igrajo bistveno vlogo pri pridobivanju in ekstrakciji besedilnih podatkov. Primeri aplikacij za razvrščanje besedil vključujejo klinična opozorila ali kategorizacijo dejavnikov tveganja, samodejno diagnostično razvrščanje in zaznavanje neželene pošte.

Sentiment analysis

Sentiment analysis vključuje določanje občutka ali čustva, izraženega v delu besedila. Njegov namen je razvrstiti besedilo v predkategorijedefinite, kot pozitiven, negativen ali nevtralen, glede na osnovno občutje, ki ga posreduje avtor. 

Aplikacije analize razpoloženja vključujejo:

  • analiza mnenj in povratnih informacij strank,
  • sledenje razpoloženju družbenih medijev,
  • spremljanje tržnih trendov e
  • merjenje političnega sentimenta med volilnimi kampanjami.

Povzetek

Samodejni povzetki se nanašajo na postopek, s katerim so glavne teme enega ali več dokumentov identificirane in predstavljene na jedrnat in natančen način. To omogoča uporabniku, da si v kratkem času ogleda velike kose podatkov. Primeri aplikacij vključujejo sistem povzetkov, ki omogoča samodejno ustvarjanje izvlečkov iz novičarskih člankov in povzemanje informacij z ekstrakcijo stavkov iz izvlečkov raziskovalnih člankov.

ChatGPT je odlično orodje za povzetke, zlasti za dolge članke in zapletene ocene. Z lepljenjem mnenj v ChatGPT lahko enostavno na prvi pogled spoznamo povzetek ocene izdelka.

Omejitev LLM

Ker je namen tega članka raziskati zmožnost LLM-jev za izvajanje nalog analize besedila, je bistveno prepoznati tudi njihove omejitve. Nekatere ključne omejitve LLM vključujejo:

  1. Uporaba virov : Uporaba LLM-jev zahteva precejšnja računalniška in finančna sredstva, kar je lahko izziv za manjše organizacije ali posamezne raziskovalce z omejenimi sredstvi. Od danes ChatGPT sprejema samo okoli 8.000 žetonov za vnos in izhod, za razčlenitev velike količine podatkov, od uporabnika zahteva, da besedilo razdeli na več kosov podatkov, in lahko zahteva več klicev API-ja za opravila.
  2. Občutljivost za hitro fraziranje : Na delovanje LLM-jev lahko vpliva način ubeseditve pozivov. Rahla sprememba takojšnjega besedila lahko povzroči drugačne rezultate, kar je lahko razlog za zaskrbljenost pri iskanju doslednega in zanesljivega rezultata.
  3. Pomanjkanje strokovnega znanja za določeno področje : Čeprav LLM splošno razumejo različna področja, morda nimajo enake ravni strokovnega znanja kot specializirani modeli, usposobljeni za podatke, specifične za področje. Posledično njihovo delovanje v nekaterih primerih morda ne bo optimalno in lahko zahteva fino nastavitev ali zunanje znanje, zlasti pri delu z visoko specializiranimi ali tehničnimi informacijami.

Ercole Palmeri

Glasilo o inovacijah
Ne zamudite najpomembnejših novic o inovacijah. Prijavite se, če jih želite prejemati po e-pošti.

Nedavni članki

Založniki in OpenAI podpisujejo sporazume za urejanje pretoka informacij, ki jih obdeluje umetna inteligenca

Prejšnji ponedeljek je Financial Times objavil dogovor z OpenAI. FT licencira svoje vrhunsko novinarstvo ...

April 30 2024

Spletna plačila: Evo, kako vam storitve pretakanja omogočajo večno plačevanje

Milijoni ljudi plačujejo storitve pretakanja in plačujejo mesečne naročnine. Splošno mnenje je, da si…

April 29 2024

Veeam ponuja najobsežnejšo podporo za izsiljevalsko programsko opremo, od zaščite do odziva in obnovitve

Coveware by Veeam bo še naprej zagotavljal storitve odzivanja na incidente kibernetskega izsiljevanja. Coveware bo nudil forenziko in zmogljivosti sanacije ...

April 23 2024

Zelena in digitalna revolucija: kako predvideno vzdrževanje preoblikuje naftno in plinsko industrijo

Prediktivno vzdrževanje revolucionira sektor nafte in plina z inovativnim in proaktivnim pristopom k upravljanju obratov.…

April 22 2024