Članci

Raščlanjivanje teksta pomoću chatGPT-a

Analitika teksta ili rudarenje teksta ključna je tehnika za izvlačenje vrijednih uvida iz velikih količina nestrukturiranih tekstualnih podataka. 

Uključuje obradu i analizu teksta radi otkrivanja obrazaca, trendova i odnosa.

Omogućuje tvrtkama, istraživačima i organizacijama donošenje odluka na temelju informacija prikupljenih iz tekstova. 

Kako količina nestrukturiranih podataka nastavlja eksponencijalno rasti, potreba za preciznim i učinkovitim alatima za analizu teksta postaje sve kritičnija u različitim industrijama kao što su marketing, financije, zdravstvo i društvene znanosti.

Tradicionalno, analiza teksta provodi se korištenjem metoda temeljenih na pravilima i tehnika strojnog učenja kao što su SpaCY i tehnika transformatora. Iako su se ove metode pokazale učinkovitima, njihovo usavršavanje zahtijeva znatan trud i stručnost.

Pojavom velikih jezičnih modela (LLM) kao što su ChatGPT di OpenAI. Pokazao je izvanredne sposobnosti u generiranju ljudskog teksta i razumijevanju konteksta, što ga čini obećavajućim alatom za zadatke analize teksta kao što su entity recognition, sentiment analysisI topic modeling.

Pogledajmo sada kako možemo izvesti raščlanjivanje teksta koristeći ChatGPT.

Tradicionalna metoda (pojedinačni modeli) vs. LLM

U prošlosti smo uvijek koristili različite modele za različite zadatke u strojnom učenju. Na primjer, ako želim izvući znanje iz teksta, morat ću koristiti model prepoznavanja imenovanog entiteta (NER – Named Entity Recognition), ako trebam klasificirati svoj tekst u zasebne klase, trebat će mi model klasifikacije. Svaka različita aktivnost zahtijevala je različito uvježbavanje modela za svaku aktivnost, bilo prijenosom učenja ili obukom.

Uz uvođenje Large Language Models (LLM), LLM model moći će obavljati više NLP zadataka sa ili bez obuke. Bilo koja aktivnost može biti defizavršen jednostavno mijenjanjem uputa u uputama.

Pogledajmo sada kako napraviti tradicionalni NLP zadatak ChatGPT i usporedite ga s tradicionalnim načinom. NLP zadaci koje će obavljati ChatGPT u ovom članku su:

  • Ekstrakcija znanja (NER)
  • Klasifikacija teksta
  • Sentiment analysis
  • Sažetak

Ekstrakcija znanja (NER)

Prepoznavanje imenovanih entiteta (NER) odnosi se na zadatak automatskog identificiranja pojmova u različitim blokovima tekstualnih podataka. Uglavnom se koristi za izdvajanje važnih kategorija entiteta kao što su nazivi lijekova iz kliničkih bilješki, izrazi povezani s nesrećama iz zahtjeva za osiguranje i drugi pojmovi specifični za domenu iz zapisa.

Imajte na umu da je ova aktivnost specifična za medicinsku domenu. Nekada je od nas bilo potrebno da komentiramo i obučavamo više od 10.000 XNUMX redaka podataka za jedan model kako bismo znali određenu klasu i pojam u tekstu. ChatGPT može ispravno identificirati pojam bez prethodno obučenog teksta ili finog podešavanja, što je relativno dobar rezultat!

Klasifikacija teksta

Klasifikacije teksta odnose se na automatski proces pronalaženja i klasificiranja teksta u kategorije iz ogromnih podataka, igraju ključnu ulogu u pronalaženju i izdvajanju tekstualnih podataka. Primjeri aplikacija za klasifikaciju teksta uključuju klinička upozorenja ili kategorizaciju faktora rizika, automatsku dijagnostičku klasifikaciju i otkrivanje neželjene pošte.

Sentiment analysis

Sentiment analysis uključuje određivanje osjećaja ili emocija izraženih u dijelu teksta. Cilj mu je klasificirati tekst u predkategorijedefinite, kao pozitivne, negativne ili neutralne, na temelju temeljnog osjećaja koji prenosi autor. 

Primjene analize raspoloženja uključuju:

  • analiza recenzija i povratnih informacija kupaca,
  • praćenje raspoloženja na društvenim mrežama,
  • praćenje tržišnih trendova e
  • mjerenje političkog sentimenta tijekom izbornih kampanja.

Sažetak

Automatski sažeci odnose se na proces kojim se glavne teme jednog ili više dokumenata identificiraju i prezentiraju na sažet i točan način. Ovo omogućuje korisniku da u kratkom vremenu pregleda velike dijelove podataka. Primjeri aplikacija uključuju sustav sažetaka koji omogućuje automatsko generiranje sažetaka iz novinskih članaka i sažimanje informacija izdvajanjem rečenica iz sažetaka istraživačkih radova.

ChatGPT je izvrstan alat za sažetke, posebno za duge članke i komplicirane recenzije. Lijepljenjem recenzija u ChatGPT možemo lako saznati sažetak recenzije proizvoda na prvi pogled.

Ograničenje LLM-a

Budući da je svrha ovog članka istražiti sposobnost LLM-a za obavljanje zadataka analize teksta, bitno je prepoznati i njihova ograničenja. Neka od ključnih ograničenja LLM-a uključuju:

  1. Korištenje resursa : Korištenje LLM-a zahtijeva značajna računalna i financijska sredstva, što može biti izazov za manje organizacije ili pojedinačne istraživače s ograničenim resursima. Od danas, ChatGPT prihvaća samo oko 8.000 tokena za unos i izlaz, za analizu velike količine podataka, zahtijeva od korisnika da razbije tekst u više dijelova podataka i može zahtijevati više API poziva za zadatke.
  2. Osjetljivost na brzo fraziranje : Na izvedbu LLM-a može utjecati način na koji su upiti formulirani. Mala promjena u brzom tekstu može proizvesti različite rezultate, što bi moglo biti razlog za zabrinutost kada tražite dosljedan i pouzdan rezultat.
  3. Nedostatak stručnosti za određenu domenu : Dok LLM-i imaju opće razumijevanje različitih domena, oni možda nemaju istu razinu stručnosti kao specijalizirani modeli obučeni na podacima specifičnim za domenu. Kao rezultat toga, njihova izvedba možda neće biti optimalna u nekim slučajevima i može zahtijevati fino podešavanje ili vanjsko znanje, osobito kada se radi o visoko specijaliziranim ili tehničkim informacijama.

Ercole Palmeri

Innovation newsletter
Ne propustite najvažnije vijesti o inovacijama. Prijavite se da ih primate e-poštom.

Nedavni članci

Izdavači i OpenAI potpisuju ugovore za reguliranje protoka informacija koje obrađuje umjetna inteligencija

Prošlog ponedjeljka, Financial Times je najavio dogovor s OpenAI-jem. FT licencira svoje novinarstvo svjetske klase...

Travnja 30 2024

Online plaćanja: Evo kako vas usluge strujanja tjeraju da plaćate zauvijek

Milijuni ljudi plaćaju usluge strujanja, plaćajući mjesečne pretplate. Uvriježeno je mišljenje da ste…

Travnja 29 2024

Veeam nudi najopsežniju podršku za ransomware, od zaštite do odgovora i oporavka

Coveware by Veeam nastavit će pružati usluge odgovora na incidente cyber iznude. Coveware će ponuditi forenziku i mogućnosti sanacije...

Travnja 23 2024

Zelena i digitalna revolucija: Kako prediktivno održavanje transformira industriju nafte i plina

Prediktivno održavanje revolucionira sektor nafte i plina, s inovativnim i proaktivnim pristupom upravljanju postrojenjima.…

Travnja 22 2024