raksti

Teksta parsēšana, izmantojot chatGPT

Teksta analīze jeb teksta ieguve ir ļoti svarīgs paņēmiens vērtīgu ieskatu iegūšanai no liela apjoma nestrukturētu teksta datu. 

Tas ietver teksta apstrādi un analīzi, lai atklātu modeļus, tendences un attiecības.

Tas ļauj uzņēmumiem, pētniekiem un organizācijām pieņemt lēmumus, pamatojoties uz informāciju, kas iegūta no tekstiem. 

Tā kā nestrukturētu datu apjoms turpina eksponenciāli pieaugt, nepieciešamība pēc precīziem un efektīviem teksta analīzes rīkiem ir kļuvusi arvien svarīgāka dažādās nozarēs, piemēram, mārketingā, finansēs, veselības aprūpē un sociālajās zinātnēs.

Tradicionāli teksta analīze tiek veikta, izmantojot uz kārtulām balstītas metodes un mašīnmācīšanās metodes, piemēram, SpaCY un transformatora tehniku. Lai gan šīs metodes ir izrādījušās efektīvas, to pilnveidošanai ir vajadzīgas ievērojamas pūles un zināšanas.

Līdz ar lielo valodu modeļu (LLM) parādīšanos, piemēram, ChatGPT di OpenAI. Tas ir parādījis ievērojamas spējas ģenerēt cilvēkiem līdzīgu tekstu un izprast kontekstu, padarot to par daudzsološu rīku teksta analīzes uzdevumiem, piemēram, entity recognition, sentiment analysis, Un topic modeling.

Tagad apskatīsim, kā mēs varam veikt teksta parsēšanu, izmantojot ChatGPT.

Tradicionālā metode (atsevišķi modeļi) vs. LLM

Agrāk mēs vienmēr esam izmantojuši dažādus modeļus dažādiem mašīnmācības uzdevumiem. Piemēram, ja es vēlos iegūt zināšanas no teksta, man būs jāizmanto nosaukts entītiju atpazīšanas modelis (NER - Named Entity Recognition), ja man ir nepieciešams klasificēt savu tekstu atsevišķās klasēs, man būs nepieciešams klasifikācijas modelis. Katrai atšķirīgajai darbībai modeļi bija jāapmāca atšķirīgi katrai darbībai, vai nu pārnesot mācības, vai apmācot.

Ar ieviešanu Large Language Models (LLM), LLM modelis varēs veikt vairākus NLP uzdevumus ar apmācību vai bez tā. Jebkura darbība var būt defivienkārši mainot norādījumus uzvednēs.

Tagad redzēsim, kā veikt tradicionālo NLP uzdevumu ChatGPT un salīdziniet to ar tradicionālo veidu. NLP uzdevumi, kurus veiks ChatGPT šajā rakstā ir:

  • Zināšanu ieguve (NER)
  • Teksta klasifikācija
  • Sentiment analysis
  • Kopsavilkums

Zināšanu ieguve (NER)

Nosauktā entītiju atpazīšana (NER) attiecas uz uzdevumu automātiski identificēt terminus dažādos teksta datu blokos. To galvenokārt izmanto, lai no ierakstiem iegūtu svarīgas entītiju kategorijas, piemēram, zāļu nosaukumus no klīniskajām piezīmēm, ar nelaimes gadījumiem saistītus terminus no apdrošināšanas atlīdzībām un citus domēna specifiskus terminus.

Ņemiet vērā, ka šī darbība ir specifiska medicīnas jomai. Agrāk mums bija jāanotē un jāapmāca vairāk nekā 10.000 XNUMX datu rindu vienam modelim, lai zinātu konkrēto klasi un terminu tekstā. ChatGPT var pareizi identificēt terminu bez iepriekš sagatavota teksta vai precizēšanas, kas ir salīdzinoši labs rezultāts!

Teksta klasifikācija

Teksta klasifikācija attiecas uz automātisku procesu, kurā tiek atrasts un klasificēts teksts kategorijās no milzīgiem datiem, tam ir būtiska loma teksta datu izguvē un ieguvē. Teksta klasifikācijas lietojumprogrammu piemēri ir klīniskie brīdinājumi vai riska faktoru kategorizēšana, automātiska diagnostikas klasifikācija un surogātpasta noteikšana.

Sentiment analysis

Sentiment analysis ietver teksta daļā paustās sajūtas vai emociju noteikšanu. Tā mērķis ir klasificēt tekstu iepriekšējās kategorijāsdefinite, kā pozitīvs, negatīvs vai neitrāls, pamatojoties uz autora izteikto noskaņojumu. 

Sentimenta analīzes pielietojumi ietver:

  • klientu atsauksmju un atsauksmju analīze,
  • sociālo mediju noskaņojuma izsekošana,
  • tirgus tendenču uzraudzība e
  • politiskā noskaņojuma mērīšana vēlēšanu kampaņu laikā.

Kopsavilkums

Automātiskie kopsavilkumi attiecas uz procesu, kurā tiek identificētas viena vai vairāku dokumentu galvenās tēmas un izklāstītas kodolīgi un precīzi. Tas ļauj lietotājam īsā laikā apskatīt lielus datu gabalus. Lietojumprogrammu piemēri ietver kopsavilkuma sistēmu, kas ļauj automātiski ģenerēt kopsavilkumus no ziņu rakstiem un apkopot informāciju, izvelkot teikumus no pētniecības darbu kopsavilkumiem.

ChatGPT ir lielisks kopsavilkuma rīks, īpaši gariem rakstiem un sarežģītiem pārskatiem. Ielīmējot atsauksmes pakalpojumā ChatGPT, mēs varam viegli uzzināt produkta atsauksmju kopsavilkumu vienā mirklī.

LLM ierobežojums

Tā kā šī raksta mērķis ir izpētīt LLM spēju veikt teksta analīzes uzdevumus, ir svarīgi apzināties arī to ierobežojumus. Daži no galvenajiem LLM ierobežojumiem ir šādi:

  1. Resursu izmantošana : LLM izmantošanai nepieciešami ievērojami skaitļošanas un finanšu resursi, kas var būt izaicinājums mazākām organizācijām vai atsevišķiem pētniekiem ar ierobežotiem resursiem. Šobrīd ChatGPT pieņem tikai aptuveni 8.000 marķieru ievadei un izvadei, lai parsētu lielu datu apjomu, lietotājam ir jāsadala teksts vairākos datu gabalos un var būt nepieciešami vairāki API izsaukumi uzdevumiem.
  2. Jutība pret tūlītēju frāzi : LLM veiktspēju var ietekmēt tas, kā tiek formulētas uzvednes. Nelielas izmaiņas tūlītējā formulējumā var radīt atšķirīgus rezultātus, kas var radīt bažas, meklējot konsekventu un uzticamu rezultātu.
  3. Trūkst specifiskas pieredzes jomā : Lai gan LLM ir vispārēja izpratne par dažādām jomām, viņiem var nebūt tāda paša līmeņa zināšanas kā specializētiem modeļiem, kas apmācīti par domēna specifiskiem datiem. Tā rezultātā dažos gadījumos to veiktspēja var nebūt optimāla un var būt nepieciešama precizēšana vai ārējas zināšanas, jo īpaši, ja tiek izmantota ļoti specializēta vai tehniska informācija.

Ercole Palmeri

Inovāciju biļetens
Nepalaidiet garām svarīgākās ziņas par jauninājumiem. Reģistrējieties, lai tos saņemtu pa e-pastu.

Jaunākie Raksti

Krāsojamo lapu priekšrocības bērniem — burvju pasaule visu vecumu cilvēkiem

Smalko motoriku attīstīšana, izmantojot krāsošanu, sagatavo bērnus sarežģītākām prasmēm, piemēram, rakstīšanai. Lai krāsotu…

2 maijā 2024

Nākotne ir klāt: kā kuģniecības nozare revolucionizē globālo ekonomiku

Jūras flotes nozare ir patiess globāls ekonomikas spēks, kas ir virzījies uz 150 miljardu tirgu...

1 maijā 2024

Izdevēji un OpenAI paraksta līgumus, lai regulētu mākslīgā intelekta apstrādātās informācijas plūsmu

Pagājušajā pirmdienā Financial Times paziņoja par darījumu ar OpenAI. FT licencē savu pasaules līmeņa žurnālistiku…

30 aprīlis 2024

Tiešsaistes maksājumi. Lūk, kā straumēšanas pakalpojumi liek jums maksāt uz visiem laikiem

Miljoniem cilvēku maksā par straumēšanas pakalpojumiem, maksājot ikmēneša abonēšanas maksu. Ir izplatīts uzskats, ka jūs…

29 aprīlis 2024