Tā kā nestrukturētu datu apjoms turpina eksponenciāli pieaugt, nepieciešamība pēc precīziem un efektīviem teksta analīzes rīkiem ir kļuvusi arvien svarīgāka dažādās nozarēs, piemēram, mārketingā, finansēs, veselības aprūpē un sociālajās zinātnēs.
Tradicionāli teksta analīze tiek veikta, izmantojot uz kārtulām balstītas metodes un mašīnmācīšanās metodes, piemēram, SpaCY un transformatora tehniku. Lai gan šīs metodes ir izrādījušās efektīvas, to pilnveidošanai ir vajadzīgas ievērojamas pūles un zināšanas.
Līdz ar lielo valodu modeļu (LLM) parādīšanos, piemēram, ChatGPT di OpenAI. Tas ir parādījis ievērojamas spējas ģenerēt cilvēkiem līdzīgu tekstu un izprast kontekstu, padarot to par daudzsološu rīku teksta analīzes uzdevumiem, piemēram, entity recognition
, sentiment analysis
, Un topic modeling
.
Tagad apskatīsim, kā mēs varam veikt teksta parsēšanu, izmantojot ChatGPT.
Agrāk mēs vienmēr esam izmantojuši dažādus modeļus dažādiem mašīnmācības uzdevumiem. Piemēram, ja es vēlos iegūt zināšanas no teksta, man būs jāizmanto nosaukts entītiju atpazīšanas modelis (NER - Named Entity Recognition
), ja man ir nepieciešams klasificēt savu tekstu atsevišķās klasēs, man būs nepieciešams klasifikācijas modelis. Katrai atšķirīgajai darbībai modeļi bija jāapmāca atšķirīgi katrai darbībai, vai nu pārnesot mācības, vai apmācot.
Ar ieviešanu Large Language Models (LLM), LLM modelis varēs veikt vairākus NLP uzdevumus ar apmācību vai bez tā. Jebkura darbība var būt defivienkārši mainot norādījumus uzvednēs.
Tagad redzēsim, kā veikt tradicionālo NLP uzdevumu ChatGPT un salīdziniet to ar tradicionālo veidu. NLP uzdevumi, kurus veiks ChatGPT šajā rakstā ir:
Sentiment analysis
Nosauktā entītiju atpazīšana (NER) attiecas uz uzdevumu automātiski identificēt terminus dažādos teksta datu blokos. To galvenokārt izmanto, lai no ierakstiem iegūtu svarīgas entītiju kategorijas, piemēram, zāļu nosaukumus no klīniskajām piezīmēm, ar nelaimes gadījumiem saistītus terminus no apdrošināšanas atlīdzībām un citus domēna specifiskus terminus.
Ņemiet vērā, ka šī darbība ir specifiska medicīnas jomai. Agrāk mums bija jāanotē un jāapmāca vairāk nekā 10.000 XNUMX datu rindu vienam modelim, lai zinātu konkrēto klasi un terminu tekstā. ChatGPT var pareizi identificēt terminu bez iepriekš sagatavota teksta vai precizēšanas, kas ir salīdzinoši labs rezultāts!
Teksta klasifikācija attiecas uz automātisku procesu, kurā tiek atrasts un klasificēts teksts kategorijās no milzīgiem datiem, tam ir būtiska loma teksta datu izguvē un ieguvē. Teksta klasifikācijas lietojumprogrammu piemēri ir klīniskie brīdinājumi vai riska faktoru kategorizēšana, automātiska diagnostikas klasifikācija un surogātpasta noteikšana.
Sentiment analysis
Sentiment analysis
ietver teksta daļā paustās sajūtas vai emociju noteikšanu. Tā mērķis ir klasificēt tekstu iepriekšējās kategorijāsdefinite, kā pozitīvs, negatīvs vai neitrāls, pamatojoties uz autora izteikto noskaņojumu.
Sentimenta analīzes pielietojumi ietver:
Automātiskie kopsavilkumi attiecas uz procesu, kurā tiek identificētas viena vai vairāku dokumentu galvenās tēmas un izklāstītas kodolīgi un precīzi. Tas ļauj lietotājam īsā laikā apskatīt lielus datu gabalus. Lietojumprogrammu piemēri ietver kopsavilkuma sistēmu, kas ļauj automātiski ģenerēt kopsavilkumus no ziņu rakstiem un apkopot informāciju, izvelkot teikumus no pētniecības darbu kopsavilkumiem.
ChatGPT ir lielisks kopsavilkuma rīks, īpaši gariem rakstiem un sarežģītiem pārskatiem. Ielīmējot atsauksmes pakalpojumā ChatGPT, mēs varam viegli uzzināt produkta atsauksmju kopsavilkumu vienā mirklī.
Tā kā šī raksta mērķis ir izpētīt LLM spēju veikt teksta analīzes uzdevumus, ir svarīgi apzināties arī to ierobežojumus. Daži no galvenajiem LLM ierobežojumiem ir šādi:
Ercole Palmeri
Smalko motoriku attīstīšana, izmantojot krāsošanu, sagatavo bērnus sarežģītākām prasmēm, piemēram, rakstīšanai. Lai krāsotu…
Jūras flotes nozare ir patiess globāls ekonomikas spēks, kas ir virzījies uz 150 miljardu tirgu...
Pagājušajā pirmdienā Financial Times paziņoja par darījumu ar OpenAI. FT licencē savu pasaules līmeņa žurnālistiku…
Miljoniem cilvēku maksā par straumēšanas pakalpojumiem, maksājot ikmēneša abonēšanas maksu. Ir izplatīts uzskats, ka jūs…