Habang ang dami ng hindi nakabalangkas na data ay patuloy na lumalaki nang husto, ang pangangailangan para sa tumpak at mahusay na mga tool sa pag-analyze ng teksto ay lalong naging kritikal sa mga industriya na magkakaibang gaya ng marketing, pananalapi, pangangalaga sa kalusugan, at mga agham panlipunan.
Ayon sa kaugalian, isinagawa ang pagsusuri ng teksto gamit ang mga pamamaraang nakabatay sa panuntunan at mga diskarte sa pag-aaral ng makina gaya ng SpaCY at ang pamamaraan ng transformer. Bagama't napatunayang epektibo ang mga pamamaraang ito, nangangailangan sila ng malaking pagsisikap at kadalubhasaan upang maging perpekto.
Sa pagdating ng malalaking modelo ng wika (LLM) tulad ng Chat GPT di OpenAI. Nagpakita ito ng mga kahanga-hangang kakayahan sa pagbuo ng tekstong tulad ng tao at pag-unawa sa konteksto, na ginagawa itong isang promising tool para sa mga gawain sa pagsusuri ng teksto tulad ng entity recognition
, sentiment analysis
At topic modeling
.
Tingnan natin ngayon kung paano natin maisagawa ang pag-parse ng teksto gamit ang ChatGPT.
Noong nakaraan, palagi kaming gumagamit ng iba't ibang modelo para sa iba't ibang gawain sa machine learning. Halimbawa, kung gusto kong kumuha ng kaalaman mula sa isang text, kakailanganin kong gumamit ng pinangalanang modelo ng pagkilala sa entity (NER – Named Entity Recognition
), kung kailangan kong uriin ang aking teksto sa magkakahiwalay na klase, kakailanganin ko ng modelo ng pag-uuri. Ang bawat iba't ibang aktibidad ay nangangailangan ng mga modelo na sanayin nang iba para sa bawat aktibidad, alinman sa pamamagitan ng paglipat ng pag-aaral o sa pamamagitan ng pagsasanay.
Sa pagpapakilala ng Large Language Models (LLM), ang isang LLM na modelo ay makakagawa ng maraming gawain sa NLP na mayroon o walang pagsasanay. Anumang aktibidad ay maaaring definatapos sa pamamagitan lamang ng pagbabago ng mga tagubilin sa mga senyas.
Ngayon tingnan natin kung paano gawin ang tradisyonal na gawain ng NLP Chat GPT at ihambing ito sa tradisyonal na paraan. Ang mga gawain ng NLP na isasagawa ng Chat GPT sa artikulong ito ay:
Sentiment analysis
Ang Named Entity Recognition (NER) ay tumutukoy sa gawain ng awtomatikong pagtukoy ng mga termino sa iba't ibang bloke ng textual na data. Pangunahing ginagamit ito upang kunin ang mga mahahalagang kategorya ng entity gaya ng mga pangalan ng gamot mula sa mga tala sa klinikal, mga terminong nauugnay sa aksidente mula sa mga claim sa insurance, at iba pang terminong partikular sa domain mula sa mga talaan.
Tandaan na ang aktibidad na ito ay partikular sa medikal na domain. Dati, hinihiling sa amin na mag-annotate at magsanay ng higit sa 10.000 row ng data para sa isang modelo na malaman ang partikular na klase at termino sa text. Maaaring matukoy nang tama ng ChatGPT ang termino nang walang anumang pre-trained na text o fine-tuning, na medyo magandang resulta!
Ang mga pag-uuri ng teksto ay tumutukoy sa awtomatikong proseso ng paghahanap at pag-uuri ng teksto sa mga kategorya mula sa malaking data, ito ay gumaganap ng isang mahalagang papel sa pagkuha at pagkuha ng data ng teksto. Kasama sa mga halimbawa ng mga application ng pag-uuri ng teksto ang mga klinikal na alerto o pagkakategorya ng risk factor, awtomatikong pag-uuri ng diagnostic, at pagtuklas ng spam.
Sentiment analysis
Sentiment analysis
nagsasangkot ng pagtukoy sa damdamin o damdaming ipinahayag sa isang piraso ng teksto. Nilalayon nitong pag-uri-uriin ang teksto sa mga pre categoriesdefigabi, bilang positibo, negatibo, o neutral, batay sa pinagbabatayan na damdaming ipinarating ng may-akda.
Ang mga aplikasyon ng pagsusuri ng damdamin ay kinabibilangan ng:
Ang mga awtomatikong buod ay tumutukoy sa proseso kung saan ang mga pangunahing paksa ng isa o higit pang mga dokumento ay tinutukoy at ipinakita sa isang maikli at tumpak na paraan. Nagbibigay-daan ito sa user na tingnan ang malalaking tipak ng data sa loob ng maikling panahon. Kasama sa mga halimbawang application ang isang sistema ng buod na nagbibigay-daan para sa awtomatikong pagbuo ng mga abstract mula sa mga artikulo ng balita at ang pagbubuod ng impormasyon sa pamamagitan ng pagkuha ng mga pangungusap mula sa mga abstract ng research paper.
Ang ChatGPT ay isang mahusay na tool sa buod, lalo na para sa mahahabang artikulo at kumplikadong mga pagsusuri. Sa pamamagitan ng pag-paste ng mga review sa ChatGPT, madali nating malalaman ang buod ng review ng produkto sa isang sulyap.
Dahil ang layunin ng artikulong ito ay tuklasin ang kakayahan ng mga LLM na magsagawa ng mga gawain sa pagsusuri ng teksto, mahalagang kilalanin din ang kanilang mga limitasyon. Ang ilan sa mga pangunahing limitasyon ng mga LLM ay kinabibilangan ng:
Ercole Palmeri
Noong nakaraang Lunes, inihayag ng Financial Times ang isang deal sa OpenAI. Nilisensyahan ng FT ang world-class na pamamahayag nito...
Milyun-milyong tao ang nagbabayad para sa mga serbisyo ng streaming, na nagbabayad ng buwanang bayad sa subscription. Karaniwang opinyon na ikaw ay…
Ang Coveware ng Veeam ay patuloy na magbibigay ng mga serbisyo sa pagtugon sa insidente ng cyber extortion. Mag-aalok ang Coveware ng mga kakayahan sa forensics at remediation...
Binabago ng predictive maintenance ang sektor ng langis at gas, na may makabago at proactive na diskarte sa pamamahala ng halaman.…