Artikulo

Pag-parse ng text gamit ang chatGPT

Ang text analytics, o text mining, ay isang mahalagang pamamaraan para sa pagkuha ng mga mahahalagang insight mula sa malaking halaga ng hindi nakaayos na data ng text. 

Kabilang dito ang pagpoproseso at pagsusuri ng teksto upang matuklasan ang mga pattern, trend at relasyon.

Pinapayagan nito ang mga kumpanya, mananaliksik at organisasyon na gumawa ng mga desisyon batay sa impormasyong nakuha mula sa mga teksto. 

Habang ang dami ng hindi nakabalangkas na data ay patuloy na lumalaki nang husto, ang pangangailangan para sa tumpak at mahusay na mga tool sa pag-analyze ng teksto ay lalong naging kritikal sa mga industriya na magkakaibang gaya ng marketing, pananalapi, pangangalaga sa kalusugan, at mga agham panlipunan.

Ayon sa kaugalian, isinagawa ang pagsusuri ng teksto gamit ang mga pamamaraang nakabatay sa panuntunan at mga diskarte sa pag-aaral ng makina gaya ng SpaCY at ang pamamaraan ng transformer. Bagama't napatunayang epektibo ang mga pamamaraang ito, nangangailangan sila ng malaking pagsisikap at kadalubhasaan upang maging perpekto.

Sa pagdating ng malalaking modelo ng wika (LLM) tulad ng Chat GPT di OpenAI. Nagpakita ito ng mga kahanga-hangang kakayahan sa pagbuo ng tekstong tulad ng tao at pag-unawa sa konteksto, na ginagawa itong isang promising tool para sa mga gawain sa pagsusuri ng teksto tulad ng entity recognition, sentiment analysisAt topic modeling.

Tingnan natin ngayon kung paano natin maisagawa ang pag-parse ng teksto gamit ang ChatGPT.

Tradisyonal na pamamaraan (mga solong modelo) vs. LLM

Noong nakaraan, palagi kaming gumagamit ng iba't ibang modelo para sa iba't ibang gawain sa machine learning. Halimbawa, kung gusto kong kumuha ng kaalaman mula sa isang text, kakailanganin kong gumamit ng pinangalanang modelo ng pagkilala sa entity (NER – Named Entity Recognition), kung kailangan kong uriin ang aking teksto sa magkakahiwalay na klase, kakailanganin ko ng modelo ng pag-uuri. Ang bawat iba't ibang aktibidad ay nangangailangan ng mga modelo na sanayin nang iba para sa bawat aktibidad, alinman sa pamamagitan ng paglipat ng pag-aaral o sa pamamagitan ng pagsasanay.

Sa pagpapakilala ng Large Language Models (LLM), ang isang LLM na modelo ay makakagawa ng maraming gawain sa NLP na mayroon o walang pagsasanay. Anumang aktibidad ay maaaring definatapos sa pamamagitan lamang ng pagbabago ng mga tagubilin sa mga senyas.

Ngayon tingnan natin kung paano gawin ang tradisyonal na gawain ng NLP Chat GPT at ihambing ito sa tradisyonal na paraan. Ang mga gawain ng NLP na isasagawa ng Chat GPT sa artikulong ito ay:

  • Knowledge Extraction (NER)
  • Pag-uuri ng teksto
  • Sentiment analysis
  • Buod

Knowledge Extraction (NER)

Ang Named Entity Recognition (NER) ay tumutukoy sa gawain ng awtomatikong pagtukoy ng mga termino sa iba't ibang bloke ng textual na data. Pangunahing ginagamit ito upang kunin ang mga mahahalagang kategorya ng entity gaya ng mga pangalan ng gamot mula sa mga tala sa klinikal, mga terminong nauugnay sa aksidente mula sa mga claim sa insurance, at iba pang terminong partikular sa domain mula sa mga talaan.

Tandaan na ang aktibidad na ito ay partikular sa medikal na domain. Dati, hinihiling sa amin na mag-annotate at magsanay ng higit sa 10.000 row ng data para sa isang modelo na malaman ang partikular na klase at termino sa text. Maaaring matukoy nang tama ng ChatGPT ang termino nang walang anumang pre-trained na text o fine-tuning, na medyo magandang resulta!

Pag-uuri ng teksto

Ang mga pag-uuri ng teksto ay tumutukoy sa awtomatikong proseso ng paghahanap at pag-uuri ng teksto sa mga kategorya mula sa malaking data, ito ay gumaganap ng isang mahalagang papel sa pagkuha at pagkuha ng data ng teksto. Kasama sa mga halimbawa ng mga application ng pag-uuri ng teksto ang mga klinikal na alerto o pagkakategorya ng risk factor, awtomatikong pag-uuri ng diagnostic, at pagtuklas ng spam.

Sentiment analysis

Sentiment analysis nagsasangkot ng pagtukoy sa damdamin o damdaming ipinahayag sa isang piraso ng teksto. Nilalayon nitong pag-uri-uriin ang teksto sa mga pre categoriesdefigabi, bilang positibo, negatibo, o neutral, batay sa pinagbabatayan na damdaming ipinarating ng may-akda. 

Ang mga aplikasyon ng pagsusuri ng damdamin ay kinabibilangan ng:

  • pagsusuri ng mga review at feedback ng customer,
  • pagsubaybay sa damdamin ng social media,
  • pagsubaybay sa mga uso sa merkado e
  • ang pagsukat ng damdaming pampulitika sa panahon ng mga kampanyang elektoral.

Buod

Ang mga awtomatikong buod ay tumutukoy sa proseso kung saan ang mga pangunahing paksa ng isa o higit pang mga dokumento ay tinutukoy at ipinakita sa isang maikli at tumpak na paraan. Nagbibigay-daan ito sa user na tingnan ang malalaking tipak ng data sa loob ng maikling panahon. Kasama sa mga halimbawang application ang isang sistema ng buod na nagbibigay-daan para sa awtomatikong pagbuo ng mga abstract mula sa mga artikulo ng balita at ang pagbubuod ng impormasyon sa pamamagitan ng pagkuha ng mga pangungusap mula sa mga abstract ng research paper.

Ang ChatGPT ay isang mahusay na tool sa buod, lalo na para sa mahahabang artikulo at kumplikadong mga pagsusuri. Sa pamamagitan ng pag-paste ng mga review sa ChatGPT, madali nating malalaman ang buod ng review ng produkto sa isang sulyap.

Limitasyon ng mga LLM

Dahil ang layunin ng artikulong ito ay tuklasin ang kakayahan ng mga LLM na magsagawa ng mga gawain sa pagsusuri ng teksto, mahalagang kilalanin din ang kanilang mga limitasyon. Ang ilan sa mga pangunahing limitasyon ng mga LLM ay kinabibilangan ng:

  1. Mapagkukunan paggamit : Ang paggamit ng mga LLM ay nangangailangan ng makabuluhang computational at financial resources, na maaaring maging hamon para sa mas maliliit na organisasyon o indibidwal na mananaliksik na may limitadong mga mapagkukunan. Sa ngayon, ang ChatGPT ay tumatanggap lamang ng humigit-kumulang 8.000 token para sa input at output, para ma-parse ang isang malaking halaga ng data, nangangailangan ng user na hatiin ang text sa maraming mga chunks ng data, at maaaring mangailangan ng maraming API call para sa mga gawain.
  2. Pagkasensitibo sa prompt phrase : Maaaring maapektuhan ang pagganap ng mga LLM sa paraan ng pagbigkas ng mga senyas. Maaaring magdulot ng iba't ibang resulta ang kaunting pagbabago sa agarang pananalita, na maaaring maging dahilan ng pag-aalala kapag naghahanap ng pare-pareho at maaasahang output.
  3. Kakulangan ng kadalubhasaan na partikular sa domain : Bagama't ang mga LLM ay may pangkalahatang pag-unawa sa iba't ibang domain, maaaring wala silang parehong antas ng kadalubhasaan gaya ng mga dalubhasang modelo na sinanay sa data na partikular sa domain. Bilang resulta, ang kanilang pagganap ay maaaring hindi pinakamainam sa ilang mga kaso at maaaring mangailangan ng fine-tuning o panlabas na kaalaman, lalo na kapag nakikitungo sa lubos na dalubhasa o teknikal na impormasyon.

Ercole Palmeri

newsletter ng pagbabago
Huwag palampasin ang pinakamahalagang balita sa pagbabago. Mag-sign up upang matanggap ang mga ito sa pamamagitan ng email.

Kamakailang Mga Artikulo

Pumirma ang mga publisher at OpenAI ng mga kasunduan para i-regulate ang daloy ng impormasyong pinoproseso ng Artificial Intelligence

Noong nakaraang Lunes, inihayag ng Financial Times ang isang deal sa OpenAI. Nilisensyahan ng FT ang world-class na pamamahayag nito...

Abril 30 2024

Mga Online na Pagbabayad: Narito Kung Paano Ka Binabayaran ng Mga Serbisyo ng Streaming Magpakailanman

Milyun-milyong tao ang nagbabayad para sa mga serbisyo ng streaming, na nagbabayad ng buwanang bayad sa subscription. Karaniwang opinyon na ikaw ay…

Abril 29 2024

Itinatampok ng Veeam ang pinakakomprehensibong suporta para sa ransomware, mula sa proteksyon hanggang sa pagtugon at pagbawi

Ang Coveware ng Veeam ay patuloy na magbibigay ng mga serbisyo sa pagtugon sa insidente ng cyber extortion. Mag-aalok ang Coveware ng mga kakayahan sa forensics at remediation...

Abril 23 2024

Green and Digital Revolution: Kung Paano Binabago ng Predictive Maintenance ang Industriya ng Langis at Gas

Binabago ng predictive maintenance ang sektor ng langis at gas, na may makabago at proactive na diskarte sa pamamahala ng halaman.…

Abril 22 2024