Mar a tha na tha de dhàta neo-structaraichte a’ sìor fhàs gu h-iongantach, tha an fheum air innealan anailis teacsa ceart agus èifeachdach air a bhith a’ sìor fhàs deatamach thar ghnìomhachasan cho eadar-dhealaichte ri margaidheachd, ionmhas, cùram slàinte agus saidheansan sòisealta.
Gu traidiseanta, chaidh mion-sgrùdadh teacsa a dhèanamh a’ cleachdadh dhòighean stèidhichte air riaghailtean agus dòighean ionnsachaidh inneal leithid SpaCY agus an dòigh cruth-atharrachaidh. Ged a tha na modhan sin air a bhith èifeachdach, tha feum aca air oidhirp mhòr agus eòlas airson a bhith foirfe.
Le teachd modailean mòra cànain (LLM) leithid Bruidhinn GPT di OpenAI. Tha e air comasan iongantach a nochdadh ann a bhith a’ gineadh teacsa coltach ri duine agus a’ tuigsinn co-theacsa, ga fhàgail na inneal gealltanach airson gnìomhan mion-sgrùdadh teacsa leithid entity recognition
, sentiment analysis
, e topic modeling
.
Chì sinn a-nis mar as urrainn dhuinn parsadh teacsa a dhèanamh a’ cleachdadh ChatGPT.
San àm a dh’ fhalbh, bha sinn a-riamh air diofar mhodalan a chleachdadh airson diofar ghnìomhan ann an ionnsachadh innealan. Mar eisimpleir, ma tha mi airson eòlas a tharraing à teacsa, feumaidh mi modal aithneachaidh eintiteas ainmichte (NER - a chleachdadh). Named Entity Recognition
), ma dh’ fheumas mi an teacsa agam a sheòrsachadh ann an clasaichean air leth, bidh feum agam air modal seòrsachaidh. Dh'fheumadh gach gnìomh eadar-dhealaichte na modailean a bhith air an trèanadh ann an dòigh eadar-dhealaichte airson gach gnìomh, an dara cuid tro ionnsachadh gluasaid no tro thrèanadh.
Le toirt a-steach an Large Language Models (LLM), bidh modal LLM comasach air iomadh gnìomh NLP a dhèanamh le no às aonais trèanadh. Faodaidh a h-uile gnìomh a bhith defidìreach le bhith ag atharrachadh an stiùireadh anns na molaidhean.
A-nis chì sinn mar a nì sinn obair thraidiseanta NLP a-steach Bruidhinn GPT agus coimeas a dhèanamh eadar e agus an dòigh thraidiseanta. Na gnìomhan NLP a thèid a choileanadh le Bruidhinn GPT san artaigil seo tha:
Sentiment analysis
Tha Aithneachadh Aonad Ainmichte (NER) a’ toirt iomradh air a’ ghnìomh a bhith ag aithneachadh bhriathran gu fèin-ghluasadach ann an diofar bhlocaichean de dhàta teacsa. Tha e air a chleachdadh sa mhòr-chuid gus roinnean eintiteas cudromach leithid ainmean dhrogaichean a thoirt a-mach à notaichean clionaigeach, teirmean co-cheangailte ri tubaist bho thagraidhean àrachais, agus teirmean eile a tha sònraichte don raon bho chlàran.
Thoir an aire gu bheil an gnìomhachd seo sònraichte don raon meidigeach. B’ àbhaist dha iarraidh oirnn barrachd air 10.000 sreath de dhàta a chomharrachadh agus a thrèanadh airson aon mhodail gus eòlas fhaighinn air a’ chlas agus an teirm sònraichte san teacsa. Is urrainn do ChatGPT an teirm aithneachadh gu ceart às aonais teacsa ro-thrèanadh no gleusadh, a tha na thoradh math!
Tha seòrsachadh teacsa a’ toirt iomradh air a’ phròiseas fèin-ghluasadach airson a bhith a’ lorg agus a’ seòrsachadh teacsa ann an roinnean bho dhàta mòr, tha àite deatamach aige ann an lorg dàta teacsa agus às-tharraing. Tha eisimpleirean de thagraidhean seòrsachaidh teacsa a’ toirt a-steach rabhaidhean clionaigeach no seòrsachadh factaran cunnairt, seòrsachadh breithneachaidh fèin-ghluasadach, agus lorg spama.
Sentiment analysis
Sentiment analysis
gabhail a-steach a bhith a’ dearbhadh an fhaireachdainn no na faireachdainnean a tha air an cur an cèill ann am pìos teacsa. Tha e ag amas air teacsa a sheòrsachadh ann an ro-roinneandefinite, mar dheimhinneach, àicheil, neo neodrach, stèidhichte air a’ bheachd bhunaiteach a chuir an t-ùghdar an cèill.
Tha cleachdadh mion-sgrùdadh faireachdainn a’ toirt a-steach:
Tha geàrr-chunntasan fèin-ghluasadach a’ toirt iomradh air a’ phròiseas leis am bi prìomh chuspairean aon sgrìobhainn no barrachd air an comharrachadh agus air an taisbeanadh ann an dòigh pongail agus ceart. Leigidh seo leis an neach-cleachdaidh sùil a thoirt air pìosan mòra de dhàta ann an ùine ghoirid. Tha eisimpleirean de thagraidhean a’ toirt a-steach siostam geàrr-chunntas a leigeas le geàrr-chunntasan a ghineadh gu fèin-ghluasadach bho artaigilean naidheachdan agus geàrr-chunntas fiosrachaidh le bhith a’ toirt a-mach seantansan bho gheàrr-chunntasan pàipear rannsachaidh.
Tha ChatGPT na inneal geàrr-chunntas sàr-mhath, gu sònraichte airson artaigilean fada agus lèirmheasan toinnte. Le bhith a’ cur seachad na lèirmheasan ann an ChatGPT, is urrainn dhuinn gu furasta eòlas fhaighinn air geàrr-chunntas ath-bhreithneachaidh toraidh.
Leis gur e adhbhar an artaigil seo sgrùdadh a dhèanamh air comas LLMn gnìomhan mion-sgrùdadh teacsa a dhèanamh, tha e riatanach cuideachd na crìochan aca aithneachadh. Am measg cuid de na prìomh chuingealachaidhean aig LLMn tha:
Ercole Palmeri
Leanaidh Coveware le Veeam a’ toirt seachad seirbheisean freagairt tachartas saidhbear. Bidh Coveware a’ tabhann comasan forensics agus leigheas…
Tha cumail suas ro-innse ag atharrachadh roinn na h-ola & gas, le dòigh-obrach ùr-ghnàthach agus for-ghnìomhach a thaobh riaghladh planntrais.…
Tha CMA na RA air rabhadh a chuir a-mach mu ghiùlan Big Tech anns a’ mhargaidh fiosrachaidh fuadain. An sin…
Tha an t-òrdugh “Taighean Uaine”, a chuir an Aonadh Eòrpach ri chèile gus èifeachdas lùtha thogalaichean a neartachadh, air a phròiseas reachdail a thoirt gu crìch le…