Wrth i swm y data anstrwythuredig barhau i dyfu'n esbonyddol, mae'r angen am offer dadansoddi testun cywir ac effeithlon wedi dod yn fwyfwy hanfodol ar draws diwydiannau mor amrywiol â marchnata, cyllid, gofal iechyd a'r gwyddorau cymdeithasol.
Yn draddodiadol, mae dadansoddiad testun wedi'i berfformio gan ddefnyddio dulliau sy'n seiliedig ar reolau a thechnegau dysgu peirianyddol fel SpaCY a'r dechneg newidydd. Er bod y dulliau hyn wedi bod yn effeithiol, mae angen cryn ymdrech ac arbenigedd i'w perffeithio.
Gyda dyfodiad modelau iaith mawr (LLM) megis SgwrsGPT di OpenAI. Mae wedi dangos galluoedd rhyfeddol wrth gynhyrchu testun tebyg i ddynol a deall cyd-destun, gan ei wneud yn arf addawol ar gyfer tasgau dadansoddi testun fel entity recognition
, sentiment analysis
Ac topic modeling
.
Gadewch i ni weld nawr sut y gallwn berfformio dosrannu testun gan ddefnyddio ChatGPT.
Yn y gorffennol, rydym bob amser wedi defnyddio modelau gwahanol ar gyfer gwahanol dasgau mewn dysgu peiriannau. Er enghraifft, os wyf am dynnu gwybodaeth o destun, bydd angen i mi ddefnyddio model adnabod endid a enwir (NER - Named Entity Recognition
), os bydd angen i mi ddosbarthu fy nhestun i ddosbarthiadau ar wahân, bydd angen model dosbarthu arnaf. Roedd pob gweithgaredd gwahanol yn ei gwneud yn ofynnol i'r modelau gael eu hyfforddi'n wahanol ar gyfer pob gweithgaredd, naill ai drwy ddysgu trosglwyddo neu drwy hyfforddiant.
Gyda chyflwyniad Large Language Models (LLM), bydd model LLM yn gallu cyflawni tasgau NLP lluosog gyda hyfforddiant neu hebddo. Gall unrhyw weithgaredd fod defiyn syml trwy newid y cyfarwyddiadau yn yr anogwyr.
Nawr, gadewch i ni weld sut i wneud y dasg NLP draddodiadol yn SgwrsGPT a'i gymharu â'r ffordd draddodiadol. Y tasgau NLP a fydd yn cael eu cyflawni gan SgwrsGPT yn yr erthygl hon mae:
Sentiment analysis
Mae Cydnabod Endid a Enwir (NER) yn cyfeirio at y dasg o adnabod termau yn awtomatig mewn blociau gwahanol o ddata testunol. Fe'i defnyddir yn bennaf i dynnu categorïau endid pwysig megis enwau cyffuriau o nodiadau clinigol, telerau sy'n gysylltiedig â damweiniau o hawliadau yswiriant, a thelerau parth-benodol eraill o gofnodion.
Sylwch fod y gweithgaredd hwn yn benodol i'r maes meddygol. Roedd yn arfer ei gwneud yn ofynnol i ni anodi a hyfforddi mwy na 10.000 o resi o ddata ar gyfer model unigol i wybod y dosbarth a'r term penodol yn y testun. Gall ChatGPT adnabod y term yn gywir heb unrhyw destun wedi'i hyfforddi ymlaen llaw na mireinio, sy'n ganlyniad cymharol dda!
Mae dosbarthiadau testun yn cyfeirio at y broses awtomatig o ddarganfod a dosbarthu testun yn gategorïau o ddata enfawr, mae'n chwarae rhan hanfodol mewn adalw ac echdynnu data testun. Mae enghreifftiau o gymwysiadau dosbarthu testun yn cynnwys rhybuddion clinigol neu gategoreiddio ffactorau risg, dosbarthiad diagnostig awtomatig, a chanfod sbam.
Sentiment analysis
Sentiment analysis
yn cynnwys pennu'r teimlad neu'r emosiwn a fynegir mewn darn o destun. Ei nod yw dosbarthu testun yn rhag-gategorïaudefinite, fel cadarnhaol, negyddol, neu niwtral, yn seiliedig ar y teimlad sylfaenol a fynegir gan yr awdur.
Mae cymwysiadau dadansoddi teimlad yn cynnwys:
Mae crynodebau awtomatig yn cyfeirio at y broses a ddefnyddir i nodi prif bynciau un neu fwy o ddogfennau a'u cyflwyno mewn modd cryno a chywir. Mae hyn yn galluogi'r defnyddiwr i edrych ar ddarnau mawr o ddata mewn cyfnod byr o amser. Mae cymwysiadau enghreifftiol yn cynnwys system grynodeb sy'n caniatáu ar gyfer cynhyrchu crynodebau o erthyglau newyddion yn awtomatig a chrynhoi gwybodaeth trwy dynnu brawddegau o grynodebau o bapurau ymchwil.
Mae ChatGPT yn offeryn crynhoi ardderchog, yn enwedig ar gyfer erthyglau hir ac adolygiadau cymhleth. Trwy gludo'r adolygiadau yn ChatGPT, gallwn yn hawdd wybod crynodeb adolygu'r cynnyrch ar unwaith.
Gan mai pwrpas yr erthygl hon yw archwilio gallu LLMs i gyflawni tasgau dadansoddi testun, mae'n hanfodol cydnabod eu cyfyngiadau hefyd. Mae rhai o gyfyngiadau allweddol LLMs yn cynnwys:
Ercole Palmeri
Mae datblygu sgiliau echddygol manwl trwy liwio yn paratoi plant ar gyfer sgiliau mwy cymhleth fel ysgrifennu. I liwio…
Mae'r sector llyngesol yn bŵer economaidd byd-eang gwirioneddol, sydd wedi llywio tuag at farchnad 150 biliwn...
Ddydd Llun diwethaf, cyhoeddodd y Financial Times gytundeb ag OpenAI. Mae FT yn trwyddedu ei newyddiaduraeth o safon fyd-eang…
Mae miliynau o bobl yn talu am wasanaethau ffrydio, gan dalu ffioedd tanysgrifio misol. Mae’n farn gyffredin eich bod chi…