Erthyglau

Dosrannu testun gan ddefnyddio chatGPT

Mae dadansoddeg testun, neu gloddio testun, yn dechneg hanfodol ar gyfer tynnu mewnwelediadau gwerthfawr o symiau mawr o ddata testun distrwythur. 

Mae'n ymwneud â phrosesu a dadansoddi testun i ddarganfod patrymau, tueddiadau a pherthnasoedd.

Mae'n caniatáu i gwmnïau, ymchwilwyr a sefydliadau wneud penderfyniadau ar sail gwybodaeth a gasglwyd o destunau. 

Wrth i swm y data anstrwythuredig barhau i dyfu'n esbonyddol, mae'r angen am offer dadansoddi testun cywir ac effeithlon wedi dod yn fwyfwy hanfodol ar draws diwydiannau mor amrywiol â marchnata, cyllid, gofal iechyd a'r gwyddorau cymdeithasol.

Yn draddodiadol, mae dadansoddiad testun wedi'i berfformio gan ddefnyddio dulliau sy'n seiliedig ar reolau a thechnegau dysgu peirianyddol fel SpaCY a'r dechneg newidydd. Er bod y dulliau hyn wedi bod yn effeithiol, mae angen cryn ymdrech ac arbenigedd i'w perffeithio.

Gyda dyfodiad modelau iaith mawr (LLM) megis SgwrsGPT di OpenAI. Mae wedi dangos galluoedd rhyfeddol wrth gynhyrchu testun tebyg i ddynol a deall cyd-destun, gan ei wneud yn arf addawol ar gyfer tasgau dadansoddi testun fel entity recognition, sentiment analysisAc topic modeling.

Gadewch i ni weld nawr sut y gallwn berfformio dosrannu testun gan ddefnyddio ChatGPT.

Dull traddodiadol (modelau sengl) vs. LLM

Yn y gorffennol, rydym bob amser wedi defnyddio modelau gwahanol ar gyfer gwahanol dasgau mewn dysgu peiriannau. Er enghraifft, os wyf am dynnu gwybodaeth o destun, bydd angen i mi ddefnyddio model adnabod endid a enwir (NER - Named Entity Recognition), os bydd angen i mi ddosbarthu fy nhestun i ddosbarthiadau ar wahân, bydd angen model dosbarthu arnaf. Roedd pob gweithgaredd gwahanol yn ei gwneud yn ofynnol i'r modelau gael eu hyfforddi'n wahanol ar gyfer pob gweithgaredd, naill ai drwy ddysgu trosglwyddo neu drwy hyfforddiant.

Gyda chyflwyniad Large Language Models (LLM), bydd model LLM yn gallu cyflawni tasgau NLP lluosog gyda hyfforddiant neu hebddo. Gall unrhyw weithgaredd fod defiyn syml trwy newid y cyfarwyddiadau yn yr anogwyr.

Nawr, gadewch i ni weld sut i wneud y dasg NLP draddodiadol yn SgwrsGPT a'i gymharu â'r ffordd draddodiadol. Y tasgau NLP a fydd yn cael eu cyflawni gan SgwrsGPT yn yr erthygl hon mae:

  • Echdynnu Gwybodaeth (NER)
  • Dosbarthiad testun
  • Sentiment analysis
  • Crynodeb

Echdynnu Gwybodaeth (NER)

Mae Cydnabod Endid a Enwir (NER) yn cyfeirio at y dasg o adnabod termau yn awtomatig mewn blociau gwahanol o ddata testunol. Fe'i defnyddir yn bennaf i dynnu categorïau endid pwysig megis enwau cyffuriau o nodiadau clinigol, telerau sy'n gysylltiedig â damweiniau o hawliadau yswiriant, a thelerau parth-benodol eraill o gofnodion.

Sylwch fod y gweithgaredd hwn yn benodol i'r maes meddygol. Roedd yn arfer ei gwneud yn ofynnol i ni anodi a hyfforddi mwy na 10.000 o resi o ddata ar gyfer model unigol i wybod y dosbarth a'r term penodol yn y testun. Gall ChatGPT adnabod y term yn gywir heb unrhyw destun wedi'i hyfforddi ymlaen llaw na mireinio, sy'n ganlyniad cymharol dda!

Dosbarthiad testun

Mae dosbarthiadau testun yn cyfeirio at y broses awtomatig o ddarganfod a dosbarthu testun yn gategorïau o ddata enfawr, mae'n chwarae rhan hanfodol mewn adalw ac echdynnu data testun. Mae enghreifftiau o gymwysiadau dosbarthu testun yn cynnwys rhybuddion clinigol neu gategoreiddio ffactorau risg, dosbarthiad diagnostig awtomatig, a chanfod sbam.

Sentiment analysis

Sentiment analysis yn cynnwys pennu'r teimlad neu'r emosiwn a fynegir mewn darn o destun. Ei nod yw dosbarthu testun yn rhag-gategorïaudefinite, fel cadarnhaol, negyddol, neu niwtral, yn seiliedig ar y teimlad sylfaenol a fynegir gan yr awdur. 

Mae cymwysiadau dadansoddi teimlad yn cynnwys:

  • dadansoddiad o adolygiadau ac adborth cwsmeriaid,
  • olrhain teimlad cyfryngau cymdeithasol,
  • monitro tueddiadau'r farchnad e
  • mesur teimlad gwleidyddol yn ystod ymgyrchoedd etholiadol.

Crynodeb

Mae crynodebau awtomatig yn cyfeirio at y broses a ddefnyddir i nodi prif bynciau un neu fwy o ddogfennau a'u cyflwyno mewn modd cryno a chywir. Mae hyn yn galluogi'r defnyddiwr i edrych ar ddarnau mawr o ddata mewn cyfnod byr o amser. Mae cymwysiadau enghreifftiol yn cynnwys system grynodeb sy'n caniatáu ar gyfer cynhyrchu crynodebau o erthyglau newyddion yn awtomatig a chrynhoi gwybodaeth trwy dynnu brawddegau o grynodebau o bapurau ymchwil.

Mae ChatGPT yn offeryn crynhoi ardderchog, yn enwedig ar gyfer erthyglau hir ac adolygiadau cymhleth. Trwy gludo'r adolygiadau yn ChatGPT, gallwn yn hawdd wybod crynodeb adolygu'r cynnyrch ar unwaith.

Terfyn yr LLMs

Gan mai pwrpas yr erthygl hon yw archwilio gallu LLMs i gyflawni tasgau dadansoddi testun, mae'n hanfodol cydnabod eu cyfyngiadau hefyd. Mae rhai o gyfyngiadau allweddol LLMs yn cynnwys:

  1. Defnyddio adnoddau : Mae defnyddio LLMs yn gofyn am adnoddau cyfrifiadurol ac ariannol sylweddol, a all fod yn her i sefydliadau llai neu ymchwilwyr unigol ag adnoddau cyfyngedig. Hyd heddiw, dim ond tua 8.000 o docynnau y mae ChatGPT yn eu derbyn ar gyfer mewnbwn ac allbwn, i ddosrannu llawer iawn o ddata, yn ei gwneud yn ofynnol i'r defnyddiwr dorri testun yn ddarnau lluosog o ddata, ac efallai y bydd angen galwadau API lluosog ar gyfer tasgau.
  2. Sensitifrwydd i annog brawddegu : Gall y ffordd y mae anogwyr yn cael eu geirio effeithio ar berfformiad LLMs. Gall newid bach mewn geiriad prydlon arwain at ganlyniadau gwahanol, a allai fod yn achos pryder wrth chwilio am allbwn cyson a dibynadwy.
  3. Diffyg arbenigedd parth penodol : Er bod gan LLMs ddealltwriaeth gyffredinol o barthau amrywiol, efallai nad oes ganddynt yr un lefel o arbenigedd â modelau arbenigol sydd wedi'u hyfforddi ar ddata parth-benodol. O ganlyniad, efallai na fydd eu perfformiad yn optimaidd mewn rhai achosion ac efallai y bydd angen mireinio neu wybodaeth allanol, yn enwedig wrth ymdrin â gwybodaeth arbenigol neu dechnegol iawn.

Ercole Palmeri

Cylchlythyr arloesi
Peidiwch â cholli'r newyddion pwysicaf am arloesi. Cofrestrwch i'w derbyn trwy e-bost.

Erthyglau Diweddar

Manteision Tudalennau Lliwio i Blant - byd o hud a lledrith i bob oed

Mae datblygu sgiliau echddygol manwl trwy liwio yn paratoi plant ar gyfer sgiliau mwy cymhleth fel ysgrifennu. I liwio…

2 Mai 2024

Mae'r Dyfodol Yma: Sut Mae'r Diwydiant Llongau yn Chwyldro'r Economi Fyd-eang

Mae'r sector llyngesol yn bŵer economaidd byd-eang gwirioneddol, sydd wedi llywio tuag at farchnad 150 biliwn...

1 Mai 2024

Mae cyhoeddwyr ac OpenAI yn llofnodi cytundebau i reoleiddio'r llif gwybodaeth a brosesir gan Ddeallusrwydd Artiffisial

Ddydd Llun diwethaf, cyhoeddodd y Financial Times gytundeb ag OpenAI. Mae FT yn trwyddedu ei newyddiaduraeth o safon fyd-eang…

30 2024 Ebrill

Taliadau Ar-lein: Dyma Sut Mae Gwasanaethau Ffrydio yn Gwneud ichi Dalu Am Byth

Mae miliynau o bobl yn talu am wasanaethau ffrydio, gan dalu ffioedd tanysgrifio misol. Mae’n farn gyffredin eich bod chi…

29 2024 Ebrill