Artiklid

Teksti sõelumine chatGPT abil

Tekstianalüütika ehk tekstikaeve on ülitähtis tehnika suurest struktureerimata tekstiandmete hulgast väärtusliku ülevaate saamiseks. 

See hõlmab teksti töötlemist ja analüüsimist, et avastada mustreid, suundumusi ja seoseid.

See võimaldab ettevõtetel, teadlastel ja organisatsioonidel teha otsuseid tekstidest kogutud teabe põhjal. 

Kuna struktureerimata andmete maht kasvab jätkuvalt plahvatuslikult, on vajadus täpsete ja tõhusate tekstianalüütika tööriistade järele muutunud üha kriitilisemaks nii erinevates tööstusharudes nagu turundus, rahandus, tervishoid ja sotsiaalteadused.

Traditsiooniliselt on tekstianalüüs tehtud reeglipõhiste meetodite ja masinõppetehnikate, nagu SpaCY ja trafotehnika abil. Kuigi need meetodid on osutunud tõhusaks, nõuavad nende täiustamiseks märkimisväärseid jõupingutusi ja teadmisi.

Suurte keelemudelite (LLM) tulekuga nagu ChatGPT di OpenAI. See on näidanud märkimisväärseid võimeid luua inimsarnast teksti ja mõista konteksti, muutes selle paljutõotavaks tööriistaks tekstianalüüsi ülesannete jaoks, nagu entity recognition, sentiment analysisJa topic modeling.

Vaatame nüüd, kuidas saame ChatGPT abil teksti sõeluda.

Traditsiooniline meetod (üksikud mudelid) vs. LLM

Varem oleme masinõppes erinevate ülesannete jaoks alati kasutanud erinevaid mudeleid. Näiteks kui tahan tekstist teadmisi ammutada, pean kasutama nimega olemi tuvastamise mudelit (NER – Named Entity Recognition), kui mul on vaja oma tekst liigitada eraldi klassidesse, on mul vaja klassifitseerimismudelit. Iga erinev tegevus eeldas mudelite koolitamist iga tegevuse jaoks erinevalt, kas ülekandeõppe või koolituse teel.

Koos kasutuselevõtuga Large Language Models (LLM), LLM-mudel suudab täita mitmeid NLP-ülesandeid koos koolitusega või ilma. Igasugune tegevus võib olla defilihtsalt viipade juhiseid muutes.

Nüüd vaatame, kuidas teha traditsioonilist NLP-ülesannet ChatGPT ja võrrelda seda traditsioonilise meetodiga. NLP ülesanded, mida täidab ChatGPT selles artiklis on:

  • Teadmiste ammutamine (NER)
  • Teksti klassifikatsioon
  • Sentiment analysis
  • Kokkuvõte

Teadmiste ammutamine (NER)

Nimetatud olemi tuvastamine (NER) viitab ülesandele automaatselt tuvastada terminid erinevates tekstiandmete plokkides. Seda kasutatakse peamiselt oluliste üksuste kategooriate eraldamiseks, nagu ravimite nimed kliinilistest märkmetest, õnnetustega seotud terminid kindlustusnõuetest ja muud domeenispetsiifilised terminid kirjetest.

Pange tähele, et see tegevus on spetsiifiline meditsiinivaldkonnas. See nõudis meilt ühe mudeli jaoks rohkem kui 10.000 XNUMX andmerida märkuste lisamist ja koolitamist, et teada saada konkreetset klassi ja terminit tekstis. ChatGPT suudab termini õigesti tuvastada ilma eelkoolitatud tekstita või peenhäälestuseta, mis on suhteliselt hea tulemus!

Teksti klassifikatsioon

Teksti klassifikatsioon viitab automaatsele protsessile teksti leidmiseks ja kategooriatesse klassifitseerimiseks tohututest andmetest, see mängib olulist rolli tekstiandmete otsimisel ja ekstraheerimisel. Teksti klassifitseerimise rakenduste näideteks on kliinilised hoiatused või riskitegurite kategoriseerimine, automaatne diagnostiline klassifitseerimine ja rämpsposti tuvastamine.

Sentiment analysis

Sentiment analysis hõlmab tekstiosas väljendatud tunde või emotsiooni kindlaksmääramist. Selle eesmärk on liigitada tekst eelkategooriatessedefilõputu, positiivsena, negatiivsena või neutraalsena, tuginedes autori poolt edastatud meeleolule. 

Sentimentanalüüsi rakendused hõlmavad järgmist:

  • klientide arvustuste ja tagasiside analüüs,
  • sotsiaalmeedia meeleolu jälgimine,
  • turutrendide jälgimine e
  • poliitilise meeleolu mõõtmine valimiskampaaniate ajal.

Kokkuvõte

Automaatsed kokkuvõtted viitavad protsessile, mille käigus tuvastatakse ühe või mitme dokumendi põhiteemad ning esitatakse need lühidalt ja täpselt. See võimaldab kasutajal lühikese aja jooksul vaadata suuri andmeid. Näidisrakendused hõlmavad kokkuvõtesüsteemi, mis võimaldab automaatselt genereerida uudisteartiklitest kokkuvõtteid ja teha teabe kokkuvõtteid, eraldades uurimistööde kokkuvõtetest lauseid.

ChatGPT on suurepärane kokkuvõttetööriist, eriti pikkade artiklite ja keeruliste ülevaadete jaoks. Kui kleepite arvustused ChatGPT-sse, saame hõlpsalt teada toote arvustuste kokkuvõtte ühe pilguga.

LLM-ide piirang

Kuna selle artikli eesmärk on uurida LLM-ide võimet täita tekstianalüüsi ülesandeid, on oluline mõista ka nende piiranguid. Mõned LLM-ide peamised piirangud on järgmised:

  1. Ressursi kasutamine : LLM-ide kasutamine nõuab märkimisväärseid arvutus- ja rahalisi ressursse, mis võib olla väljakutse väiksematele organisatsioonidele või piiratud ressurssidega üksikutele teadlastele. Tänase seisuga aktsepteerib ChatGPT ainult umbes 8.000 sisendit ja väljundit, et sõeluda suures koguses andmeid, kasutaja peab teksti jagama mitmeks andmerühmaks ja võib nõuda ülesannete jaoks mitut API-kutset.
  2. Tundlikkus kiire sõnastuse suhtes : LLM-ide toimivust võib mõjutada viipade sõnastus. Väike muudatus kiires sõnastuses võib anda erinevaid tulemusi, mis võib järjepideva ja usaldusväärse väljundi otsimisel olla murettekitav.
  3. Domeenispetsiifiliste teadmiste puudumine : Kuigi LLM-idel on üldine arusaam erinevatest valdkondadest, ei pruugi neil olla samal tasemel teadmisi kui domeenispetsiifiliste andmete põhjal koolitatud spetsialiseeritud mudelitel. Seetõttu ei pruugi nende jõudlus mõnel juhul olla optimaalne ja nõuda peenhäälestamist või väliseid teadmisi, eriti kui tegemist on väga spetsiifilise või tehnilise teabega.

Ercole Palmeri

Innovatsiooni uudiskiri
Ärge jätke ilma kõige olulisematest uuendustest. Registreeruge, et saada neid meili teel.

Viimased artiklid

Uuenduslik sekkumine liitreaalsusesse koos Apple'i vaatajaga Catania polikliinikus

Catania polikliinikus viidi läbi oftalmoplastika operatsioon Apple Vision Pro reklaamivaaturiga…

3 mai 2024

Lastele mõeldud värvimislehtede eelised – võlumaailm igas vanuses

Peenmotoorika arendamine värvimise kaudu valmistab lapsi ette keerukamate oskuste, nagu kirjutamise, jaoks. Värvimiseks…

2 mai 2024

Tulevik on käes: kuidas laevandustööstus muudab maailmamajandust murranguliseks

Meresõidusektor on tõeline ülemaailmne majanduslik jõud, mis on liikunud 150 miljardi suuruse turu poole...

1 mai 2024

Kirjastajad ja OpenAI sõlmivad lepinguid tehisintellekti poolt töödeldava teabe liikumise reguleerimiseks

Eelmisel esmaspäeval teatas Financial Times tehingust OpenAI-ga. FT litsentsib oma maailmatasemel ajakirjandust…

Aprill 30 2024