Քանի որ չկառուցված տվյալների ծավալը շարունակում է երկրաչափորեն աճել, ճշգրիտ և արդյունավետ տեքստային վերլուծության գործիքների անհրաժեշտությունն ավելի ու ավելի կարևոր է դառնում այնպիսի ոլորտներում, ինչպիսիք են մարքեթինգը, ֆինանսները, առողջապահությունը և սոցիալական գիտությունները:
Ավանդաբար, տեքստի վերլուծությունն իրականացվում է կանոնների վրա հիմնված մեթոդների և մեքենայական ուսուցման մեթոդների միջոցով, ինչպիսիք են SpaCY-ը և տրանսֆորմատորային տեխնիկան: Թեև այս մեթոդներն ապացուցել են արդյունավետությունը, դրանք կատարելագործվելու համար պահանջում են զգալի ջանք և փորձ:
Լեզուների խոշոր մոդելների (LLM) հայտնվելով, ինչպիսիք են Զրուցարան GPT di OpenAI. Այն ցույց է տվել ուշագրավ կարողություններ՝ ստեղծելու մարդանման տեքստ և կոնտեքստը հասկանալու՝ դարձնելով այն խոստումնալից գործիք տեքստի վերլուծության առաջադրանքների համար, ինչպիսիք են. entity recognition
, sentiment analysis
Ու topic modeling
.
Այժմ տեսնենք, թե ինչպես կարող ենք տեքստի վերլուծություն կատարել՝ օգտագործելով ChatGPT:
Նախկինում մենք միշտ տարբեր մոդելներ ենք օգտագործել մեքենայական ուսուցման տարբեր առաջադրանքների համար: Օրինակ, եթե ես ուզում եմ տեքստից գիտելիքներ քաղել, ինձ անհրաժեշտ կլինի օգտագործել անվանված էության ճանաչման մոդել (NER – Named Entity Recognition
), եթե ինձ անհրաժեշտ լինի դասակարգել իմ տեքստը առանձին դասերի, ինձ անհրաժեշտ կլինի դասակարգման մոդել: Յուրաքանչյուր տարբեր գործունեություն պահանջում էր, որ մոդելները տարբեր կերպ վարվեին յուրաքանչյուր գործունեության համար՝ կա՛մ փոխանցման ուսուցման, կա՛մ վերապատրաստման միջոցով:
-ի ներդրմամբ Large Language Models (LLM), LLM մոդելը կկարողանա կատարել բազմաթիվ NLP առաջադրանքներ՝ ուսուցմամբ կամ առանց դրա: Ցանկացած գործունեություն կարող է լինել defiպարզապես փոխելով հրահանգների հրահանգները:
Այժմ տեսնենք, թե ինչպես կատարել ավանդական NLP առաջադրանքը Զրուցարան GPT և համեմատել ավանդական ձևի հետ: NLP-ի առաջադրանքները, որոնք կկատարվեն Զրուցարան GPT այս հոդվածում են.
Sentiment analysis
Անվանված սուբյեկտի ճանաչումը (NER) վերաբերում է տեքստային տվյալների տարբեր բլոկներում տերմինների ավտոմատ նույնականացման խնդրին: Այն հիմնականում օգտագործվում է կարևոր միավորների կատեգորիաները, ինչպիսիք են դեղերի անունները կլինիկական նշումներից, դժբախտ պատահարների հետ կապված պայմանները ապահովագրական պահանջներից և տիրույթին հատուկ տերմիններ գրառումներից հանելու համար:
Նշենք, որ այս գործունեությունը հատուկ է բժշկական ոլորտին: Նախկինում մեզանից պահանջում էր ծանոթագրել և վարժեցնել ավելի քան 10.000 տող տվյալների մեկ մոդելի համար՝ տեքստում կոնկրետ դասը և տերմինը իմանալու համար: ChatGPT-ն կարող է ճիշտ նույնականացնել տերմինը՝ առանց նախապես պատրաստված տեքստի կամ ճշգրտման, ինչը համեմատաբար լավ արդյունք է:
Տեքստի դասակարգումը վերաբերում է հսկայական տվյալներից տեքստը կատեգորիաների գտնելու և դասակարգելու ավտոմատ գործընթացին, այն էական դեր է խաղում տեքստի տվյալների որոնման և արդյունահանման գործում: Տեքստի դասակարգման հավելվածների օրինակները ներառում են կլինիկական ծանուցումներ կամ ռիսկի գործոնի դասակարգում, ավտոմատ ախտորոշիչ դասակարգում և սպամի հայտնաբերում:
Sentiment analysis
Sentiment analysis
ներառում է տեքստի մի հատվածում արտահայտված զգացողության կամ հույզերի որոշում: Այն նպատակ ունի դասակարգել տեքստը նախնական կատեգորիաներիdefinite, որպես դրական, բացասական կամ չեզոք, հիմնված հեղինակի կողմից փոխանցված հիմքում ընկած տրամադրության վրա:
Զգացմունքների վերլուծության կիրառությունները ներառում են.
Ավտոմատ ամփոփումները վերաբերում են գործընթացին, որի միջոցով մեկ կամ մի քանի փաստաթղթերի հիմնական թեմաները բացահայտվում և ներկայացվում են հակիրճ և ճշգրիտ ձևով: Սա թույլ է տալիս օգտվողին կարճ ժամանակում դիտել տվյալների մեծ կտորներ: Օրինակների կիրառությունները ներառում են ամփոփ համակարգ, որը թույլ է տալիս ավտոմատ կերպով ստեղծել նորությունների հոդվածներից վերացական հոդվածներ և տեղեկատվության ամփոփում` հետազոտական աշխատանքների ամփոփագրերից նախադասություններ հանելով:
ChatGPT-ը հիանալի ամփոփիչ գործիք է, հատկապես երկար հոդվածների և բարդ ակնարկների համար: Կպցնելով ակնարկները ChatGPT-ում, մենք կարող ենք հեշտությամբ իմանալ արտադրանքի վերանայման ամփոփագիրը մի հայացքով:
Քանի որ այս հոդվածի նպատակն է ուսումնասիրել տեքստային վերլուծության առաջադրանքներ կատարելու LLM-ների կարողությունը, կարևոր է նաև ճանաչել դրանց սահմանափակումները: LLM-ների հիմնական սահմանափակումներից մի քանիսը ներառում են.
Ercole Palmeri
Ծովային ոլորտը իսկական համաշխարհային տնտեսական տերություն է, որը նավարկվել է դեպի 150 միլիարդանոց շուկա...
Անցյալ երկուշաբթի Financial Times-ը հայտարարեց OpenAI-ի հետ գործարքի մասին: FT-ն արտոնագրում է իր համաշխարհային մակարդակի լրագրությունը…
Միլիոնավոր մարդիկ վճարում են հոսքային ծառայությունների համար՝ վճարելով ամսական բաժանորդային վճարներ։ Տարածված կարծիք կա, որ դուք…
Veeam-ի Coveware-ը կշարունակի տրամադրել կիբեր շորթման միջադեպերի արձագանքման ծառայություններ: Coveware-ը կառաջարկի դատաբժշկական և վերականգնման հնարավորություններ…