ලිපි

chatGPT භාවිතයෙන් පෙළ විග්‍රහ කිරීම

පෙළ විශ්ලේෂණ, හෝ පෙළ පතල් කැණීම, ව්‍යුහගත නොකළ පෙළ දත්ත විශාල ප්‍රමාණයකින් වටිනා තීක්ෂ්ණ බුද්ධියක් ලබා ගැනීම සඳහා අත්‍යවශ්‍ය තාක්‍ෂණයකි. 

රටා, ප්‍රවණතා සහ සම්බන්ධතා සොයා ගැනීම සඳහා පෙළ සැකසීම සහ විශ්ලේෂණය කිරීම එයට ඇතුළත් වේ.

එය සමාගම්වලට, පර්යේෂකයන්ට සහ සංවිධානවලට පාඨවලින් ලබාගන්නා තොරතුරු මත පදනම්ව තීරණ ගැනීමට ඉඩ සලසයි. 

ව්‍යුහගත නොවූ දත්තවල පරිමාව අඛණ්ඩව ඝාතීය ලෙස වර්ධනය වන බැවින්, අලෙවිකරණය, මූල්‍ය, සෞඛ්‍ය සේවා සහ සමාජ විද්‍යාව වැනි විවිධ කර්මාන්ත හරහා නිවැරදි හා කාර්යක්ෂම පෙළ විශ්ලේෂණ මෙවලම්වල අවශ්‍යතාවය වඩ වඩාත් තීරණාත්මක වී ඇත.

සම්ප්‍රදායිකව, රීති මත පදනම් වූ ක්‍රම සහ ස්පාසි සහ ට්‍රාන්ස්ෆෝමර් තාක්‍ෂණය වැනි යන්ත්‍ර ඉගෙනුම් ශිල්පීය ක්‍රම භාවිතයෙන් පෙළ විශ්ලේෂණය සිදු කර ඇත. මෙම ක්‍රම ඵලදායී බව ඔප්පු වී ඇති අතර, ඒවා පරිපූර්ණ කිරීම සඳහා සැලකිය යුතු උත්සාහයක් සහ විශේෂඥ දැනුමක් අවශ්‍ය වේ.

වැනි විශාල භාෂා ආකෘති (LLM) පැමිණීමත් සමඟ කතාබස් GPT di OpenAI. එය මිනිසාට සමාන පෙළ උත්පාදනය කිරීමේ සහ සන්දර්භය අවබෝධ කර ගැනීමේ කැපී පෙනෙන හැකියාවන් පෙන්නුම් කර ඇති අතර, එය වැනි පෙළ විශ්ලේෂණ කාර්යයන් සඳහා පොරොන්දු වූ මෙවලමක් බවට පත් කර ඇත. entity recognition, sentiment analysis, සහ topic modeling.

අපි දැන් බලමු ChatGPT භාවිතයෙන් පෙළ විග්‍රහ කිරීම සිදු කරන්නේ කෙසේද කියා.

සාම්ප්‍රදායික ක්‍රමය (තනි මාදිලි) එදිරිව. LLM

අතීතයේදී, අපි යන්ත්‍ර ඉගෙනීමේ විවිධ කාර්යයන් සඳහා සෑම විටම විවිධ මාදිලි භාවිතා කළෙමු. උදාහරණයක් ලෙස, මට පෙළකින් දැනුම ලබා ගැනීමට අවශ්‍ය නම්, මට නම් කරන ලද ආයතන හඳුනාගැනීමේ ආකෘතියක් (NER – Named Entity Recognition), මට මගේ පෙළ වෙනම පන්තිවලට වර්ග කිරීමට අවශ්‍ය නම්, මට වර්ගීකරණ ආකෘතියක් අවශ්‍ය වේ. එක් එක් විවිධ ක්‍රියාකාරකම සඳහා එක් එක් ක්‍රියාකාරකම සඳහා ආකෘති වෙනස් ලෙස පුහුණු කිරීම අවශ්‍ය විය, එක්කෝ මාරු ඉගෙනීම හෝ පුහුණුව මගින්.

හඳුන්වාදීමත් සමඟ Large Language Models (LLM), LLM ආකෘතියක් පුහුණුව ඇතිව හෝ නැතිව NLP කාර්යයන් කිහිපයක් ඉටු කිරීමට හැකි වනු ඇත. සෑම ක්රියාකාරකමක්ම විය හැකිය defiප්‍රේරකවල ඇති උපදෙස් වෙනස් කිරීමෙන් සරලව නිෂ්ප්‍රභා කර ඇත.

දැන් අපි බලමු සාම්ප්‍රදායික NLP කාර්යය කරන්නේ කොහොමද කියලා කතාබස් GPT සහ සාම්ප්රදායික ක්රමය සමඟ සසඳන්න. විසින් සිදු කරනු ලබන NLP කාර්යයන් කතාබස් GPT මෙම ලිපියේ ඇත:

  • දැනුම නිස්සාරණය (NER)
  • පෙළ වර්ගීකරණය
  • Sentiment analysis
  • සාරාංශය

දැනුම නිස්සාරණය (NER)

නාමික ආයතන හඳුනාගැනීම (NER) යනු විවිධ පෙළ දත්ත කොටස්වල නියමයන් ස්වයංක්‍රීයව හඳුනා ගැනීමේ කාර්යයයි. එය ප්‍රධාන වශයෙන් භාවිතා කරනුයේ සායනික සටහන් වලින් ඖෂධ නාම, රක්ෂණ හිමිකම් වලින් අනතුරු ආශ්‍රිත නියමයන් සහ වාර්තා වලින් වෙනත් වසම්-විශේෂිත නියමයන් වැනි වැදගත් ආයතන කාණ්ඩ ලබා ගැනීමටය.

මෙම ක්‍රියාකාරකම වෛද්‍ය වසම සඳහා විශේෂිත බව සලකන්න. පෙළෙහි නිශ්චිත පන්තිය සහ පදය දැනගැනීම සඳහා තනි ආකෘතියක් සඳහා දත්ත පේළි 10.000කට වඩා වැඩි ප්‍රමාණයක් විවරණය කිරීම සහ පුහුණු කිරීම අවශ්‍ය වේ. ChatGPT හට කිසිදු පූර්ව-පුහුණු පාඨයක් හෝ සියුම්-සුසර කිරීමක් නොමැතිව පදය නිවැරදිව හඳුනාගත හැක, එය සාපේක්ෂව හොඳ ප්‍රතිඵලයකි!

පෙළ වර්ගීකරණය

පෙළ වර්ගීකරණය යනු විශාල දත්ත වලින් පෙළ සොයා ගැනීම සහ වර්ගීකරණය කිරීමේ ස්වයංක්‍රීය ක්‍රියාවලියයි, එය පෙළ දත්ත ලබා ගැනීමේදී සහ නිස්සාරණය කිරීමේදී අත්‍යවශ්‍ය කාර්යභාරයක් ඉටු කරයි. පෙළ වර්ගීකරණ යෙදුම් සඳහා උදාහරණ ලෙස සායනික ඇඟවීම් හෝ අවදානම් සාධක වර්ගීකරණය, ස්වයංක්‍රීය රෝග විනිශ්චය වර්ගීකරණය සහ අයාචිත තැපැල් හඳුනාගැනීම ඇතුළත් වේ.

Sentiment analysis

Sentiment analysis පෙළ කොටසක ප්‍රකාශිත හැඟීම හෝ හැඟීම් තීරණය කිරීම ඇතුළත් වේ. පෙළ පෙර කාණ්ඩවලට වර්ග කිරීම එහි අරමුණයිdefiනයිට්, ධනාත්මක, සෘණ හෝ මධ්‍යස්ථ ලෙස, කතුවරයා විසින් ප්‍රකාශ කරන ලද යටින් පවතින හැඟීම් මත පදනම්ව. 

චිත්තවේගීය විශ්ලේෂණයේ යෙදුම්වලට ඇතුළත් වන්නේ:

  • පාරිභෝගික සමාලෝචන සහ ප්‍රතිපෝෂණ විශ්ලේෂණය,
  • සමාජ මාධ්‍ය හැඟීම් නිරීක්ෂණය කිරීම,
  • වෙළඳපල ප්‍රවණතා නිරීක්ෂණය කිරීම e
  • මැතිවරණ ව්‍යාපාර වලදී දේශපාලන හැඟීම් මැන බැලීම.

සාරාංශය

ස්වයංක්‍රීය සාරාංශ යනු ලේඛන එකක හෝ වැඩි ගණනක ප්‍රධාන මාතෘකා හඳුනාගෙන සංක්ෂිප්තව හා නිවැරදි ලෙස ඉදිරිපත් කරන ක්‍රියාවලියයි. මෙය පරිශීලකයාට කෙටි කාලයක් තුළ විශාල දත්ත කොටස් දෙස බැලීමට ඉඩ සලසයි. නිදසුන් යෙදුම් වලට ප්‍රවෘත්ති ලිපි වලින් සාරාංශ ස්වයංක්‍රීයව උත්පාදනය කිරීමට සහ පර්යේෂණ පත්‍රිකා සාරාංශ වලින් වාක්‍ය උපුටා ගැනීමෙන් තොරතුරු සාරාංශ කිරීමට ඉඩ සලසන සාරාංශ පද්ධතියක් ඇතුළත් වේ.

ChatGPT යනු විශිෂ්ට සාරාංශ මෙවලමකි, විශේෂයෙන් දිගු ලිපි සහ සංකීර්ණ සමාලෝචන සඳහා. ChatGPT හි සමාලෝචන ඇලවීමෙන්, අපට නිෂ්පාදන සමාලෝචන සාරාංශය බැලූ බැල්මට පහසුවෙන් දැනගත හැකිය.

LLM වල සීමාව

මෙම ලිපියේ අරමුණ පෙළ විශ්ලේෂණ කාර්යයන් ඉටු කිරීමට LLM වලට ඇති හැකියාව ගවේෂණය කිරීම බැවින්, ඒවායේ සීමාවන් හඳුනා ගැනීමද අත්‍යවශ්‍ය වේ. LLMs හි සමහර ප්‍රධාන සීමාවන්ට ඇතුළත් වන්නේ:

  1. සම්පත් භාවිතය : LLMs භාවිතා කිරීම සඳහා සැලකිය යුතු පරිගණකමය සහ මූල්‍ය සම්පත් අවශ්‍ය වන අතර, එය කුඩා ආයතනවලට හෝ සීමිත සම්පත් සහිත තනි පුද්ගල පර්යේෂකයන්ට අභියෝගයක් විය හැකිය. අද වන විට, ChatGPT විශාල දත්ත ප්‍රමාණයක් විග්‍රහ කිරීමට, ආදාන සහ ප්‍රතිදානය සඳහා ටෝකන 8.000ක් පමණ පිළිගනී, පරිශීලකයාට පෙළ දත්ත කොටස් කිහිපයකට කැඩීමට අවශ්‍ය වන අතර කාර්යයන් සඳහා බහු API ඇමතුම් අවශ්‍ය විය හැකිය.
  2. ඉක්මන් වාක්‍ය ඛණ්ඩයට සංවේදීතාව : LLM වල ක්‍රියාකාරිත්වයට ප්‍රේරක වදන් දක්වන ආකාරය අනුව බලපෑම් කළ හැක. කඩිනම් වචනවල සුළු වෙනසක් වෙනස් ප්‍රතිඵල ඇති කළ හැකි අතර, එය ස්ථාවර සහ විශ්වාසදායක ප්‍රතිදානයක් සොයන විට සැලකිලිමත් වීමට හේතුවක් විය හැකිය.
  3. වසම විශේෂිත විශේෂඥ දැනුමක් නොමැතිකම : LLMs හට විවිධ වසම් පිළිබඳ සාමාන්‍ය අවබෝධයක් ඇති අතර, වසම්-විශේෂිත දත්ත මත පුහුණු කරන ලද විශේෂිත මාදිලිවලට සමාන විශේෂඥ දැනුමක් ඔවුන්ට නොතිබිය හැකිය. එහි ප්‍රතිඵලයක් වශයෙන්, ඔවුන්ගේ ක්‍රියාකාරීත්වය සමහර අවස්ථාවලදී ප්‍රශස්ත නොවිය හැකි අතර, විශේෂයෙන් ඉහළ විශේෂිත වූ හෝ තාක්ෂණික තොරතුරු සමඟ කටයුතු කිරීමේදී මනාව සකස් කිරීම හෝ බාහිර දැනුම අවශ්‍ය විය හැකිය.

Ercole Palmeri

නවෝත්පාදන පුවත් පත්‍රිකාව
නවෝත්පාදනය පිළිබඳ වැදගත්ම පුවත් අතපසු නොකරන්න. ඒවා විද්‍යුත් තැපෑලෙන් ලබා ගැනීමට ලියාපදිංචි වන්න.

මෑතකාලීන ලිපි

ළමුන් සඳහා පිටු වර්ණ ගැන්වීමේ ප්‍රතිලාභ - සියලුම වයස් කාණ්ඩ සඳහා මැජික් ලෝකයක්

වර්ණ ගැන්වීම හරහා සියුම් මෝටර් කුසලතා වර්ධනය කිරීම ලිවීම වැනි වඩාත් සංකීර්ණ කුසලතා සඳහා දරුවන් සූදානම් කරයි. වර්ණ ගැන්වීමට...

2 මැයි 2024

අනාගතය මෙන්න: නැව් කර්මාන්තය ගෝලීය ආර්ථිකය විප්ලවීය කරන්නේ කෙසේද?

නාවික අංශය සැබෑ ගෝලීය ආර්ථික බලවතෙකු වන අතර එය බිලියන 150 ක වෙළඳපලක් කරා ගමන් කර ඇත.

1 මැයි 2024

ප්‍රකාශකයින් සහ OpenAI කෘත්‍රිම බුද්ධිය මගින් සැකසූ තොරතුරු ගලායාම නියාමනය කිරීමට ගිවිසුම් අත්සන් කරයි

පසුගිය සඳුදා ෆිනෑන්ෂල් ටයිම්ස් OpenAI සමඟ ගිවිසුමක් නිවේදනය කළේය. FT එහි ලෝක මට්ටමේ පුවත්පත් කලාවට බලපත්‍ර ලබා දෙයි…

30 අප්රේල් 2024

මාර්ගගත ගෙවීම්: ප්‍රවාහ සේවා ඔබව සදහටම ගෙවන ආකාරය මෙන්න

මිලියන ගණනක් ජනතාව ප්‍රවාහ සේවා සඳහා ගෙවයි, මාසික දායක ගාස්තු ගෙවයි. පොදු මතය වන්නේ ඔබ...

29 අප්රේල් 2024

ඔබේ භාෂාවෙන් නවෝත්පාදනය කියවන්න

නවෝත්පාදන පුවත් පත්‍රිකාව
නවෝත්පාදනය පිළිබඳ වැදගත්ම පුවත් අතපසු නොකරන්න. ඒවා විද්‍යුත් තැපෑලෙන් ලබා ගැනීමට ලියාපදිංචි වන්න.

පසු අපට