ව්යුහගත නොවූ දත්තවල පරිමාව අඛණ්ඩව ඝාතීය ලෙස වර්ධනය වන බැවින්, අලෙවිකරණය, මූල්ය, සෞඛ්ය සේවා සහ සමාජ විද්යාව වැනි විවිධ කර්මාන්ත හරහා නිවැරදි හා කාර්යක්ෂම පෙළ විශ්ලේෂණ මෙවලම්වල අවශ්යතාවය වඩ වඩාත් තීරණාත්මක වී ඇත.
සම්ප්රදායිකව, රීති මත පදනම් වූ ක්රම සහ ස්පාසි සහ ට්රාන්ස්ෆෝමර් තාක්ෂණය වැනි යන්ත්ර ඉගෙනුම් ශිල්පීය ක්රම භාවිතයෙන් පෙළ විශ්ලේෂණය සිදු කර ඇත. මෙම ක්රම ඵලදායී බව ඔප්පු වී ඇති අතර, ඒවා පරිපූර්ණ කිරීම සඳහා සැලකිය යුතු උත්සාහයක් සහ විශේෂඥ දැනුමක් අවශ්ය වේ.
වැනි විශාල භාෂා ආකෘති (LLM) පැමිණීමත් සමඟ කතාබස් GPT di OpenAI. එය මිනිසාට සමාන පෙළ උත්පාදනය කිරීමේ සහ සන්දර්භය අවබෝධ කර ගැනීමේ කැපී පෙනෙන හැකියාවන් පෙන්නුම් කර ඇති අතර, එය වැනි පෙළ විශ්ලේෂණ කාර්යයන් සඳහා පොරොන්දු වූ මෙවලමක් බවට පත් කර ඇත. entity recognition
, sentiment analysis
, සහ topic modeling
.
අපි දැන් බලමු ChatGPT භාවිතයෙන් පෙළ විග්රහ කිරීම සිදු කරන්නේ කෙසේද කියා.
අතීතයේදී, අපි යන්ත්ර ඉගෙනීමේ විවිධ කාර්යයන් සඳහා සෑම විටම විවිධ මාදිලි භාවිතා කළෙමු. උදාහරණයක් ලෙස, මට පෙළකින් දැනුම ලබා ගැනීමට අවශ්ය නම්, මට නම් කරන ලද ආයතන හඳුනාගැනීමේ ආකෘතියක් (NER – Named Entity Recognition
), මට මගේ පෙළ වෙනම පන්තිවලට වර්ග කිරීමට අවශ්ය නම්, මට වර්ගීකරණ ආකෘතියක් අවශ්ය වේ. එක් එක් විවිධ ක්රියාකාරකම සඳහා එක් එක් ක්රියාකාරකම සඳහා ආකෘති වෙනස් ලෙස පුහුණු කිරීම අවශ්ය විය, එක්කෝ මාරු ඉගෙනීම හෝ පුහුණුව මගින්.
හඳුන්වාදීමත් සමඟ Large Language Models (LLM), LLM ආකෘතියක් පුහුණුව ඇතිව හෝ නැතිව NLP කාර්යයන් කිහිපයක් ඉටු කිරීමට හැකි වනු ඇත. සෑම ක්රියාකාරකමක්ම විය හැකිය defiප්රේරකවල ඇති උපදෙස් වෙනස් කිරීමෙන් සරලව නිෂ්ප්රභා කර ඇත.
දැන් අපි බලමු සාම්ප්රදායික NLP කාර්යය කරන්නේ කොහොමද කියලා කතාබස් GPT සහ සාම්ප්රදායික ක්රමය සමඟ සසඳන්න. විසින් සිදු කරනු ලබන NLP කාර්යයන් කතාබස් GPT මෙම ලිපියේ ඇත:
Sentiment analysis
නාමික ආයතන හඳුනාගැනීම (NER) යනු විවිධ පෙළ දත්ත කොටස්වල නියමයන් ස්වයංක්රීයව හඳුනා ගැනීමේ කාර්යයයි. එය ප්රධාන වශයෙන් භාවිතා කරනුයේ සායනික සටහන් වලින් ඖෂධ නාම, රක්ෂණ හිමිකම් වලින් අනතුරු ආශ්රිත නියමයන් සහ වාර්තා වලින් වෙනත් වසම්-විශේෂිත නියමයන් වැනි වැදගත් ආයතන කාණ්ඩ ලබා ගැනීමටය.
මෙම ක්රියාකාරකම වෛද්ය වසම සඳහා විශේෂිත බව සලකන්න. පෙළෙහි නිශ්චිත පන්තිය සහ පදය දැනගැනීම සඳහා තනි ආකෘතියක් සඳහා දත්ත පේළි 10.000කට වඩා වැඩි ප්රමාණයක් විවරණය කිරීම සහ පුහුණු කිරීම අවශ්ය වේ. ChatGPT හට කිසිදු පූර්ව-පුහුණු පාඨයක් හෝ සියුම්-සුසර කිරීමක් නොමැතිව පදය නිවැරදිව හඳුනාගත හැක, එය සාපේක්ෂව හොඳ ප්රතිඵලයකි!
පෙළ වර්ගීකරණය යනු විශාල දත්ත වලින් පෙළ සොයා ගැනීම සහ වර්ගීකරණය කිරීමේ ස්වයංක්රීය ක්රියාවලියයි, එය පෙළ දත්ත ලබා ගැනීමේදී සහ නිස්සාරණය කිරීමේදී අත්යවශ්ය කාර්යභාරයක් ඉටු කරයි. පෙළ වර්ගීකරණ යෙදුම් සඳහා උදාහරණ ලෙස සායනික ඇඟවීම් හෝ අවදානම් සාධක වර්ගීකරණය, ස්වයංක්රීය රෝග විනිශ්චය වර්ගීකරණය සහ අයාචිත තැපැල් හඳුනාගැනීම ඇතුළත් වේ.
Sentiment analysis
Sentiment analysis
පෙළ කොටසක ප්රකාශිත හැඟීම හෝ හැඟීම් තීරණය කිරීම ඇතුළත් වේ. පෙළ පෙර කාණ්ඩවලට වර්ග කිරීම එහි අරමුණයිdefiනයිට්, ධනාත්මක, සෘණ හෝ මධ්යස්ථ ලෙස, කතුවරයා විසින් ප්රකාශ කරන ලද යටින් පවතින හැඟීම් මත පදනම්ව.
චිත්තවේගීය විශ්ලේෂණයේ යෙදුම්වලට ඇතුළත් වන්නේ:
ස්වයංක්රීය සාරාංශ යනු ලේඛන එකක හෝ වැඩි ගණනක ප්රධාන මාතෘකා හඳුනාගෙන සංක්ෂිප්තව හා නිවැරදි ලෙස ඉදිරිපත් කරන ක්රියාවලියයි. මෙය පරිශීලකයාට කෙටි කාලයක් තුළ විශාල දත්ත කොටස් දෙස බැලීමට ඉඩ සලසයි. නිදසුන් යෙදුම් වලට ප්රවෘත්ති ලිපි වලින් සාරාංශ ස්වයංක්රීයව උත්පාදනය කිරීමට සහ පර්යේෂණ පත්රිකා සාරාංශ වලින් වාක්ය උපුටා ගැනීමෙන් තොරතුරු සාරාංශ කිරීමට ඉඩ සලසන සාරාංශ පද්ධතියක් ඇතුළත් වේ.
ChatGPT යනු විශිෂ්ට සාරාංශ මෙවලමකි, විශේෂයෙන් දිගු ලිපි සහ සංකීර්ණ සමාලෝචන සඳහා. ChatGPT හි සමාලෝචන ඇලවීමෙන්, අපට නිෂ්පාදන සමාලෝචන සාරාංශය බැලූ බැල්මට පහසුවෙන් දැනගත හැකිය.
මෙම ලිපියේ අරමුණ පෙළ විශ්ලේෂණ කාර්යයන් ඉටු කිරීමට LLM වලට ඇති හැකියාව ගවේෂණය කිරීම බැවින්, ඒවායේ සීමාවන් හඳුනා ගැනීමද අත්යවශ්ය වේ. LLMs හි සමහර ප්රධාන සීමාවන්ට ඇතුළත් වන්නේ:
Ercole Palmeri
වර්ණ ගැන්වීම හරහා සියුම් මෝටර් කුසලතා වර්ධනය කිරීම ලිවීම වැනි වඩාත් සංකීර්ණ කුසලතා සඳහා දරුවන් සූදානම් කරයි. වර්ණ ගැන්වීමට...
නාවික අංශය සැබෑ ගෝලීය ආර්ථික බලවතෙකු වන අතර එය බිලියන 150 ක වෙළඳපලක් කරා ගමන් කර ඇත.
පසුගිය සඳුදා ෆිනෑන්ෂල් ටයිම්ස් OpenAI සමඟ ගිවිසුමක් නිවේදනය කළේය. FT එහි ලෝක මට්ටමේ පුවත්පත් කලාවට බලපත්ර ලබා දෙයි…
මිලියන ගණනක් ජනතාව ප්රවාහ සේවා සඳහා ගෙවයි, මාසික දායක ගාස්තු ගෙවයි. පොදු මතය වන්නේ ඔබ...