از آنجایی که حجم داده های بدون ساختار به طور تصاعدی در حال رشد است، نیاز به ابزارهای تجزیه و تحلیل متنی دقیق و کارآمد در صنایع مختلف مانند بازاریابی، مالی، مراقبت های بهداشتی و علوم اجتماعی به طور فزاینده ای حیاتی شده است.
به طور سنتی، تجزیه و تحلیل متن با استفاده از روش های مبتنی بر قانون و تکنیک های یادگیری ماشین مانند SpaCY و تکنیک ترانسفورماتور انجام می شود. در حالی که این روشها مؤثر بودهاند، اما برای تکمیل آنها به تلاش و تخصص قابلتوجهی نیاز دارند.
با ظهور مدل های زبان بزرگ (LLM) مانند GPT چت di OpenAI. قابلیتهای قابلتوجهی را در تولید متن انسانمانند و درک زمینه از خود نشان داده است و آن را به ابزاری امیدوارکننده برای کارهای تجزیه و تحلیل متن مانند entity recognition
, sentiment analysis
و topic modeling
.
اکنون ببینیم چگونه می توانیم با استفاده از ChatGPT تجزیه متن را انجام دهیم.
در گذشته، ما همیشه از مدل های مختلف برای کارهای مختلف در یادگیری ماشین استفاده می کردیم. به عنوان مثال، اگر من بخواهم دانش را از یک متن استخراج کنم، باید از یک مدل شناسایی موجودیت نامگذاری شده استفاده کنم (NER - Named Entity Recognition
)، اگر لازم باشد متن خود را به کلاس های جداگانه طبقه بندی کنم، به یک مدل طبقه بندی نیاز دارم. هر فعالیت متفاوت مستلزم این بود که مدل ها برای هر فعالیت به طور متفاوتی آموزش داده شوند، یا از طریق یادگیری انتقالی یا با آموزش.
با معرفی Large Language Models (LLM)، یک مدل LLM قادر خواهد بود چندین کار NLP را با یا بدون آموزش انجام دهد. هر فعالیتی می تواند باشد defiصرفاً با تغییر دستورالعملهای موجود در فرمانها مشخص میشود.
حال بیایید ببینیم که چگونه وظیفه NLP سنتی را انجام دهیم GPT چت و آن را با روش سنتی مقایسه کنید. وظایف NLP که توسط GPT چت در این مقاله عبارتند از:
Sentiment analysis
شناسایی نهاد نامگذاری شده (NER) به وظیفه شناسایی خودکار اصطلاحات در بلوک های مختلف داده متنی اشاره دارد. عمدتاً برای استخراج دستههای موجودیت مهم مانند نام داروها از یادداشتهای بالینی، اصطلاحات مربوط به حادثه از ادعاهای بیمه و سایر اصطلاحات خاص دامنه از سوابق استفاده میشود.
توجه داشته باشید که این فعالیت مختص حوزه پزشکی است. قبلاً از ما میخواست که بیش از 10.000 ردیف داده را برای یک مدل برای دانستن کلاس و اصطلاح خاص در متن، حاشیهنویسی و آموزش دهیم. ChatGPT می تواند به درستی این اصطلاح را بدون هیچ متن از پیش آموزش دیده یا تنظیم دقیق شناسایی کند، که نتیجه نسبتا خوبی است!
طبقهبندی متن به فرآیند خودکار یافتن و طبقهبندی متن به دستهها از دادههای عظیم اشاره دارد، که نقش اساسی در بازیابی و استخراج دادههای متن ایفا میکند. نمونههایی از کاربردهای طبقهبندی متن شامل هشدارهای بالینی یا طبقهبندی عوامل خطر، طبقهبندی تشخیصی خودکار و تشخیص هرزنامه است.
Sentiment analysis
Sentiment analysis
شامل تعیین احساس یا هیجان بیان شده در یک متن است. هدف آن طبقه بندی متن به دسته های قبلی استdefinite، به عنوان مثبت، منفی یا خنثی، بر اساس احساس اساسی منتقل شده توسط نویسنده.
کاربردهای تحلیل احساسات عبارتند از:
خلاصه خودکار به فرآیندی اطلاق می شود که طی آن موضوعات اصلی یک یا چند سند شناسایی و به صورت مختصر و دقیق ارائه می شوند. این به کاربر اجازه می دهد تا در مدت زمان کوتاهی به تکه های بزرگ داده نگاه کند. کاربردهای مثال شامل سیستم خلاصه ای است که امکان تولید خودکار چکیده ها از مقالات خبری و خلاصه سازی اطلاعات را با استخراج جملات از چکیده مقالات پژوهشی فراهم می کند.
ChatGPT یک ابزار خلاصه عالی است، به ویژه برای مقالات طولانی و بررسی های پیچیده. با قرار دادن نظرات در ChatGPT، به راحتی میتوانیم خلاصه بررسی محصول را در یک نگاه بدانیم.
از آنجایی که هدف این مقاله کشف توانایی LLM ها برای انجام وظایف تحلیل متن است، شناخت محدودیت های آنها نیز ضروری است. برخی از محدودیت های کلیدی LLM عبارتند از:
Ercole Palmeri
بخش دریایی یک قدرت واقعی اقتصادی جهانی است که به سمت یک بازار 150 میلیاردی حرکت کرده است.
دوشنبه گذشته، فایننشال تایمز از قراردادی با OpenAI خبر داد. FT مجوز روزنامه نگاری در سطح جهانی خود را صادر می کند…
میلیونها نفر برای خدمات استریم پرداخت میکنند و هزینه اشتراک ماهانه میپردازند. این عقیده رایج است که شما…
Coveware توسط Veeam به ارائه خدمات پاسخگویی به حوادث اخاذی سایبری ادامه خواهد داد. Coveware قابلیتهای پزشکی قانونی و اصلاحی را ارائه میدهد…