مقالات

تجزیه متن با استفاده از chatGPT

تجزیه و تحلیل متن، یا متن کاوی، یک تکنیک حیاتی برای استخراج بینش های ارزشمند از مقادیر زیادی از داده های متنی بدون ساختار است. 

این شامل پردازش و تجزیه و تحلیل متن برای کشف الگوها، روندها و روابط است.

این به شرکت ها، محققان و سازمان ها اجازه می دهد تا بر اساس اطلاعات به دست آمده از متون تصمیم بگیرند. 

از آنجایی که حجم داده های بدون ساختار به طور تصاعدی در حال رشد است، نیاز به ابزارهای تجزیه و تحلیل متنی دقیق و کارآمد در صنایع مختلف مانند بازاریابی، مالی، مراقبت های بهداشتی و علوم اجتماعی به طور فزاینده ای حیاتی شده است.

به طور سنتی، تجزیه و تحلیل متن با استفاده از روش های مبتنی بر قانون و تکنیک های یادگیری ماشین مانند SpaCY و تکنیک ترانسفورماتور انجام می شود. در حالی که این روش‌ها مؤثر بوده‌اند، اما برای تکمیل آنها به تلاش و تخصص قابل‌توجهی نیاز دارند.

با ظهور مدل های زبان بزرگ (LLM) مانند GPT چت di OpenAI. قابلیت‌های قابل‌توجهی را در تولید متن انسان‌مانند و درک زمینه از خود نشان داده است و آن را به ابزاری امیدوارکننده برای کارهای تجزیه و تحلیل متن مانند entity recognition, sentiment analysisو topic modeling.

اکنون ببینیم چگونه می توانیم با استفاده از ChatGPT تجزیه متن را انجام دهیم.

روش سنتی (مدل های تکی) در مقابل. LLM

در گذشته، ما همیشه از مدل های مختلف برای کارهای مختلف در یادگیری ماشین استفاده می کردیم. به عنوان مثال، اگر من بخواهم دانش را از یک متن استخراج کنم، باید از یک مدل شناسایی موجودیت نامگذاری شده استفاده کنم (NER - Named Entity Recognition)، اگر لازم باشد متن خود را به کلاس های جداگانه طبقه بندی کنم، به یک مدل طبقه بندی نیاز دارم. هر فعالیت متفاوت مستلزم این بود که مدل ها برای هر فعالیت به طور متفاوتی آموزش داده شوند، یا از طریق یادگیری انتقالی یا با آموزش.

با معرفی Large Language Models (LLM)، یک مدل LLM قادر خواهد بود چندین کار NLP را با یا بدون آموزش انجام دهد. هر فعالیتی می تواند باشد defiصرفاً با تغییر دستورالعمل‌های موجود در فرمان‌ها مشخص می‌شود.

حال بیایید ببینیم که چگونه وظیفه NLP سنتی را انجام دهیم GPT چت و آن را با روش سنتی مقایسه کنید. وظایف NLP که توسط GPT چت در این مقاله عبارتند از:

  • استخراج دانش (NER)
  • طبقه بندی متن
  • Sentiment analysis
  • خلاصه

استخراج دانش (NER)

شناسایی نهاد نامگذاری شده (NER) به وظیفه شناسایی خودکار اصطلاحات در بلوک های مختلف داده متنی اشاره دارد. عمدتاً برای استخراج دسته‌های موجودیت مهم مانند نام داروها از یادداشت‌های بالینی، اصطلاحات مربوط به حادثه از ادعاهای بیمه و سایر اصطلاحات خاص دامنه از سوابق استفاده می‌شود.

توجه داشته باشید که این فعالیت مختص حوزه پزشکی است. قبلاً از ما می‌خواست که بیش از 10.000 ردیف داده را برای یک مدل برای دانستن کلاس و اصطلاح خاص در متن، حاشیه‌نویسی و آموزش دهیم. ChatGPT می تواند به درستی این اصطلاح را بدون هیچ متن از پیش آموزش دیده یا تنظیم دقیق شناسایی کند، که نتیجه نسبتا خوبی است!

طبقه بندی متن

طبقه‌بندی متن به فرآیند خودکار یافتن و طبقه‌بندی متن به دسته‌ها از داده‌های عظیم اشاره دارد، که نقش اساسی در بازیابی و استخراج داده‌های متن ایفا می‌کند. نمونه‌هایی از کاربردهای طبقه‌بندی متن شامل هشدارهای بالینی یا طبقه‌بندی عوامل خطر، طبقه‌بندی تشخیصی خودکار و تشخیص هرزنامه است.

Sentiment analysis

Sentiment analysis شامل تعیین احساس یا هیجان بیان شده در یک متن است. هدف آن طبقه بندی متن به دسته های قبلی استdefinite، به عنوان مثبت، منفی یا خنثی، بر اساس احساس اساسی منتقل شده توسط نویسنده. 

کاربردهای تحلیل احساسات عبارتند از:

  • تجزیه و تحلیل نظرات و بازخورد مشتریان،
  • ردیابی احساسات رسانه های اجتماعی،
  • نظارت بر روند بازار ه
  • سنجش احساسات سیاسی در طول مبارزات انتخاباتی

خلاصه

خلاصه خودکار به فرآیندی اطلاق می شود که طی آن موضوعات اصلی یک یا چند سند شناسایی و به صورت مختصر و دقیق ارائه می شوند. این به کاربر اجازه می دهد تا در مدت زمان کوتاهی به تکه های بزرگ داده نگاه کند. کاربردهای مثال شامل سیستم خلاصه ای است که امکان تولید خودکار چکیده ها از مقالات خبری و خلاصه سازی اطلاعات را با استخراج جملات از چکیده مقالات پژوهشی فراهم می کند.

ChatGPT یک ابزار خلاصه عالی است، به ویژه برای مقالات طولانی و بررسی های پیچیده. با قرار دادن نظرات در ChatGPT، به راحتی می‌توانیم خلاصه بررسی محصول را در یک نگاه بدانیم.

محدودیت LLM ها

از آنجایی که هدف این مقاله کشف توانایی LLM ها برای انجام وظایف تحلیل متن است، شناخت محدودیت های آنها نیز ضروری است. برخی از محدودیت های کلیدی LLM عبارتند از:

  1. بهره برداری از منابع : استفاده از LLM به منابع محاسباتی و مالی قابل توجهی نیاز دارد که می تواند برای سازمان های کوچکتر یا محققان فردی با منابع محدود چالشی باشد. از امروز، ChatGPT تنها حدود 8.000 توکن را برای ورودی و خروجی می‌پذیرد، برای تجزیه مقدار زیادی داده، کاربر را ملزم می‌کند متن را به چند تکه داده تقسیم کند، و ممکن است به چندین فراخوان API برای کارها نیاز داشته باشد.
  2. حساسیت به عبارت نویسی سریع : عملکرد LLM ها را می توان تحت تأثیر نحوه بیان دستورها قرار داد. یک تغییر جزئی در جمله بندی سریع می تواند نتایج متفاوتی ایجاد کند، که می تواند باعث نگرانی در هنگام جستجوی خروجی ثابت و قابل اعتماد شود.
  3. فقدان تخصص خاص حوزه : در حالی که LLM ها درک کلی از حوزه های مختلف دارند، ممکن است سطح تخصص آن ها به اندازه مدل های تخصصی آموزش دیده بر روی داده های دامنه خاص نباشد. در نتیجه، عملکرد آنها ممکن است در برخی موارد بهینه نباشد و ممکن است نیاز به تنظیم دقیق یا دانش خارجی داشته باشد، به ویژه هنگامی که با اطلاعات بسیار تخصصی یا فنی سروکار داریم.

Ercole Palmeri

خبرنامه نوآوری
مهم ترین اخبار نوآوری را از دست ندهید. برای دریافت آنها از طریق ایمیل ثبت نام کنید.

مقالات اخیر

آینده اینجاست: چگونه صنعت کشتیرانی اقتصاد جهانی را متحول می کند

بخش دریایی یک قدرت واقعی اقتصادی جهانی است که به سمت یک بازار 150 میلیاردی حرکت کرده است.

1 می 2024

ناشران و OpenAI توافق نامه هایی را برای تنظیم جریان اطلاعات پردازش شده توسط هوش مصنوعی امضا می کنند.

دوشنبه گذشته، فایننشال تایمز از قراردادی با OpenAI خبر داد. FT مجوز روزنامه نگاری در سطح جهانی خود را صادر می کند…

آوریل 30 2024

پرداخت های آنلاین: در اینجا نحوه پرداخت خدمات جریانی شما را برای همیشه توضیح می دهد

میلیون‌ها نفر برای خدمات استریم پرداخت می‌کنند و هزینه اشتراک ماهانه می‌پردازند. این عقیده رایج است که شما…

آوریل 29 2024

Veeam دارای جامع ترین پشتیبانی از باج افزار، از محافظت تا پاسخ و بازیابی است

Coveware توسط Veeam به ارائه خدمات پاسخگویی به حوادث اخاذی سایبری ادامه خواهد داد. Coveware قابلیت‌های پزشکی قانونی و اصلاحی را ارائه می‌دهد…

آوریل 23 2024

نوآوری را به زبان خود بخوانید

خبرنامه نوآوری
مهم ترین اخبار نوآوری را از دست ندهید. برای دریافت آنها از طریق ایمیل ثبت نام کنید.

ما را دنبال کنید