بضائع

تحليل النص باستخدام chatGPT

تحليلات النص ، أو التنقيب عن النص ، هي تقنية حيوية لاستخراج رؤى قيمة من كميات كبيرة من البيانات النصية غير المهيكلة. 

يتضمن معالجة وتحليل النص لاكتشاف الأنماط والاتجاهات والعلاقات.

يسمح للشركات والباحثين والمنظمات باتخاذ القرارات بناءً على المعلومات المستقاة من النصوص. 

مع استمرار نمو حجم البيانات غير المهيكلة بشكل كبير ، أصبحت الحاجة إلى أدوات تحليل نصية دقيقة وفعالة أمرًا بالغ الأهمية عبر صناعات متنوعة مثل التسويق والتمويل والرعاية الصحية والعلوم الاجتماعية.

تقليديا ، تم إجراء تحليل النص باستخدام الأساليب القائمة على القواعد وتقنيات التعلم الآلي مثل SpaCY وتقنية المحولات. بينما أثبتت هذه الأساليب فعاليتها ، إلا أنها تتطلب جهدًا وخبرة كبيرة لإتقانها.

مع ظهور نماذج اللغات الكبيرة (LLM) مثل شات جي بي تي di OpenAI. لقد أظهر قدرات رائعة في إنشاء نص يشبه الإنسان وفهم السياق ، مما يجعله أداة واعدة لمهام تحليل النص مثل entity recognition, sentiment analysisو topic modeling.

لنرى الآن كيف يمكننا إجراء تحليل النص باستخدام ChatGPT.

الطريقة التقليدية (نماذج فردية) مقابل. ماجستير

في الماضي ، استخدمنا دائمًا نماذج مختلفة لمهام مختلفة في التعلم الآلي. على سبيل المثال ، إذا كنت أرغب في استخراج المعرفة من نص ما ، فسوف أحتاج إلى استخدام نموذج التعرف على الكيان المسمى (NER - Named Entity Recognition) ، إذا كنت بحاجة إلى تصنيف نصي إلى فئات منفصلة ، فسوف أحتاج إلى نموذج تصنيف. يتطلب كل نشاط مختلف النماذج يتم تدريبها بشكل مختلف لكل نشاط ، إما عن طريق نقل التعلم أو عن طريق التدريب.

مع مقدمة Large Language Models (LLM)، سيكون نموذج LLM قادرًا على أداء مهام البرمجة اللغوية العصبية المتعددة مع أو بدون تدريب. يمكن أن يكون أي نشاط definished ببساطة عن طريق تغيير التعليمات في المطالبات.

الآن دعنا نرى كيفية القيام بمهمة البرمجة اللغوية العصبية التقليدية بتنسيق شات جي بي تي ومقارنتها بالطريقة التقليدية. مهام البرمجة اللغوية العصبية التي سيتم تنفيذها بواسطة شات جي بي تي في هذه المقالة هي:

  • استخراج المعرفة (NER)
  • تصنيف النص
  • Sentiment analysis
  • Riepilogo

استخراج المعرفة (NER)

يشير التعرف على الكيانات المسماة (NER) إلى مهمة تحديد المصطلحات تلقائيًا في مجموعات مختلفة من البيانات النصية. يتم استخدامه بشكل أساسي لاستخراج فئات الكيانات المهمة مثل أسماء الأدوية من الملاحظات السريرية ، والمصطلحات المتعلقة بالحوادث من مطالبات التأمين ، وغيرها من المصطلحات الخاصة بالمجال من السجلات.

لاحظ أن هذا النشاط خاص بالمجال الطبي. كان يتطلب منا وضع تعليقات توضيحية وتدريب أكثر من 10.000 صف من البيانات لنموذج واحد لمعرفة الفئة والمصطلح المحددين في النص. يمكن لـ ChatGPT تحديد المصطلح بشكل صحيح دون أي نص مدرب مسبقًا أو ضبط دقيق ، وهي نتيجة جيدة نسبيًا!

تصنيف النص

تشير تصنيفات النص إلى العملية التلقائية لإيجاد النص وتصنيفه إلى فئات من البيانات الضخمة ، ويلعب دورًا أساسيًا في استرجاع البيانات النصية واستخراجها. تتضمن أمثلة تطبيقات تصنيف النص التنبيهات السريرية أو تصنيف عوامل الخطر والتصنيف التلقائي للتشخيص واكتشاف البريد العشوائي.

Sentiment analysis

Sentiment analysis يتضمن تحديد الشعور أو العاطفة التي يتم التعبير عنها في جزء من النص. يهدف إلى تصنيف النص إلى فئات مسبقةdefinite ، سواء كان إيجابيا أو سلبيا أو محايدا ، بناء على المشاعر الأساسية التي ينقلها المؤلف. 

تشمل تطبيقات تحليل المشاعر ما يلي:

  • تحليل آراء العملاء وردود الفعل ،
  • تتبع مشاعر وسائل التواصل الاجتماعي ،
  • مراقبة اتجاهات السوق ه
  • قياس المشاعر السياسية خلال الحملات الانتخابية.

Riepilogo

تشير الملخصات التلقائية إلى العملية التي يتم من خلالها تحديد الموضوعات الرئيسية لوثيقة واحدة أو أكثر وتقديمها بطريقة موجزة ودقيقة. يتيح ذلك للمستخدم إلقاء نظرة على أجزاء كبيرة من البيانات في فترة زمنية قصيرة. تتضمن التطبيقات النموذجية نظامًا موجزًا ​​يسمح بإنشاء الملخصات تلقائيًا من المقالات الإخبارية وتلخيص المعلومات عن طريق استخراج الجمل من ملخصات الأوراق البحثية.

ChatGPT هي أداة تلخيص ممتازة ، خاصة للمقالات الطويلة والمراجعات المعقدة. من خلال لصق المراجعات في ChatGPT ، يمكننا بسهولة معرفة ملخص مراجعة المنتج في لمحة.

حدود ماجستير

نظرًا لأن الغرض من هذه المقالة هو استكشاف قدرة LLM على أداء مهام تحليل النص ، فمن الضروري أيضًا التعرف على قيودها. تتضمن بعض القيود الرئيسية لـ LLMs ما يلي:

  1. استخدام الموارد : يتطلب استخدام LLM موارد حسابية ومالية كبيرة ، والتي يمكن أن تشكل تحديًا للمنظمات الأصغر أو الباحثين الأفراد ذوي الموارد المحدودة. اعتبارًا من اليوم ، لا يقبل ChatGPT سوى حوالي 8.000 رمزًا للإدخال والإخراج ، لتحليل كمية كبيرة من البيانات ، ويتطلب من المستخدم تقسيم النص إلى أجزاء متعددة من البيانات ، وقد يتطلب عدة استدعاءات API للمهام.
  2. الحساسية للصياغة الفورية : يمكن أن يتأثر أداء LLM بطريقة صياغة المطالبات. يمكن أن يؤدي التغيير الطفيف في الصياغة الفورية إلى نتائج مختلفة ، والتي قد تكون مدعاة للقلق عند البحث عن مخرجات متسقة وموثوقة.
  3. عدم وجود خبرة خاصة بالمجال : في حين أن LLM لديها فهم عام لمختلف المجالات ، فقد لا يكون لديهم نفس المستوى من الخبرة مثل النماذج المتخصصة المدربة على البيانات الخاصة بالمجال. نتيجة لذلك ، قد لا يكون أداؤهم مثاليًا في بعض الحالات وقد يتطلب ضبطًا دقيقًا أو معرفة خارجية ، خاصة عند التعامل مع معلومات عالية التخصص أو تقنية.

Ercole Palmeri

النشرة الإخبارية
لا تفوّت أهم أخبار الابتكار. قم بالتسجيل لتلقيهم عن طريق البريد الإلكتروني.

المقالات الأخيرة

يوقع الناشرون وOpenAI اتفاقيات لتنظيم تدفق المعلومات التي تتم معالجتها بواسطة الذكاء الاصطناعي

أعلنت صحيفة فاينانشيال تايمز يوم الاثنين الماضي عن صفقة مع OpenAI. "فاينانشيال تايمز" ترخص صحافتها ذات المستوى العالمي...

أبريل 30 2024

المدفوعات عبر الإنترنت: إليك كيف تجعلك خدمات البث تدفع إلى الأبد

يدفع الملايين من الأشخاص مقابل خدمات البث، ويدفعون رسوم الاشتراك الشهرية. من الشائع أنك…

أبريل 29 2024

يتميز Veeam بالدعم الأكثر شمولاً لبرامج الفدية، بدءًا من الحماية وحتى الاستجابة والاسترداد

سوف تستمر شركة Coveware by Veeam في تقديم خدمات الاستجابة لحوادث الابتزاز السيبراني. ستوفر Coveware إمكانات الطب الشرعي والمعالجة...

أبريل 23 2024

الثورة الخضراء والرقمية: كيف تعمل الصيانة التنبؤية على تغيير صناعة النفط والغاز

تُحدث الصيانة التنبؤية ثورة في قطاع النفط والغاز، من خلال اتباع نهج مبتكر واستباقي لإدارة المحطات.

أبريل 22 2024

اقرأ الابتكار بلغتك

النشرة الإخبارية
لا تفوّت أهم أخبار الابتكار. قم بالتسجيل لتلقيهم عن طريق البريد الإلكتروني.

تابعنا