ບົດຄວາມ

ວິເຄາະຂໍ້ຄວາມໂດຍໃຊ້ chatGPT

ການວິເຄາະຂໍ້ຄວາມ, ຫຼືການຂຸດຄົ້ນຂໍ້ຄວາມ, ແມ່ນເຕັກນິກທີ່ສໍາຄັນສໍາລັບການສະກັດຄວາມເຂົ້າໃຈທີ່ມີຄຸນຄ່າຈາກຂໍ້ມູນຂໍ້ຄວາມທີ່ບໍ່ມີໂຄງສ້າງຈໍານວນຫລາຍ. 

ມັນກ່ຽວຂ້ອງກັບການປຸງແຕ່ງແລະການວິເຄາະຂໍ້ຄວາມເພື່ອຄົ້ນພົບຮູບແບບ, ແນວໂນ້ມແລະຄວາມສໍາພັນ.

ມັນອະນຸຍາດໃຫ້ບໍລິສັດ, ນັກຄົ້ນຄວ້າແລະອົງການຈັດຕັ້ງສາມາດຕັດສິນໃຈໂດຍອີງໃສ່ຂໍ້ມູນທີ່ເກັບມາຈາກບົດເລື່ອງຕ່າງໆ. 

ເນື່ອງຈາກປະລິມານຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງຍັງສືບຕໍ່ຂະຫຍາຍຕົວ, ຄວາມຕ້ອງການສໍາລັບເຄື່ອງມືການວິເຄາະຂໍ້ຄວາມທີ່ຖືກຕ້ອງແລະມີປະສິດທິພາບໄດ້ກາຍເປັນຄວາມສໍາຄັນເພີ່ມຂຶ້ນໃນທົ່ວອຸດສາຫະກໍາຕ່າງໆເຊັ່ນການຕະຫຼາດ, ການເງິນ, ການດູແລສຸຂະພາບ, ແລະວິທະຍາສາດສັງຄົມ.

ຕາມປະເພນີ, ການວິເຄາະຂໍ້ຄວາມໄດ້ຖືກປະຕິບັດໂດຍໃຊ້ວິທີການທີ່ອີງໃສ່ກົດລະບຽບແລະເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກເຊັ່ນ SpaCY ແລະເຕັກນິກການຫັນປ່ຽນ. ໃນຂະນະທີ່ວິທີການເຫຼົ່ານີ້ໄດ້ພິສູດປະສິດທິພາບ, ພວກເຂົາເຈົ້າຮຽກຮ້ອງໃຫ້ມີຄວາມພະຍາຍາມຢ່າງຫຼວງຫຼາຍແລະຄວາມຊໍານານທີ່ຈະສົມບູນແບບ.

ກັບການມາເຖິງຂອງຮູບແບບພາສາຂະຫນາດໃຫຍ່ (LLM) ເຊັ່ນ: ສົນທະນາ GPT di OpenAI. ມັນໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ໂດດເດັ່ນໃນການສ້າງຂໍ້ຄວາມທີ່ຄ້າຍຄືກັບມະນຸດແລະຄວາມເຂົ້າໃຈໃນສະພາບການ, ເຮັດໃຫ້ມັນເປັນເຄື່ອງມືທີ່ໂດດເດັ່ນສໍາລັບວຽກງານການວິເຄາະຂໍ້ຄວາມເຊັ່ນ: entity recognition, sentiment analysis, e topic modeling.

ຕອນນີ້ເຮົາມາເບິ່ງວິທີທີ່ພວກເຮົາສາມາດປະຕິບັດການແຍກຂໍ້ຄວາມໂດຍໃຊ້ ChatGPT.

ວິທີການແບບດັ້ງເດີມ (ແບບດຽວ) ທຽບກັບ. LLM

ໃນໄລຍະຜ່ານມາ, ພວກເຮົາເຄີຍໃຊ້ແບບຈໍາລອງທີ່ແຕກຕ່າງກັນສໍາລັບວຽກງານທີ່ແຕກຕ່າງກັນໃນການຮຽນຮູ້ເຄື່ອງຈັກ. ຕົວຢ່າງ, ຖ້າຂ້ອຍຕ້ອງການສະກັດຄວາມຮູ້ຈາກຂໍ້ຄວາມ, ຂ້ອຍຈະຕ້ອງໃຊ້ຕົວແບບການຮັບຮູ້ຫນ່ວຍງານທີ່ມີຊື່ (NER – Named Entity Recognition), ຖ້າຂ້ອຍຕ້ອງການຈັດປະເພດຂໍ້ຄວາມຂອງຂ້ອຍເປັນຫ້ອງຮຽນແຍກຕ່າງຫາກ, ຂ້ອຍຈໍາເປັນຕ້ອງມີຮູບແບບການຈັດປະເພດ. ແຕ່ລະກິດຈະກໍາທີ່ແຕກຕ່າງກັນຕ້ອງການຕົວແບບທີ່ຈະໄດ້ຮັບການຝຶກອົບຮົມທີ່ແຕກຕ່າງກັນສໍາລັບແຕ່ລະກິດຈະກໍາ, ບໍ່ວ່າຈະເປັນການຖ່າຍທອດການຮຽນຮູ້ຫຼືໂດຍການຝຶກອົບຮົມ.

ດ້ວຍການແນະນໍາຂອງ Large Language Models (LLM), ຮູບແບບ LLM ຈະສາມາດປະຕິບັດວຽກງານ NLP ຫຼາຍດ້ວຍຫຼືບໍ່ມີການຝຶກອົບຮົມ. ທຸກໆກິດຈະກໍາສາມາດເປັນ defiສໍາເລັດພຽງແຕ່ໂດຍການດັດແກ້ຄໍາແນະນໍາໃນ prompts.

ຕອນນີ້ໃຫ້ເບິ່ງວິທີການປະຕິບັດວຽກງານ NLP ແບບດັ້ງເດີມໃນ ສົນທະນາ GPT ແລະປຽບທຽບມັນກັບວິທີການພື້ນເມືອງ. ວຽກງານ NLP ທີ່ຈະປະຕິບັດໂດຍ ສົນທະນາ GPT ໃນ​ບົດ​ຄວາມ​ນີ້​ແມ່ນ​:

  • ການສະກັດເອົາຄວາມຮູ້ (NER)
  • ການຈັດປະເພດຂໍ້ຄວາມ
  • Sentiment analysis
  • ສະຫຼຸບ

ການສະກັດເອົາຄວາມຮູ້ (NER)

ການຮັບຮູ້ Entity ທີ່ມີຊື່ (NER) ຫມາຍເຖິງວຽກງານຂອງການກໍານົດເງື່ອນໄຂອັດຕະໂນມັດໃນບລັອກທີ່ແຕກຕ່າງກັນຂອງຂໍ້ມູນຂໍ້ຄວາມ. ມັນຖືກນໍາໃຊ້ຕົ້ນຕໍເພື່ອສະກັດເອົາປະເພດນິຕິບຸກຄົນທີ່ສໍາຄັນເຊັ່ນ: ຊື່ຢາຈາກບັນທຶກທາງດ້ານການຊ່ວຍ, ຂໍ້ກໍານົດທີ່ກ່ຽວຂ້ອງກັບອຸປະຕິເຫດຈາກການຮຽກຮ້ອງປະກັນໄພ, ແລະຂໍ້ກໍານົດສະເພາະໂດເມນອື່ນໆຈາກບັນທຶກ.

ໃຫ້ສັງເກດວ່າກິດຈະກໍານີ້ແມ່ນສະເພາະກັບໂດເມນທາງການແພດ. ມັນເຄີຍຮຽກຮ້ອງໃຫ້ພວກເຮົາອະທິບາຍແລະຝຶກອົບຮົມຂໍ້ມູນຫຼາຍກວ່າ 10.000 ແຖວສໍາລັບຕົວແບບດຽວເພື່ອໃຫ້ຮູ້ເຖິງຊັ້ນຮຽນແລະຄໍາສັບສະເພາະໃນຂໍ້ຄວາມ. ChatGPT ສາມາດລະບຸຄໍາສັບໄດ້ຢ່າງຖືກຕ້ອງໂດຍບໍ່ມີຂໍ້ຄວາມທີ່ຜ່ານການຝຶກອົບຮົມຫຼືການປັບຕົວ, ເຊິ່ງເປັນຜົນດີທີ່ຂ້ອນຂ້າງ!

ການຈັດປະເພດຂໍ້ຄວາມ

ການຈັດປະເພດຂໍ້ຄວາມຫມາຍເຖິງຂະບວນການອັດຕະໂນມັດຂອງການຊອກຫາແລະການຈັດປະເພດຂໍ້ຄວາມເຂົ້າໄປໃນຫມວດຫມູ່ຈາກຂໍ້ມູນຂະຫນາດໃຫຍ່, ມັນມີບົດບາດສໍາຄັນໃນການຄົ້ນຫາແລະການສະກັດເອົາຂໍ້ມູນຂໍ້ຄວາມ. ຕົວຢ່າງຂອງຄໍາຮ້ອງສະຫມັກການຈັດປະເພດຂໍ້ຄວາມປະກອບມີການແຈ້ງເຕືອນທາງດ້ານຄລີນິກຫຼືການຈັດປະເພດປັດໃຈຄວາມສ່ຽງ, ການຈັດປະເພດການວິນິດໄສອັດຕະໂນມັດແລະການກວດສອບ spam.

Sentiment analysis

Sentiment analysis ກ່ຽວຂ້ອງກັບການກຳນົດຄວາມຮູ້ສຶກ ຫຼືຄວາມຮູ້ສຶກທີ່ສະແດງອອກໃນຂໍ້ຄວາມໃດໜຶ່ງ. ມັນມີຈຸດປະສົງເພື່ອຈັດປະເພດຂໍ້ຄວາມເຂົ້າໄປໃນປະເພດກ່ອນdefinite, ເຊັ່ນ: ບວກ, ລົບຫຼືເປັນກາງ, ອີງໃສ່ຄວາມຮູ້ສຶກທີ່ຕິດພັນໂດຍຜູ້ຂຽນ. 

ການນໍາໃຊ້ການວິເຄາະຄວາມຮູ້ສຶກປະກອບມີ:

  • ການ​ວິ​ເຄາະ​ການ​ທົບ​ທວນ​ຄືນ​ຂອງ​ລູກ​ຄ້າ​ແລະ​ຄໍາ​ຄຶດ​ຄໍາ​ເຫັນ​,
  • ຕິດ​ຕາມ​ຄວາມ​ຮູ້​ສຶກ​ຂອງ​ສື່​ມວນ​ຊົນ​ສັງ​ຄົມ​,
  • ການຕິດຕາມແນວໂນ້ມຂອງຕະຫຼາດ e
  • ການ​ວັດ​ແທກ​ຄວາມ​ຮູ້​ສຶກ​ທາງ​ການ​ເມືອງ​ໃນ​ລະ​ຫວ່າງ​ການ​ໂຄ​ສະ​ນາ​ການ​ເລືອກ​ຕັ້ງ.

ສະຫຼຸບ

ການສະຫຼຸບອັດຕະໂນມັດຫມາຍເຖິງຂະບວນການທີ່ຫົວຂໍ້ຕົ້ນຕໍຂອງເອກະສານຫນຶ່ງຫຼືຫຼາຍກວ່ານັ້ນຖືກລະບຸແລະນໍາສະເຫນີໃນລັກສະນະທີ່ຊັດເຈນແລະຖືກຕ້ອງ. ອັນນີ້ເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດເບິ່ງຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍໃນເວລາສັ້ນໆ. ຄໍາຮ້ອງສະຫມັກຕົວຢ່າງປະກອບມີລະບົບການສະຫຼຸບທີ່ອະນຸຍາດໃຫ້ການຜະລິດອັດຕະໂນມັດຂອງບົດຄັດຫຍໍ້ຈາກບົດຄວາມຂ່າວແລະການສະຫຼຸບຂອງຂໍ້ມູນໂດຍການສະກັດປະໂຫຍກຈາກບົດຄັດຫຍໍ້ຂອງການຄົ້ນຄວ້າ.

ChatGPT ເປັນເຄື່ອງມືສະຫຼຸບທີ່ດີເລີດ, ໂດຍສະເພາະສໍາລັບບົດຄວາມຍາວແລະການທົບທວນທີ່ສັບສົນ. ໂດຍການວາງບົດວິຈານໃນ ChatGPT, ພວກເຮົາສາມາດຮູ້ບົດສະຫຼຸບການທົບທວນຜະລິດຕະພັນໄດ້ຢ່າງງ່າຍດາຍໃນທັນທີ.

ຂອບເຂດຈໍາກັດຂອງ LLMs

ເນື່ອງຈາກຈຸດປະສົງຂອງບົດຄວາມນີ້ແມ່ນເພື່ອຄົ້ນຫາຄວາມສາມາດຂອງ LLMs ໃນການປະຕິບັດວຽກງານການວິເຄາະຂໍ້ຄວາມ, ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະຮັບຮູ້ຂໍ້ຈໍາກັດຂອງເຂົາເຈົ້າ. ບາງຂໍ້ຈໍາກັດທີ່ສໍາຄັນຂອງ LLMs ປະກອບມີ:

  1. ການ​ນໍາ​ໃຊ້​ຊັບ​ພະ​ຍາ​ກອນ​ : ການນໍາໃຊ້ LLMs ຮຽກຮ້ອງໃຫ້ມີຊັບພະຍາກອນທາງດ້ານການຄິດໄລ່ແລະທາງດ້ານການເງິນທີ່ສໍາຄັນ, ເຊິ່ງສາມາດເປັນສິ່ງທ້າທາຍສໍາລັບອົງການຈັດຕັ້ງຂະຫນາດນ້ອຍຫຼືນັກຄົ້ນຄວ້າສ່ວນບຸກຄົນທີ່ມີຊັບພະຍາກອນຈໍາກັດ. ໃນປັດຈຸບັນ, ChatGPT ຍອມຮັບພຽງແຕ່ປະມານ 8.000 tokens ສໍາລັບ input ແລະ output, ເພື່ອວິເຄາະຈໍານວນຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນ, ຮຽກຮ້ອງໃຫ້ຜູ້ໃຊ້ແຍກຂໍ້ຄວາມເຂົ້າໄປໃນຫຼາຍ chunks ຂອງຂໍ້ມູນ, ແລະອາດຈະຮຽກຮ້ອງໃຫ້ມີການໂທຫາ API ຫຼາຍສໍາລັບວຽກງານ.
  2. ຄວາມອ່ອນໄຫວຕໍ່ກັບປະໂຫຍກທີ່ວ່ອງໄວ : ການປະຕິບັດຂອງ LLMs ສາມາດໄດ້ຮັບຜົນກະທົບຈາກວິທີທີ່ prompts ແມ່ນ worded. ການປ່ຽນແປງເລັກນ້ອຍໃນຄໍາສັບທີ່ວ່ອງໄວສາມາດສ້າງຜົນໄດ້ຮັບທີ່ແຕກຕ່າງກັນ, ເຊິ່ງອາດຈະເປັນສາເຫດສໍາລັບຄວາມກັງວົນໃນເວລາທີ່ຊອກຫາຜົນໄດ້ຮັບທີ່ສອດຄ່ອງແລະເຊື່ອຖືໄດ້.
  3. ຂາດຄວາມຊ່ຽວຊານສະເພາະຂອງໂດເມນ : ໃນຂະນະທີ່ LLMs ມີຄວາມເຂົ້າໃຈທົ່ວໄປກ່ຽວກັບໂດເມນຕ່າງໆ, ພວກເຂົາອາດຈະບໍ່ມີຄວາມຊໍານານໃນລະດັບດຽວກັນກັບແບບພິເສດທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນສະເພາະຂອງໂດເມນ. ດັ່ງນັ້ນ, ການປະຕິບັດຂອງພວກເຂົາອາດຈະບໍ່ດີທີ່ສຸດໃນບາງກໍລະນີແລະອາດຈະຕ້ອງການການປັບໄຫມຫຼືຄວາມຮູ້ພາຍນອກ, ໂດຍສະເພາະໃນເວລາທີ່ຈັດການກັບຂໍ້ມູນພິເສດຫຼືດ້ານວິຊາການ.

Ercole Palmeri

ຈົດໝາຍຂ່າວປະດິດສ້າງ
ຢ່າພາດຂ່າວທີ່ສໍາຄັນທີ່ສຸດກ່ຽວກັບການປະດິດສ້າງ. ລົງທະບຽນເພື່ອຮັບພວກມັນທາງອີເມວ.

Recent articles

Publishers ແລະ OpenAI ລົງນາມໃນຂໍ້ຕົກລົງເພື່ອຄວບຄຸມການໄຫຼເຂົ້າຂອງຂໍ້ມູນທີ່ປຸງແຕ່ງໂດຍ Artificial Intelligence

ວັນຈັນທີ່ຜ່ານມາ, Financial Times ໄດ້ປະກາດຂໍ້ຕົກລົງກັບ OpenAI. FT ອະນຸຍາດໃຫ້ນັກຂ່າວລະດັບໂລກຂອງຕົນ…

30 April 2024

ການຈ່າຍເງິນອອນໄລນ໌: ນີ້ແມ່ນວິທີທີ່ບໍລິການສະຕຣີມເຮັດໃຫ້ເຈົ້າຈ່າຍເງິນຕະຫຼອດໄປ

ຫລາຍລ້ານຄົນຈ່າຍຄ່າບໍລິການສະຕີມ, ຈ່າຍຄ່າທໍານຽມການສະຫມັກປະຈໍາເດືອນ. ມັນ​ເປັນ​ຄວາມ​ຄິດ​ເຫັນ​ທົ່ວ​ໄປ​ທີ່​ທ່ານ…

29 April 2024

Veeam ມີລັກສະນະສະຫນັບສະຫນູນທີ່ສົມບູນແບບທີ່ສຸດສໍາລັບ ransomware, ຈາກການປົກປ້ອງເຖິງການຕອບສະຫນອງແລະການຟື້ນຕົວ

Coveware ໂດຍ Veeam ຈະສືບຕໍ່ໃຫ້ບໍລິການຕອບໂຕ້ເຫດການ extortion cyber. Coveware ຈະສະ ເໜີ ຄວາມສາມາດດ້ານນິຕິສາດແລະການແກ້ໄຂ…

23 April 2024

ການປະຕິວັດສີຂຽວ ແລະ ດິຈິຕອລ: ວິທີການຮັກສາການຄາດເດົາແມ່ນການຫັນປ່ຽນອຸດສາຫະກຳນ້ຳມັນ ແລະອາຍແກັສ

ການຮັກສາການຄາດເດົາແມ່ນການປະຕິວັດຂະແໜງນ້ຳມັນ ແລະ ອາຍແກັສ, ດ້ວຍແນວທາງນະວັດຕະກໍາ ແລະ ຕັ້ງໜ້າໃນການຄຸ້ມຄອງພືດ.…

22 April 2024

ອ່ານນະວັດຕະກໍາໃນພາສາຂອງເຈົ້າ

ຈົດໝາຍຂ່າວປະດິດສ້າງ
ຢ່າພາດຂ່າວທີ່ສໍາຄັນທີ່ສຸດກ່ຽວກັບການປະດິດສ້າງ. ລົງທະບຽນເພື່ອຮັບພວກມັນທາງອີເມວ.

ປະຕິບັດຕາມພວກເຮົາ