ประเภทของการเรียนรู้ของเครื่อง

คำว่า Machine Learning (การเรียนรู้อัตโนมัติ) หมายถึงชุดของกลไกที่เป็นของโลกแห่งปัญญาประดิษฐ์ แมชชีนเลิร์นนิงมีสามประเภท: การเรียนรู้แบบมีการควบคุมดูแล แบบไม่อยู่ภายใต้การดูแล และการเรียนรู้แบบเสริมกำลัง

กลไกเหล่านี้ช่วยให้เครื่องจักรอัจฉริยะสามารถปรับปรุงความสามารถและประสิทธิภาพได้ตลอดเวลาเรียนรู้โดยอัตโนมัติด้วยประสบการณ์เพื่อทำงานบางอย่างปรับปรุงประสิทธิภาพมากขึ้นเรื่อย ๆ เมื่อเวลาผ่านไป

ตัวอย่างคือ AlphaGo, ซอฟต์แวร์ Machine Learning สำหรับเกม Go ที่พัฒนาโดย Deepmind. AlpaGo เป็นซอฟต์แวร์ตัวแรกที่สามารถเอาชนะมนุษย์ในเกมบนเครื่องบินได้ โกบัง ขนาดมาตรฐาน (19 × 19) ซอฟต์แวร์ AlphaGo ได้รับการศึกษาโดยการสังเกตการเคลื่อนไหวหลายล้านครั้งโดยผู้เล่น Go ในเกมต่างๆ และให้เครื่องเล่นกันเอง ส่งผลให้สามารถเอาชนะสิ่งที่เชื่อว่าเป็นผู้เล่นที่ดีที่สุดในโลกของเกมนี้ได้

ตอนนี้เรามาดูสามหมวดหมู่หลักของการเรียนรู้ของเครื่องกัน

การเรียนรู้ภายใต้การดูแล

ระบบได้รับตัวอย่างที่ติดฉลากตามผลลัพธ์ที่ต้องการ นั่นคือชุดข้อมูลที่เป็นประโยชน์สำหรับการสอนเครื่องประกอบด้วยองค์ประกอบที่แสดงถึงสถานการณ์จริงที่ประกอบด้วยข้อมูลอินพุต "คุณสมบัติ"และจากข้อมูลที่ส่งออก"เป้า". โดยอ้างอิงจากตัวอย่างบทความ แมชชีนเลิร์นนิงคืออะไร เกี่ยวกับอะไร และวัตถุประสงค์การเตรียมการฝึกอบรมเป็นแบบภายใต้การดูแล เนื่องจากเรามีกรณีของเส้นทางแต่ละกรณี โดยแต่ละกรณีมีการระบุคุณลักษณะ (ยานพาหนะ เส้นทาง) และเป้าหมาย (เวลาเดินทาง) ชุดข้อมูลมักจะซับซ้อนกว่ามาก ตัวอย่างมีข้อจำกัดและการสอนอย่างมาก โดยมีจุดประสงค์เพื่อทำให้ความเข้าใจของ Supervised Machine Learning ง่ายขึ้น

กรณีประเภทนี้อนุญาตให้อัลกอริทึมศึกษาพื้นฐานของประเภทเส้นทางและยานพาหนะ ซึ่งอาจเป็นเวลาเดินทาง มีปัญหาสองประเภทในการเรียนรู้ของเครื่องภายใต้การดูแล:

การถอยหลัง: เมื่อเป้าหมายประกอบด้วยตัวแปรต่อเนื่อง นั่นคือปริมาณ ตัวเลข
การจัดหมวดหมู่: เมื่อเป้าหมายสามารถแสดงโดยคลาสหรือหมวดหมู่

เมื่อพิจารณาตัวอย่างเส้นทางมอเตอร์เวย์อีกครั้ง เราสามารถพูดได้ว่าเป็นการถดถอย หากเป้าหมายประกอบด้วยการประเมิน เช่น เร็วหากน้อยกว่าหนึ่งชั่วโมง ช้าระหว่าง 1 ถึง XNUMX ชั่วโมง ช้ามากหากเกินสองชั่วโมง ในกรณีนี้จะเป็นปัญหาการจำแนกประเภท

การเรียนรู้แบบไม่มีผู้ดูแล

ไม่มีข้อมูลติดป้าย เป็นระบบที่เริ่มต้นจากอินพุต ต้องหาโครงสร้างในข้อมูล ในทางปฏิบัติเราไม่มีเป้าหมาย แต่ป้อนข้อมูลเท่านั้น ราวกับว่าในตัวอย่าง เรามีเฉพาะข้อมูลเส้นทางและยานพาหนะ แต่ไม่มีข้อมูลเวลาเดินทาง

ในแนวทางนี้ อัลกอริธึมต้องระบุหมวดหมู่โดยมองหาโครงสร้างที่ซ่อนอยู่ในข้อมูล เครื่องมือหลักที่สามารถใช้ในแนวทางที่ไม่ได้รับการดูแลคือ การจัดกลุ่ม และ กฎสมาคม.

การเรียนรู้การเสริมแรง

ระบบรับอินพุตจากสภาพแวดล้อมและดำเนินการ ระบบพยายามดำเนินการเพื่อรับรางวัล ระบบจะพยายามใช้การกระทำที่ปรับรางวัลให้เหมาะสมขึ้นอยู่กับสถานะของสภาพแวดล้อมโดยรอบ

ระบบการให้รางวัลดำเนินการผ่านองค์ประกอบที่เรียกว่า ตัวแทน. ตัวแทนตัดสินใจว่าจะดำเนินการกับสิ่งแวดล้อมและจากนี้เขาได้รับหนึ่ง รางวัล และอาจเป็นข้อมูลเกี่ยวกับสภาวะแวดล้อมอันเป็นผลมาจากการกระทำที่ริเริ่มขึ้น

ตัวอย่างเช่น หากเราคิดว่าระบบที่ทุ่มเทให้กับเกมหมากรุก เอเจนต์คือองค์ประกอบที่ตัดสินใจย้าย สภาพแวดล้อมก็คือตัวเกม ผลที่ตามมาจากทุกการเคลื่อนไหวที่ทำโดยเอเจนต์ สถานะของเกมจึงเปลี่ยนไป (เข้าใจตามสถานการณ์ปัจจุบัน ตำแหน่งของชิ้นส่วนทั้งหมด และเป็นผลมาจากการเคลื่อนไหวของคู่ต่อสู้ด้วย) ได้รับการตอบรับเป็นชิ้นส่วนของคู่ต่อสู้ที่กินเข้าไป ดังนั้น มีวัตถุประสงค์เพื่อเป็นรางวัลแก่การย้าย ด้วยวิธีนี้ตัวแทนเรียนรู้และให้ความรู้ด้วยตนเอง

ข้อสรุป

ดังนั้นจึงเห็นได้ชัดว่าการเลือกระหว่างประเภทของการเรียนรู้ของเครื่องขึ้นอยู่กับบริบท นั่นคือ ประเภทของแนวทางจะถูกเลือกโดยพิจารณาจากข้อมูลที่มีอยู่และความเป็นไปได้ที่จะมีประวัติซึ่งรวมถึงคำอธิบายของสถานการณ์ของแต่ละกรณี (ข้อมูลเข้า) และผลลัพธ์ (ผลลัพธ์) ดังนั้น ด้วยชุดข้อมูลประเภทนี้ คุณสามารถใช้แนวทางภายใต้การดูแลได้

ในทางกลับกัน หากคุณไม่มีความเป็นไปได้ที่จะทราบข้อมูลผลลัพธ์ (เป้าหมาย) ลำดับความสำคัญ หรือคุณต้องการค้นหาเป้าหมายใหม่ จำเป็นต้องระบุความเชื่อมโยงระหว่างข้อมูลที่ป้อนเข้าเพื่อค้นหาสถานการณ์ที่ไม่เคยประสบมาก่อนใน ประวัติศาสตร์ หรือเผชิญกับการเรียนรู้ต่อสิ่งแวดล้อมที่วิวัฒนาการและตอบสนอง ในกรณีนี้ จำเป็นต้องเลือกใช้เทคนิคที่ไม่มีผู้ดูแลหรือเสริมกำลัง

Ercole Palmeri: เสพติดนวัตกรรม