מנגנונים אלה מאפשרים למכונה אינטליגנטית לשפר את יכולותיה וביצועיה לאורך זמן, באופן אוטומטי ללמוד עם ניסיון לבצע משימות מסוימות, לשפר את ביצועיה יותר ויותר לאורך זמן.
דוגמה היא AlphaGo, תוכנת Machine Learning למשחק Go שפותחה על ידי Deepmind. AlpaGo הייתה התוכנה הראשונה שמסוגלת להביס מאסטר אנושי במשחק במטוס גובן גודל סטנדרטי (19 × 19). תוכנת AlphaGo חונכה על ידי התבוננות במיליוני מהלכים שנעשו על ידי שחקני Go במהלך משחקים שונים, והמכונה משחקת נגד עצמה, וכתוצאה מכך היא הצליחה לנצח את מה שהאמינו להיות השחקן הטוב ביותר בעולם של המשחק הזה.
הבה ניכנס כעת לשלוש הקטגוריות העיקריות של למידת מכונה.
המערכת מקבלת דוגמאות המסומנות לפי הפלט הרצוי. כלומר, מערכי הנתונים השימושיים להוראה למכונה מורכבים מאלמנטים המייצגים מצבים אמיתיים המורכבים מנתוני קלט "מאפיינים"ומנתוני פלט"יעד". בהתייחס לדוגמא של המאמר מהי Machine Learning, במה מדובר והמטרות שלה, הכנת ההדרכה הייתה מהסוג המפוקח שכן היו לנו מקרים בודדים של מסלולים, שלכל אחד מהם צוינו תכונות (רכב, מסלול) ויעד (זמן נסיעה). מערכי נתונים הם בדרך כלל הרבה יותר מורכבים, הדוגמה הייתה מוגבלת ודידקטית ביותר, במטרה לפשט את ההבנה של Supervised Machine Learning.
מקרה מסוג זה מאפשר לאלגוריתם ללמוד את הבסיס של סוג המסלול ורכב, מה יכול להיות זמן הנסיעה. ישנם שני סוגים של בעיות בלמידת מכונה מפוקחת:
אם נבחן מחדש את הדוגמה של כבישים מהירים, אנו יכולים לומר שזו רגרסיה. אם המטרה הייתה מורכבת מהערכה כגון: מהיר אם מתחת לשעה, איטי בין שעה לשעתיים, איטי מאוד אם מעל שעתיים. במקרה הזה זו הייתה בעיית סיווג.
אין נתונים מסומנים, זו המערכת שמתחילה מהקלטים, חייבת למצוא מבנה בנתונים. למעשה אין לנו מטרות, אלא רק נתוני קלט. כאילו בדוגמה היו לנו רק נתוני המסלול ורכב, אבל לא נתוני זמן הנסיעה.
בגישה זו, האלגוריתמים חייבים לזהות קטגוריות על ידי חיפוש מבנים נסתרים בנתונים. הכלים העיקריים שניתן להשתמש בהם בגישה ללא פיקוח הם ה קיבוץ ו חוקי ההתאחדות.
המערכת מקבלת קלט מהסביבה ומבצעת פעולות. המערכת מנסה לבצע פעולות על מנת לקבל תגמולים. המערכת תנסה ליישם פעולות המייעלות את התגמול בהתאם למצב הסביבה הסובבת.
מערכת התגמול מיושמת באמצעות רכיב, הנקרא סוכן. הסוכן מחליט על פעולה שתתבצע בסביבה ומתוך כך הוא מקבל אחת פרס ואולי מידע על מצב הסביבה, כתוצאה מהפעולה שיזמה.
לדוגמה, אם נחשוב על מערכת ייעודית למשחק השחמט, הסוכן הוא המרכיב שמחליט על המהלך, הסביבה היא המשחק עצמו. כתוצאה מכל מהלך בודד שנעשה על ידי הסוכן, מצב המשחק משתנה (מובן כמצב הנוכחי, מיקומם של כל הכלים, גם כתוצאה ממהלך היריב), מקבל משוב ככלי יריב שנאכל, לכן נועד כפרס למהלך. בדרך זו הסוכן לומד, ומחנך את עצמו.
לכן ברור שהבחירה בין סוגי למידת מכונה תלויה בהקשר. כלומר, סוג הגישה נבחר על סמך הנתונים הקיימים והאפשרות לקבל היסטוריה הכוללת את תיאור הנסיבות של כל מקרה בודד (תשומה), וגם תוצאה (פלט). אז עם מערך נתונים מסוג זה, אתה יכול להמשיך להשתמש בגישה מפוקחת.
אם, לעומת זאת, אין לך את האפשרות לדעת את נתוני הפלט (יעד) מראש, או שאתה רוצה לגלות יעדים חדשים, אז יש צורך לזהות קישורים בין נתוני הקלט כדי לגלות נסיבות שמעולם לא חוו ב- היסטוריה, או להתמודד עם למידה לקראת סביבה שמתפתחת ומגיבה. במקרה זה יש צורך לבחור בטכניקות ללא פיקוח או חיזוק.
Ercole Palmeri: מכור לחדשנות
ניתוח ניתוח עיניים באמצעות הצופה המסחרי של Apple Vision Pro בוצע במרפאת קטניה...
פיתוח מוטוריקה עדינה באמצעות צביעה מכין את הילדים למיומנויות מורכבות יותר כמו כתיבה. לצבוע…
המגזר הימי הוא מעצמה כלכלית עולמית אמיתית, שניווטה לקראת שוק של 150 מיליארד...
ביום שני האחרון הודיע הפייננשל טיימס על עסקה עם OpenAI. FT נותנת רישיון לעיתונאות ברמה עולמית שלה...