در سالهای اخیر، یک الگوی جدید حول مدلهای زبانی تکامل یافته است: شبکههای عصبی که به سادگی کلمات بعدی یک جمله را با توجه به کلمات قبلی در جمله پیشبینی میکنند.
پس از آموزش روی حجم وسیعی از متن بدون برچسب، میتوان از مدلهای زبانی برای انجام کارهای دلخواه مانند پیشبینی کلمه بعد از جمله دعوت کرد. به عنوان مثال، وظیفه ترجمه یک جمله انگلیسی به سواحیلی را می توان به عنوان پیش بینی کلمه بعدی بازنویسی کرد: "ترجمه سواحیلی "هوش مصنوعی" ... است."
این پارادایم جدید نشان دهنده تغییر مدل ها است خاص وظیفه، برای انجام یک کار واحد، در مدل ها آموزش دیده اند وظیفه عمومی، که می تواند وظایف مختلفی را انجام دهد. به علاوه مدل ها وظیفه عمومی آنها همچنین می توانند فعالیت های جدیدی را انجام دهند که به صراحت در داده های آموزشی گنجانده نشده است. مثلا، GPT-3 نشان داد که مدلهای زبانی میتوانند با موفقیت اعداد دو رقمی را ضرب کنند، حتی اگر به صراحت برای انجام این کار آموزش ندیده باشند. با این حال، این توانایی برای انجام وظایف جدید تنها با مدل هایی با تعداد معینی از پارامترها و آموزش داده شده بر روی یک مجموعه داده به اندازه کافی بزرگ رخ می دهد.
این ایده که تغییرات کمی در یک سیستم می تواند منجر به رفتار جدید شود به عنوان شناخته شده است اورژانس، مفهومی که توسط فیلیپ اندرسون برنده جایزه نوبل در مقاله "بیشتر متفاوت است" در سال 1972 رایج شد. در بسیاری از رشته ها مانند فیزیک، زیست شناسی، اقتصاد و علوم کامپیوتر، این پدیده در حال ظهور در سیستم های پیچیده مشاهده شده است.
در یک مقاله اخیر su pubblicato معاملات در تحقیقات یادگیری ماشینی، آزمایشگاه HAI in دانشگاه استنفورد defiمهارت های در حال ظهور در مدل های زبان بزرگ را به شرح زیر نشان می دهد:
یک مهارت است ظهور اگر در مدل های کوچکتر وجود نداشته باشد اما در مدل های بزرگتر وجود داشته باشد.
برای مشخص کردن حضور مهارت ها در حال ظهورمقاله ما یافتههای مدلها و رویکردهای مختلفی را که طی دو سال گذشته از زمان انتشار GPT-3 پدیدار شدهاند، جمعآوری میکند. این مقاله تحقیقاتی را بررسی کرد که تأثیر مقیاس را تجزیه و تحلیل میکرد: مدلهایی با اندازههای مختلف که با منابع محاسباتی مختلف آموزش دیده بودند. برای بسیاری از فعالیت ها، رفتار مدل به طور قابل پیش بینی با مقیاس رشد می کند یا به طور غیرقابل پیش بینی از عملکرد تصادفی به مقادیر بالاتر از مقادیر تصادفی در یک آستانه مقیاس خاص افزایش می یابد.
برای کسب اطلاعات بیشتر مقاله در را بخوانید مهارت های نوظهور در مدل های زبانی
جیسون وی یک دانشمند محقق در Google Brain است. ریشی بوماسانی دانشجوی مقطع دکتری در دپارتمان علوم کامپیوتر استنفورد است که به راهاندازی این برنامه کمک کرد. مرکز تحقیقات استنفورد در مورد مدل های بنیاد (CRFM). مطالعه آنها را بخوانید "توانایی های اضطراری Large Language Models,"، با همکاری محققان Google Research، دانشگاه استنفورد، UNC Chapel Hill و DeepMind نوشته شده است.
طراحی BlogInnovazione.it
یک عمل جراحی چشم با استفاده از نمایشگر تجاری Apple Vision Pro در پلی کلینیک کاتانیا انجام شد…
توسعه مهارت های حرکتی ظریف از طریق رنگ آمیزی، کودکان را برای مهارت های پیچیده تری مانند نوشتن آماده می کند. رنگ کردن…
بخش دریایی یک قدرت واقعی اقتصادی جهانی است که به سمت یک بازار 150 میلیاردی حرکت کرده است.
دوشنبه گذشته، فایننشال تایمز از قراردادی با OpenAI خبر داد. FT مجوز روزنامه نگاری در سطح جهانی خود را صادر می کند…