مقالات

تحلیل مختصر مهارت های نوظهور در مدل های بزرگ زبانی

بسیاری از تحقیقات در مورد هوش مصنوعی در دو دهه گذشته بر آموزش شبکه های عصبی متمرکز شده است تا یک وظیفه واحد را با مجموعه داده های آموزشی خاص انجام دهد. به عنوان مثال، اگر یک تصویر حاوی گربه است، طبقه بندی کنید، یک مقاله را خلاصه کنید، از انگلیسی به سواحیلی ترجمه کنید ...

در سال‌های اخیر، یک الگوی جدید حول مدل‌های زبانی تکامل یافته است: شبکه‌های عصبی که به سادگی کلمات بعدی یک جمله را با توجه به کلمات قبلی در جمله پیش‌بینی می‌کنند.

پس از آموزش روی حجم وسیعی از متن بدون برچسب، می‌توان از مدل‌های زبانی برای انجام کارهای دلخواه مانند پیش‌بینی کلمه بعد از جمله دعوت کرد. به عنوان مثال، وظیفه ترجمه یک جمله انگلیسی به سواحیلی را می توان به عنوان پیش بینی کلمه بعدی بازنویسی کرد: "ترجمه سواحیلی "هوش مصنوعی" ... است."

از تکلیف خاص تا کار کلی

این پارادایم جدید نشان دهنده تغییر مدل ها است خاص وظیفه، برای انجام یک کار واحد، در مدل ها آموزش دیده اند وظیفه عمومی، که می تواند وظایف مختلفی را انجام دهد. به علاوه مدل ها وظیفه عمومی آنها همچنین می توانند فعالیت های جدیدی را انجام دهند که به صراحت در داده های آموزشی گنجانده نشده است. مثلا، GPT-3 نشان داد که مدل‌های زبانی می‌توانند با موفقیت اعداد دو رقمی را ضرب کنند، حتی اگر به صراحت برای انجام این کار آموزش ندیده باشند. با این حال، این توانایی برای انجام وظایف جدید تنها با مدل هایی با تعداد معینی از پارامترها و آموزش داده شده بر روی یک مجموعه داده به اندازه کافی بزرگ رخ می دهد.

اورژانس به عنوان یک رفتار

این ایده که تغییرات کمی در یک سیستم می تواند منجر به رفتار جدید شود به عنوان شناخته شده است اورژانس، مفهومی که توسط فیلیپ اندرسون برنده جایزه نوبل در مقاله "بیشتر متفاوت است" در سال 1972 رایج شد. در بسیاری از رشته ها مانند فیزیک، زیست شناسی، اقتصاد و علوم کامپیوتر، این پدیده در حال ظهور در سیستم های پیچیده مشاهده شده است.

در یک مقاله اخیر su pubblicato معاملات در تحقیقات یادگیری ماشینی، آزمایشگاه HAI in دانشگاه استنفورد defiمهارت های در حال ظهور در مدل های زبان بزرگ را به شرح زیر نشان می دهد:

یک مهارت است ظهور اگر در مدل های کوچکتر وجود نداشته باشد اما در مدل های بزرگتر وجود داشته باشد.

برای مشخص کردن حضور مهارت ها در حال ظهورمقاله ما یافته‌های مدل‌ها و رویکردهای مختلفی را که طی دو سال گذشته از زمان انتشار GPT-3 پدیدار شده‌اند، جمع‌آوری می‌کند. این مقاله تحقیقاتی را بررسی کرد که تأثیر مقیاس را تجزیه و تحلیل می‌کرد: مدل‌هایی با اندازه‌های مختلف که با منابع محاسباتی مختلف آموزش دیده بودند. برای بسیاری از فعالیت ها، رفتار مدل به طور قابل پیش بینی با مقیاس رشد می کند یا به طور غیرقابل پیش بینی از عملکرد تصادفی به مقادیر بالاتر از مقادیر تصادفی در یک آستانه مقیاس خاص افزایش می یابد.

برای کسب اطلاعات بیشتر مقاله در را بخوانید مهارت های نوظهور در مدل های زبانی

جیسون وی یک دانشمند محقق در Google Brain است. ریشی بوماسانی دانشجوی مقطع دکتری در دپارتمان علوم کامپیوتر استنفورد است که به راه‌اندازی این برنامه کمک کرد. مرکز تحقیقات استنفورد در مورد مدل های بنیاد (CRFM). مطالعه آنها را بخوانید "توانایی های اضطراری Large Language Models,"، با همکاری محققان Google Research، دانشگاه استنفورد، UNC Chapel Hill و DeepMind نوشته شده است.

طراحی BlogInnovazione.it