บทความ

การวิเคราะห์โดยย่อของทักษะที่เกิดขึ้นใหม่ในรูปแบบภาษาศาสตร์ขนาดใหญ่

การวิจัยเกี่ยวกับปัญญาประดิษฐ์ส่วนใหญ่ในช่วงสองทศวรรษที่ผ่านมาได้มุ่งเน้นไปที่การฝึกอบรมโครงข่ายประสาทเทียม เพื่อทำงานชิ้นเดียวด้วยชุดข้อมูลการฝึกอบรมเฉพาะ ตัวอย่างเช่น จำแนกว่ารูปภาพมีแมว สรุปบทความ แปลจากภาษาอังกฤษเป็นภาษาสวาฮิลี ...

ในช่วงไม่กี่ปีที่ผ่านมา กระบวนทัศน์ใหม่ได้พัฒนาขึ้นโดยใช้โมเดลภาษา: โครงข่ายประสาทเทียมที่คาดเดาคำถัดไปในประโยคโดยพิจารณาจากคำก่อนหน้าในประโยค

หลังจากได้รับการฝึกอบรมเกี่ยวกับเนื้อหาขนาดใหญ่ที่ไม่มีป้ายกำกับแล้ว แบบจำลองทางภาษาศาสตร์สามารถ "เชิญ" ให้ทำงานตามอำเภอใจได้ เช่น การคาดเดาคำที่ตามหลังประโยค ตัวอย่างเช่น งานแปลประโยคภาษาอังกฤษเป็นภาษาสวาฮิลีอาจถูกใช้ถ้อยคำใหม่เป็นการทำนายคำถัดไป: "การแปลภาษาสวาฮิลีของ 'ปัญญาประดิษฐ์' คือ ..."

จากงานเฉพาะไปจนถึงงานทั่วไป

กระบวนทัศน์ใหม่นี้แสดงถึงการเปลี่ยนแปลงจากรุ่นต่างๆ เฉพาะงาน, ฝึกให้ทำงานชิ้นเดียว ในรูปแบบ งานทั่วไปซึ่งสามารถปฏิบัติงานต่างๆ แถมรุ่น งานทั่วไป พวกเขายังสามารถทำกิจกรรมใหม่ๆ ที่ไม่ได้รวมอยู่ในข้อมูลการฝึกอบรมอย่างชัดเจน ตัวอย่างเช่น, จีพีที-3 แสดงให้เห็นว่าแบบจำลองทางภาษาศาสตร์สามารถคูณตัวเลขสองหลักได้สำเร็จ แม้ว่าจะยังไม่ได้รับการฝึกฝนอย่างชัดเจนให้ทำเช่นนั้นก็ตาม อย่างไรก็ตาม ความสามารถในการทำงานใหม่นี้เกิดขึ้นเฉพาะกับโมเดลที่มีพารามิเตอร์จำนวนหนึ่งเท่านั้น และได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลขนาดใหญ่เพียงพอ

เหตุฉุกเฉินเป็นพฤติกรรม

ความคิดที่ว่าการเปลี่ยนแปลงเชิงปริมาณในระบบสามารถนำไปสู่พฤติกรรมใหม่เรียกว่า กรณีฉุกเฉินแนวคิดที่ได้รับความนิยมจากบทความเรียงความของฟิลิป แอนเดอร์สัน นักเขียนรางวัลโนเบลปี 1972 เรื่อง More is Different ในหลายสาขาวิชา เช่น ฟิสิกส์ ชีววิทยา เศรษฐศาสตร์ และวิทยาการคอมพิวเตอร์ มีการสังเกตปรากฏการณ์ที่เกิดขึ้นใหม่ในระบบที่ซับซ้อน

ใน บทความล่าสุด เผยแพร่เมื่อ ธุรกรรมเกี่ยวกับการวิจัยแมชชีนเลิร์นนิง, ห้องปฏิบัติการ ไฮ in มหาวิทยาลัย Stanford defiทักษะที่เกิดขึ้นใหม่ในรูปแบบภาษาขนาดใหญ่มีดังนี้:

ทักษะคือ ฉุกเฉิน หากไม่มีอยู่ในรุ่นที่เล็กกว่า แต่มีอยู่ในรุ่นที่ใหญ่กว่า

เพื่อแสดงลักษณะการมีอยู่ของทักษะ เกิดใหม่บทความของเราได้รวบรวมข้อค้นพบสำหรับแบบจำลองและแนวทางต่างๆ ที่เกิดขึ้นในช่วงสองปีที่ผ่านมานับตั้งแต่เปิดตัว GPT-3 บทความนี้ตรวจสอบงานวิจัยที่วิเคราะห์อิทธิพลของมาตราส่วน: แบบจำลองขนาดต่างๆ ที่ได้รับการฝึกฝนด้วยทรัพยากรการคำนวณที่แตกต่างกัน สำหรับกิจกรรมหลายๆ อย่าง พฤติกรรมของโมเดลจะเติบโตอย่างคาดการณ์ได้ด้วยสเกลหรือเพิ่มขึ้นอย่างคาดไม่ถึงจากประสิทธิภาพแบบสุ่มไปจนถึงค่าที่สูงกว่าค่าสุ่มที่เกณฑ์สเกลเฉพาะ

หากต้องการเรียนรู้เพิ่มเติมอ่านบทความเกี่ยวกับ ทักษะที่เกิดขึ้นใหม่ในรูปแบบภาษาศาสตร์

Jason Wei เป็นนักวิทยาศาสตร์การวิจัยที่ Google Brain Rishi Bommasani เป็นนักศึกษาปริญญาเอกปีที่สองที่ภาควิชาวิทยาการคอมพิวเตอร์ของ Stanford ซึ่งช่วยเปิดตัว ศูนย์วิจัยสแตนฟอร์ดโมเดลพื้นฐาน (CRFM). อ่านการศึกษาของพวกเขา "ความสามารถใหม่ๆ ของ Large Language Models,"ซึ่งเขียนร่วมกับนักวิชาการจาก Google Research, Stanford University, UNC Chapel Hill และ DeepMind

การร่าง BlogInnovazione.it