เมื่อเร็ว ๆ นี้ ChatGPT กลายเป็นฮอตสปอตใหม่สำหรับ AI โดย Microsoft และ Google ใน Silicon Valley ลงทุนมหาศาลในเทคโนโลยีดังกล่าว (Microsoft ถือหุ้น 10,000 ล้านดอลลาร์ใน OpenAI ซึ่งเป็นบริษัทที่อยู่เบื้องหลัง ChatGPT และ Google เพิ่งเปิดตัวโมเดล BARD ของตัวเอง) ในขณะที่บริษัทเทคโนโลยีอินเทอร์เน็ตในจีน ซึ่งเป็นตัวแทนของ Baidu และบริษัทอื่นๆ ก็ระบุว่าพวกเขากำลังพัฒนาเทคโนโลยีดังกล่าวและจะเปิดตัวในอนาคตอันใกล้นี้ ในประเทศจีน Baidu และบริษัทเทคโนโลยีอินเทอร์เน็ตอื่น ๆ ก็ระบุว่าพวกเขากำลังพัฒนาเทคโนโลยีดังกล่าวและจะเปิดตัวในอนาคตอันใกล้นี้
โมเดลเชิงกำเนิดที่แสดงโดย ChatGPT มีคุณลักษณะทั่วไป กล่าวคือ ใช้ข้อมูลจำนวนมหาศาลสำหรับการฝึกอบรมล่วงหน้า และมักจะจับคู่กับโมเดลภาษาที่มีประสิทธิภาพมากกว่า หน้าที่หลักของโมเดลภาษาคือการเรียนรู้จากคลังข้อมูลขนาดใหญ่ที่มีอยู่ และหลังจากเรียนรู้แล้ว โมเดลภาษาจะสามารถเข้าใจคำสั่งทางภาษาศาสตร์ของผู้ใช้ หรือสร้างเอาต์พุตข้อความที่เกี่ยวข้องตามคำสั่งของผู้ใช้
แบบจำลองกำเนิดสามารถจำแนกออกได้เป็นสองประเภทกว้างๆ หนึ่งคือ แบบจำลองกำเนิดตามภาษา และอีกประเภทหนึ่งคือ แบบจำลองกำเนิดภาพตามภาพ แบบจำลองเชิงกำเนิดของภาษาแสดงโดย ChatGPT ซึ่งแบบจำลองภาษาไม่เพียงเรียนรู้ที่จะเข้าใจความหมายของคำสั่งผู้ใช้เท่านั้น (เช่น "เขียนบทกวีในแบบของหลี่ไป๋") แต่ยังสร้างข้อความที่เกี่ยวข้องตามผู้ใช้ คำสั่งหลังจากฝึกฝนด้วยข้อมูลจำนวนมหาศาล (ในตัวอย่างข้างต้นเป็นการแต่งกลอนในแบบของหลี่ไป๋) บทกวี). ซึ่งหมายความว่า ChatGPT จำเป็นต้องมีโมเดลภาษาขนาดใหญ่ (LLM) ที่เข้าใจภาษาของผู้ใช้และสามารถสร้างเอาต์พุตภาษาคุณภาพสูงได้ ตัวอย่างเช่น โมเดลต้องเข้าใจวิธีสร้างบทกวี วิธีสร้างบทกวีในแบบของ Li Bai และอื่น ๆ นอกจากนี้ยังหมายความว่าโมเดลภาษาขนาดใหญ่ใน AI กำเนิดตามภาษาต้องการพารามิเตอร์จำนวนมากเพื่อทำการเรียนรู้ที่ซับซ้อนประเภทนี้และจดจำข้อมูลจำนวนมาก ตัวอย่างเช่น ChatGPT มีพารามิเตอร์ 175 พันล้านพารามิเตอร์ (พื้นที่เก็บข้อมูล 700 GB หากใช้ตัวเลขทศนิยมมาตรฐาน) ซึ่งแสดงให้เห็นว่ารูปแบบภาษานั้น "ใหญ่" เพียงใด
โมเดลกำเนิดอีกประเภทหนึ่งคือโมเดลสร้างภาพที่แสดงโดย Diffusion ซึ่งโดยทั่วไปคือ Dalle จาก OpenAI, ImaGen จาก Google และปัจจุบัน Stable Diffusion จาก Runway AI ที่ได้รับความนิยมสูงสุด โมเดลการสร้างภาพเหมือนเหล่านี้ยังใช้โมเดลภาษาเพื่อทำความเข้าใจคำสั่งภาษาศาสตร์ของผู้ใช้ และสร้างภาพคุณภาพสูงตามคำสั่งเหล่านั้น ซึ่งแตกต่างจากโมเดลกำเนิดตามภาษา โมเดลภาษาที่ใช้ที่นี่ส่วนใหญ่ใช้ภาษาเพื่อทำความเข้าใจอินพุตของผู้ใช้โดยไม่สร้างเอาต์พุตภาษา ดังนั้นจำนวนของพารามิเตอร์จึงค่อนข้างน้อย (ตามลำดับไม่กี่ร้อยล้าน) ในขณะที่จำนวนของพารามิเตอร์สำหรับ แบบจำลองการแพร่กระจายตามภาพมีขนาดค่อนข้างเล็ก ในลำดับไม่กี่พันล้านโดยรวม แต่ความพยายามในการคำนวณนั้นไม่เล็กเพราะความละเอียดของภาพหรือวิดีโอที่สร้างขึ้นนั้นสูงมาก
โมเดลเจเนอเรทีฟสามารถสร้างเอาต์พุตคุณภาพสูงอย่างที่ไม่เคยมีมาก่อนผ่านการฝึกอบรมข้อมูลขนาดใหญ่ และมีตลาดแอปพลิเคชันที่ชัดเจนจำนวนหนึ่งอยู่แล้ว ซึ่งรวมถึงการค้นหา บอทสนทนา การสร้างภาพและการแก้ไข ฯลฯ คาดว่าจะมีแอปพลิเคชันอื่นๆ เพิ่มขึ้นในอนาคต ซึ่งทำให้เกิดความต้องการเช่นกัน ชิปที่เกี่ยวข้อง
ความต้องการชิปสำหรับสร้างคลาสโมเดล
ดังที่ได้กล่าวไว้ก่อนหน้านี้ ChatGPT เป็นตัวแทนของโมเดลเชิงกำเนิดที่จำเป็นต้องเรียนรู้จากข้อมูลการฝึกอบรมจำนวนมากเพื่อให้ได้ผลลัพธ์เชิงสร้างสรรค์ที่มีคุณภาพสูง เพื่อสนับสนุนการฝึกอบรมและการอนุมานอย่างมีประสิทธิภาพ โมเดลเชิงกำเนิดจึงมีข้อกำหนดของตนเองสำหรับชิปที่เกี่ยวข้อง
ประการแรกคือความจำเป็นในการคำนวณแบบกระจาย จำนวนพารามิเตอร์สำหรับโมเดลสร้างภาษาเช่น ChatGPT มีจำนวนนับแสนล้าน และแทบจะเป็นไปไม่ได้เลยที่จะใช้การฝึกอบรมและการอนุมานด้วยคอมพิวเตอร์เครื่องเดียว แต่ต้องใช้การคำนวณแบบกระจายจำนวนมาก ในการประมวลผลแบบกระจาย แบนด์วิธของการเชื่อมต่อระหว่างข้อมูลระหว่างเครื่องและชิปประมวลผลสำหรับการประมวลผลแบบกระจายดังกล่าว (เช่น RDMA) มีความต้องการสูง เพราะบ่อยครั้งปัญหาคอขวดของงานอาจไม่ได้อยู่ที่การประมวลผล แต่อยู่ที่การเชื่อมต่อโครงข่ายข้อมูลข้างต้น โดยเฉพาะอย่างยิ่งใน การประมวลผลแบบกระจายขนาดใหญ่ประเภทนี้ ชิปสำหรับการสนับสนุนที่มีประสิทธิภาพของการประมวลผลแบบกระจายมีความสำคัญมากขึ้น
ถัดไปคือความจุของหน่วยความจำและแบนด์วิธ แม้ว่าการฝึกอบรมและการอนุมานแบบกระจายจะหลีกเลี่ยงไม่ได้สำหรับโมเดลเชิงกำเนิดที่ใช้ภาษา แต่หน่วยความจำภายในและแบนด์วิธของชิปแต่ละตัวจะเป็นตัวกำหนดประสิทธิภาพการดำเนินการของชิปตัวเดียวเป็นส่วนใหญ่ (เนื่องจากหน่วยความจำของชิปแต่ละตัวถูกใช้จนเกินขีดจำกัด) สำหรับโมเดลเจนเนอเรทีฟแบบรูปภาพ เป็นไปได้ที่จะใส่โมเดลทั้งหมด (ประมาณ 20GB) ลงในหน่วยความจำของชิป แต่เนื่องจากโมเดลเจนเนอเรทีฟอิงอิมเมจมีวิวัฒนาการต่อไปในอนาคต มีแนวโน้มว่าความต้องการหน่วยความจำจะเพิ่มขึ้นอีก . จากมุมมองนี้ เทคโนโลยีหน่วยความจำแบนด์วิธสูงพิเศษที่นำเสนอโดย HBM จะกลายเป็นตัวเลือกที่หลีกเลี่ยงไม่ได้สำหรับชิปตัวเร่งที่เกี่ยวข้อง ในขณะที่รุ่นคลาสเจนเนอเรทีฟจะเร่งความเร็วหน่วยความจำ HBM เพื่อเพิ่มความจุและแบนด์วิธเพิ่มเติม นอกจาก HBM แล้ว เทคโนโลยีการจัดเก็บข้อมูลใหม่ๆ เช่น CXL ควบคู่กับการเพิ่มประสิทธิภาพซอฟต์แวร์จะมีศักยภาพในการเพิ่มความจุและประสิทธิภาพของที่จัดเก็บในตัวเครื่องในแอปพลิเคชันดังกล่าว และคาดว่าจะได้รับการนำไปใช้ในภาคอุตสาหกรรมมากขึ้นจากการเพิ่มขึ้นของรุ่นคลาสเจนเนอเรทีฟ
ประการสุดท้าย การคำนวณ ทั้งแบบจำลองคลาสกำเนิดตามภาษาและรูปภาพมีความต้องการการคำนวณจำนวนมาก และแบบจำลองกำเนิดตามรูปภาพอาจมีความต้องการพลังงานเลขคณิตสูงกว่ามากเนื่องจากสร้างความละเอียดสูงขึ้นและสูงขึ้น และเปลี่ยนไปสู่แอปพลิเคชันวิดีโอ - ปัจจุบัน แบบจำลองการสร้างภาพกระแสหลักมีปริมาณการคำนวณประมาณ 20 TFlops และสำหรับความละเอียดสูงและภาพ 100-1000 TFLOPS ของความต้องการเลขคณิตน่าจะเป็นบรรทัดฐาน
โดยสรุป เราเชื่อว่าข้อกำหนดของโมเดลเชิงกำเนิดสำหรับชิปนั้นรวมถึงการประมวลผลแบบกระจาย การจัดเก็บข้อมูล และการคำนวณ ซึ่งอาจกล่าวได้ว่าเกี่ยวข้องกับการออกแบบชิปทุกด้าน และที่สำคัญกว่านั้นคือ วิธีการรวมข้อกำหนดทั้งหมดเหล่านี้เข้าด้วยกันอย่างสมเหตุสมผล เพื่อให้แน่ใจว่าด้านเดียวจะไม่กลายเป็นคอขวด ซึ่งจะกลายเป็นปัญหาทางวิศวกรรมระบบการออกแบบชิปด้วย
GPU และชิป AI ใหม่ ใครมีโอกาสดีกว่ากัน
รุ่นเจเนอเรทีฟมีความต้องการใหม่สำหรับชิป ใครมีโอกาสดีกว่าในการจับความต้องการและตลาดใหม่สำหรับ GPU (แสดงโดย Nvidia และ AMD) และชิป AI ใหม่ (แสดงโดย Habana, GraphCore)
ประการแรก จากมุมมองของโมเดลการกำเนิดตามภาษา ผู้จำหน่าย GPU ที่ปัจจุบันมีเลย์เอาต์ที่สมบูรณ์ในระบบนิเวศประเภทนี้จะได้เปรียบกว่าเนื่องจากมีผู้เข้าร่วมจำนวนมากและต้องการการสนับสนุนการประมวลผลแบบกระจายที่ดี นี่เป็นปัญหาทางวิศวกรรมระบบที่ต้องใช้โซลูชันซอฟต์แวร์และฮาร์ดแวร์ที่สมบูรณ์ และในเรื่องนี้ Nvidia ได้รวม GPU ของตนเพื่อเปิดตัวโซลูชัน Triton ซึ่งรองรับการฝึกอบรมแบบกระจายและการอนุมานแบบกระจาย ทำให้โมเดลสามารถแบ่งออกเป็นหลายส่วนและประมวลผลได้ บน GPU ที่แตกต่างกัน จึงช่วยแก้ปัญหาพารามิเตอร์มากเกินไปที่หน่วยความจำหลักของ GPU ตัวเดียวไม่สามารถรองรับได้ วิธีนี้จะแก้ปัญหาพารามิเตอร์มากเกินไปสำหรับหน่วยความจำหลักของ GPU หนึ่งตัว ไม่ว่าคุณจะใช้ Triton โดยตรงหรือทำการพัฒนาเพิ่มเติมบนพื้นฐานของ Triton ในอนาคต การมี GPU ที่เป็นมิตรกับสิ่งแวดล้อมที่สมบูรณ์จะสะดวกกว่า จากมุมมองของการคำนวณ เนื่องจากการคำนวณหลักของรุ่นที่ใช้ภาษาคือการคำนวณแบบเมทริกซ์ ซึ่งเป็นจุดแข็งของ GPU ชิป AI ใหม่จึงไม่มีข้อได้เปรียบที่ชัดเจนเหนือ GPU จากมุมมองนี้
จากมุมมองของโมเดลการสร้างตามภาพ จำนวนพารามิเตอร์ของโมเดลดังกล่าวก็มีมากเช่นกัน แต่มีขนาดเล็กกว่าโมเดลสร้างตามภาษาหนึ่งถึงสองลำดับ นอกเหนือจากการคำนวณแล้วจะยังคงใช้ในขนาดใหญ่ จำนวนของการคำนวณ convolutional เพื่ออนุมานโปรแกรม ถ้าคุณสามารถทำการเพิ่มประสิทธิภาพที่ดีมาก ชิป AI อาจมีโอกาสบางอย่าง การเพิ่มประสิทธิภาพในที่นี้รวมถึงพื้นที่เก็บข้อมูลบนชิปจำนวนมากเพื่อรองรับพารามิเตอร์และผลการคำนวณระดับกลาง สำหรับการบิดเบี้ยวและการสนับสนุนการดำเนินการเมทริกซ์อย่างมีประสิทธิภาพ
โดยทั่วไปแล้ว ชิป AI รุ่นปัจจุบันได้รับการออกแบบมาเพื่อกำหนดเป้าหมายโมเดลขนาดเล็ก (จำนวนพารามิเตอร์ที่ระดับพันล้าน การคำนวณที่ระดับ 1TOPS) ในขณะที่ความต้องการสำหรับโมเดลเชิงสร้างสรรค์ยังคงค่อนข้างใหญ่กว่าเป้าหมายการออกแบบดั้งเดิม GPU ได้รับการออกแบบให้มีความยืดหยุ่นมากขึ้นโดยคำนึงถึงประสิทธิภาพ ในขณะที่ชิป AI ได้รับการออกแบบให้ทำในสิ่งที่ตรงกันข้าม เพื่อติดตามประสิทธิภาพของแอปพลิเคชันเป้าหมาย ดังนั้นเราจึงเชื่อว่า GPU จะยังคงครองการเร่งความเร็วโมเดลกำเนิดดังกล่าวในปีหรือสองปีถัดไป แต่เมื่อการออกแบบโมเดลเจนเนอเรทีฟมีความเสถียรมากขึ้น และการออกแบบชิป AI มีเวลาที่จะตามทันการทำซ้ำโมเดลเจนเนอเรทีฟ ชิป AI จึงมีโอกาสที่จะเหนือกว่า GPU ในพื้นที่แบบจำลองการกำเนิดจากมุมมองประสิทธิภาพ

