ทีมนักวิจัยจากห้องปฏิบัติการวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์แห่งสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT CSAIL) ประสบความสำเร็จในการพัฒนาระบบที่ช่วยให้หุ่นยนต์สามารถตีความคำสั่งที่คลุมเครือของมนุษย์ได้อย่างแม่นยำ ด้วยการผสานการทำงานของโมเดลภาษาขนาดใหญ่ (Large Language Model หรือ LLM) เข้ากับระบบการเรียนรู้แบบใหม่ นวัตกรรมนี้ไม่เพียงช่วยลดภาระของมนุษย์ในการสอนหุ่นยนต์ แต่ยังทำให้หุ่นยนต์สามารถแยกแยะรายละเอียดที่สำคัญและละทิ้งข้อมูลที่ไม่จำเป็นได้อย่างมีประสิทธิภาพ สู่การนำหุ่นยนต์ (Robot) มาใช้งานจริงในบ้าน สำนักงาน และโรงงานอุตสาหกรรมได้อย่างปลอดภัยและชาญฉลาดมากยิ่งขึ้น
ลองจินตนาการถึงการทำงานในโกดังหรือสำนักงานในอนาคตอันใกล้ที่คุณต้องสอนงานพนักงานใหม่ซึ่งเป็นหุ่นยนต์ โดยปกติแล้วการสอนเครื่องจักรเหล่านี้มักจะต้องใช้วิธีแสดงให้ดูพร้อมกับอธิบายไปด้วย สมมติว่าคุณสั่งให้หุ่นยนต์นำกาแฟมาวางบนโต๊ะโดยไม่รบกวนการประชุมออนไลน์ (Zoom call) ของคุณ คุณย่อมคาดหวังให้หุ่นยนต์ไม่เดินเข้ามาใกล้คุณหรือคอมพิวเตอร์แล็ปท็อปมากเกินไป ในอดีต นักวิทยาศาสตร์คอมพิวเตอร์ (Computer scientists) พยายามแก้ปัญหานี้โดยการบันทึกข้อมูลสาธิตการเคลื่อนไหวจำนวนมหาศาลหรือต้องป้อนคำสั่งอย่างละเอียดถี่ถ้วน เพราะหากขาดสิ่งใดสิ่งหนึ่งไป เครื่องจักรก็มักจะตีความคำสั่งผิดพลาด ซึ่งกระบวนการเหล่านี้ล้วนสร้างภาระหนักให้แก่มนุษย์ผู้ใช้งาน
เพื่อแก้ปัญหานี้ ทีมนักวิจัยจึงได้พัฒนาระบบที่เรียกว่าการเรียนรู้แบบเสริมแรงผกผันที่ใช้การคัดกรองข้อมูล (Masked Inverse Reinforcement Learning หรือ Masked IRL) ซึ่งช่วยทำให้กระบวนการสอนหุ่นยนต์เป็นอัตโนมัติ โดยระบบนี้ใช้ข้อมูลการสาธิตน้อยลงถึงเกือบ 5 เท่า มินยอง ฮวัง (Minyoung Hwang) นักศึกษาระดับปริญญาเอกและนักวิจัยจากสถาบันเทคโนโลยีแมสซาชูเซตส์ อธิบายว่าแนวทางนี้จะเป็นประโยชน์อย่างมากเมื่อมนุษย์ต้องโต้ตอบกับหุ่นยนต์แต่ไม่อยากเสียเวลาอธิบายทุกรายละเอียด ระบบนี้ใช้เซนเซอร์ของหุ่นยนต์เพื่อเก็บข้อมูลสภาพแวดล้อมและบันทึกทุกการเคลื่อนไหวผ่านการสาธิตทางจลนศาสตร์ (Kinesthetic demonstration) ซึ่งเป็นวิธีการที่มนุษย์จับข้อต่อของหุ่นยนต์ให้เคลื่อนไหวไปในทิศทางต่าง ๆ คล้ายกับการทำกายภาพบำบัด เพื่อสอนให้หุ่นยนต์รู้จักการหยิบ จับ และเคลื่อนย้ายสิ่งของ
ระบบจะเรียกใช้งานโมเดลภาษาขนาดใหญ่ตัวแรกเพื่อนำลำดับการเคลื่อนไหวที่เรียกว่าวิถี (Trajectory) มาเปรียบเทียบกับเส้นทางที่สั้นที่สุด พร้อมทั้งขยายความคำสั่งที่คลุมเครือให้ชัดเจนขึ้น เช่น เปลี่ยนคำสั่ง “อยู่ใกล้ ๆ” เป็น “อยู่ใกล้กับพื้นผิวโต๊ะ” จากนั้น โมเดลภาษาขนาดใหญ่ตัวที่สองจะทำหน้าที่ประเมินรายละเอียดของสภาพแวดล้อม เช่น ตำแหน่งของสิ่งกีดขวางและรูปร่างของวัตถุเป้าหมาย ในขั้นตอนนี้ระบบจะทำการบดบังข้อมูล (Masking) หรือการละเว้นข้อมูลที่ปัญญาประดิษฐ์มองว่าไม่เกี่ยวข้องกับงาน โดยให้คะแนนสิ่งสำคัญเป็นเลข “1” และสิ่งที่ไม่สำคัญเป็นเลข “0” ตัวอย่างเช่น หากมนุษย์ยืนพิงโต๊ะระหว่างการสาธิต ระบบจะให้คะแนนความเกี่ยวข้องส่วนนี้เป็น “0” เพื่อให้หุ่นยนต์ไม่ต้องสนใจพฤติกรรมนี้ และนำเฉพาะรายละเอียดที่ได้คะแนน “1” ไปประมวลผลเป็นแผนการเคลื่อนไหว (Motion plan) ขั้นสุดท้ายผ่านอัลกอริทึม (Algorithm)
กลไกการคัดกรองข้อมูลดังกล่าวทำให้ระบบมีความได้เปรียบอย่างมาก หุ่นยนต์สามารถหลบหลีกสิ่งกีดขวางได้อย่างเชี่ยวชาญ ทั้งในโลกเสมือนและโลกความเป็นจริง เช่น การขยับแก้วกาแฟหลบแล็ปท็อปไปวางในจุดต่าง ๆ บนโต๊ะ ระบบสามารถระบุความต้องการแฝงของผู้ใช้งานที่ไม่ได้พูดออกมาได้อย่างถูกต้องและมีความแม่นยำสูงกว่าระบบทั่วไปถึงร้อยละ 15
นอกจากนี้ จากการทดสอบกับแขนกลหุ่นยนต์จริง (Robotic arm) ที่ถูกฝึกสอนด้วยการสาธิตเพียง 50 ครั้ง หุ่นยนต์ก็สามารถนำถ้วยมาส่งให้มนุษย์ได้โดยไม่ชนกับคอมพิวเตอร์ รวมถึงสามารถเช็ดทำความสะอาดโต๊ะและส่งถุงขนมให้ผู้ใช้งานได้อย่างปลอดภัยโดยรักษาระยะห่างที่เหมาะสมตามคำสั่ง
ในปัจจุบัน ระบบดังกล่าวสามารถรับรู้และอธิบายสิ่งที่ผู้ใช้งานละไว้ในฐานที่เข้าใจได้เป็นอย่างดี และในอนาคตอันใกล้ ทีมนักวิจัยมีแผนที่จะทำให้ระบบนี้มีความยืดหยุ่นและตอบสนองได้ดีมากยิ่งขึ้นด้วยการติดตั้งกล้อง เพื่อให้หุ่นยนต์สามารถถ่ายภาพและมองเห็นสภาพแวดล้อมรอบตัวได้จริง ซึ่งจะช่วยให้เครื่องจักรสามารถรับรู้และมุ่งเน้นไปที่วัตถุเป้าหมายเฉพาะเจาะจง พร้อมกับเพิกเฉยต่อสิ่งของที่ไม่เกี่ยวข้องที่วางอยู่ใกล้เคียงกันได้ นวัตกรรมนี้ถือเป็นก้าวสำคัญที่จะช่วยลดช่องว่างในการสื่อสารระหว่างมนุษย์และเครื่องจักร และผลักดันให้การทำงานร่วมกับปัญญาประดิษฐ์ (Artificial Intelligence หรือ AI) ในอนาคตเป็นเรื่องที่ราบรื่นและมีประสิทธิภาพสูงสุด

