Post Views: 11,312

เปิดตัว “ThaiLLM” โครงสร้างพื้นฐาน AI สัญชาติไทย เพื่อคนไทย

2 มี.ค. 2569

ข่าว

ข่าวประชาสัมพันธ์

บทความ

ผลงานวิจัยเด่น

เปิดตัว “ThaiLLM” โครงสร้างพื้นฐาน AI สัญชาติไทย เพื่อคนไทย

ปัจจุบันการแข่งขันด้านปัญญาประดิษฐ์ (Artificial Intelligence: AI) ระดับโลกได้ขยายจากการพัฒนาแอปพลิเคชันเฉพาะทางไปสู่การสร้าง foundation model หรือโมเดลรากฐาน ซึ่งเป็นระบบ AI ขนาดใหญ่ที่นำไปต่อยอดใช้งานได้หลายบริบท หลายประเทศชั้นนำต่างเร่งลงทุนด้วยงบประมาณมหาศาลเพื่อพัฒนาโมเดลนี้เป็นของตนเอง ด้วยตระหนักว่า AI คือโครงสร้างพื้นฐานใหม่ของเศรษฐกิจดิจิทัล

กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัยและนวัตกรรม (อว.) โดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) ร่วมกับสถาบันข้อมูลขนาดใหญ่ (BDI), สถาบันวิทยสิริเมธี (VISTEC), สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT), สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT), มหาวิทยาลัยมหิดล และจุฬาลงกรณ์มหาวิทยาลัย พัฒนา ThaiLLM โมเดล AI ที่เชี่ยวชาญทั้งภาษาและบริบทของประเทศไทย เพื่อใช้เป็นโครงสร้างพื้นฐานระบบนิเวศ AI ของประเทศ โดยได้รับการสนับสนุนทุนวิจัยจากกองทุนพัฒนาดิจิทัลเพื่อเศรษฐกิจและสังคม (DEF)

Foundation Model แตกต่างจากโมเดลทั่วไปอย่างไร ?

foundation model คือ โมเดล AI ที่มีบทบาทสำคัญในฐานะการเป็นรากฐานของระบบ AI ต่าง ๆ เมื่อมีโมเดลรากฐาน ภาครัฐ ภาคเอกชน รวมถึงภาควิจัย สามารถนำโมเดลนี้ไปปรับแต่งต่อยอด (fine-tune) ได้โดยไม่ต้องเริ่มจากศูนย์ ทำให้ประหยัดทั้งทรัพยากรและเวลาในการพัฒนา รวมถึงลดการพึ่งพาเทคโนโลยีจากต่างประเทศได้เป็นอย่างดี

ดร.ศราวุธ คงยัง นักวิจัยทีมวิจัยการยกระดับปัญญาประดิษฐ์ เนคเทค สวทช. ผู้พัฒนา Thai LLM — ดร.ศราวุธ คงยัง นักวิจัยทีมวิจัยการยกระดับปัญญาประดิษฐ์ เนคเทค สวทช.

ดร.ศราวุธ คงยัง นักวิจัยทีมวิจัยการยกระดับปัญญาประดิษฐ์ เนคเทค สวทช. อธิบายว่า สาเหตุหลักที่ต้องพัฒนา foundation model เป็นของประเทศไทย เนื่องจากภาษาไทยมีโครงสร้างภาษาที่แตกต่างจากภาษาอังกฤษ มีภาษาถิ่น ภาษาราชการ อีกทั้งมีวิถีชีวิตและวัฒนธรรมที่เฉพาะตัว ดังนั้นหากใช้โมเดลที่ฝึกด้วยข้อมูลต่างประเทศเป็นหลักก็อาจขาดความเข้าใจบริบทไทยในเชิงลึก

“การพึ่งพาการใช้งานโมเดลจากต่างประเทศยังทำให้ประเทศไทยมีข้อจำกัดด้านอธิปไตยของข้อมูล ทั้งการกำหนดเงื่อนไขการจัดเก็บ การประมวลผล และการเข้าถึง โดยเฉพาะกรณีการใช้งานภายในองค์กรที่มีความอ่อนไหวและต้องการมาตรการความปลอดภัยสูง จากความท้าทายดังกล่าว สวทช. และพันธมิตรจึงได้ร่วมกันพัฒนา foundation model ของประเทศไทยขึ้นในชื่อ ThaiLLM เพื่อเป็นโครงสร้างพื้นฐานระบบนิเวศ AI ของประเทศไทย”

ทั้งนี้ทีมภาคีผู้พัฒนาได้รับการสนับสนุนการใช้งานเครื่องซูเปอร์คอมพิวเตอร์ในการเทรนโมเดล ThaiLLM จากศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) เนคเทค สวทช. ซึ่งช่วยประหยัดเวลาและค่าใช้จ่ายอย่างมากเมื่อเทียบกับการใช้บริการของต่างประเทศ รวมถึงช่วยรักษาอธิปไตยของข้อมูลตามเป้าหมายการพัฒนา ThaiLLM

เครื่องซูเปอร์คอมพิวเตอร์ LANTA ให้บริการโดยศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) เนคเทค สวทช. — เครื่องซูเปอร์คอมพิวเตอร์ LANTA ให้บริการโดย ThaiSC สวทช.

“ThaiLLM” พร้อมให้บริการโมเดลที่ “เชี่ยวชาญทั้งภาษาและบริบทไทย”

ในเดือนมกราคมที่ผ่านมา ทีมภาคีผู้พัฒนาได้เปิดให้บริการ ThaiLLM แล้ว 2 ขนาด คือ 8 พันล้านพารามิเตอร์ และ 3 หมื่นล้านพารามิเตอร์ โดยจำนวนพารามิเตอร์ที่มากขึ้นสะท้อนถึงความสามารถในการประมวลผลที่สูงขึ้นตามไปด้วย ทั้งนี้ ThaiLLM ผ่านการทดสอบแล้วว่าประมวลภาษาและวัฒนธรรมไทยได้ทัดเทียมโมเดลขนาดใหญ่ระดับสากล ซึ่งในอนาคตทีมภาคีผู้พัฒนายังมีแผนเปิดให้บริการโมเดลที่มีจำนวนพารามิเตอร์สูงขึ้นต่อไป

ดร.ศราวุธ อธิบายว่า ThaiLLM มีความเชี่ยวชาญด้านภาษาและบริบทของไทย เนื่องจากผ่านการเทรนด้วยฐานข้อมูลภาษาไทยที่มีความครอบคลุมและหลากหลาย เช่น ภาษาไทยที่มีการใช้งานทั่วไปในชีวิตประจำวันหรือภาษาธรรมชาติ ข้อมูลวิถีชีวิตและวัฒนธรรม ข้อมูลจากเอกสารราชการ ข้อมูลการศึกษา ข้อมูลจากบทความงานวิจัย ข้อมูลจากเอกสารพระราชกฤษฎีกา ทำให้เรียนรู้ความเป็นไทยเพิ่มเติมจากโมเดลฐานที่นำมาพัฒนามากกว่า 100,000 ล้านโทเคน (100B+ tokens) หรือใกล้เคียงกับ 100,000 ล้านคำ

“ขณะนี้ภาคีผู้พัฒนาได้เปิดให้ใช้งาน ThaiLLM โดยไม่คิดค่าบริการ ผ่านเว็บไซต์ https://thaillm.or.th/ ซึ่งให้บริการทั้งหมด 3 รูปแบบ รูปแบบแรก คือ playground เป็นพื้นที่ให้นักพัฒนาโมเดล AI และประชาชนทั่วไปที่สนใจทดลองใช้งานโมเดลขนาด 8 พันล้านพารามิเตอร์ รูปแบบที่สอง คือ API (Application Programming Interface) เหมาะสำหรับผู้ที่ต้องการนำโมเดลไปพัฒนาและปรับแต่งเชิงลึก โดยไม่จำเป็นต้องใช้คอมพิวเตอร์สมรรถนะสูง และรูปแบบสุดท้าย คือ โมเดลเหมาะสำหรับผู้ที่ต้องการนำโมเดลไปพัฒนาและปรับแต่งเชิงลึก”

อินโฟกราฟิกนำเสนอ Thai LLM โมเดลโครงสร้างพื้นฐานด้าน AI ระดับประเทศ ที่ใช้ข้อมูลในการพัฒนามากกว่า 100,000 ล้านโทเคน ครอบคลุมเนื้อหาสำคัญ 6 ด้าน ได้แก่ ภาษา, ภาษาราชการ, วัฒนธรรม, การศึกษา, งานวิจัย และการแพทย์ ปัจจุบันเปิดให้ใช้งานฟรีใน 2 ขนาด คือ 8 พันล้านพารามิเตอร์ และ 3 หมื่นล้านพารามิเตอร์ ผ่าน 3 รูปแบบหลัก ได้แก่ Playground สำหรับทดลองใช้, API สำหรับผู้ที่ไม่มีคอมพิวเตอร์สมรรถนะสูง และการดาวน์โหลด Model ไปพัฒนาต่อยอดเชิงลึก (1/4)

“โมเดลสัญชาติไทย” ใช้งานได้จริง เตรียมเดินหน้าสู่ “Agentic AI”

หลังจากการเปิดตัว ThaiLLM มีพันธมิตรหลายรายนำโมเดลไปใช้เพิ่มความเชี่ยวชาญด้านภาษาและบริบทไทยให้แก่โมเดลที่มีอยู่แล้วหลายตัว เช่น THaLLE (ทะเล) โดย KBTG, Typhoon (ไต้ฝุ่น) โดย SCB 10X รวมถึง OpenThaiGPT และ Pathumma LLM ที่พัฒนาโดยเนคเทค สวทช. และพันธมิตร

ดร.ศราวุธ เล่าว่า ทิศทางต่อไปของการพัฒนานอกจากการเพิ่มจำนวนพารามิเตอร์และจำนวนข้อมูลที่ใช้เทรน ThaiLLM ทีมวิจัยจากเนคเทค สวทช. ยังมีแผนพัฒนา Agentic AI ซึ่งหมายถึงการพัฒนาโมเดล AI ขนาดเล็กที่มีความเชี่ยวชาญเฉพาะทาง โดยมีตัวควบคุมกลางทำหน้าที่คล้ายวาทยกรคอยกำหนดลำดับขั้นตอน มอบหมายงาน และประสานการทำงานของแต่ละส่วนให้สอดคล้องกันอย่างเป็นระบบ ผลที่เกิดขึ้นคือ AI จะประมวลผลได้เร็วขึ้น มีความเชี่ยวชาญเฉพาะทางมากยิ่งขึ้น ขณะที่ใช้ทรัพยากรในการทำงานลดลง

“เนคเทค สวทช. และพันธมิตรยังมุ่งเป้าพัฒนา Pathumma LLM ซึ่งเป็นโมเดล AI ที่มีฟังก์ชัน multi-modal หรือรองรับการประมวลผลข้อมูลทั้งที่เป็นข้อความ ภาพ และเสียง ดังที่เปิดให้บริการทั้งรูปแบบ playground, API และโมเดลแล้วตั้งแต่ปี 2567 ให้ประมวลผลได้มีประสิทธิภาพ และมีความเชี่ยวชาญทั้งภาษาและบริบทไทยมากยิ่งขึ้นด้วย”

Agentic AI

ระบบนิเวศ AI เข้มแข็งต้องแกร่งทั้งโครงสร้างพื้นฐานและกำลังคน

การจะพัฒนาระบบนิเวศปัญญาประดิษฐ์ให้ยั่งยืนได้ สิ่งสำคัญที่ต้องพัฒนาเคียงคู่กันไปกับเทคโนโลยี คือ การพัฒนากำลังคนที่มีความรู้ ความเชี่ยวชาญ เพื่อร่วมขับเคลื่อนการนำ AI ไปใช้เสริมการพัฒนาเศรษฐกิจและสังคม

ดร.ศราวุธ เล่าว่า ตั้งแต่เดือนตุลาคมปี 2568 สวทช. และพันธมิตรได้จัดกิจกรรมพัฒนากำลังคนผ่านหลักสูตร 4 ระดับ ได้แก่ หลักสูตรเริ่มต้นสำหรับผู้เริ่มต้นใช้งาน AI, หลักสูตรการสร้าง AI สำหรับให้บริการระบบสืบค้นข้อมูลและการปรับแต่งโมเดล AI, หลักสูตรการพัฒนาโมเดล AI ที่เชี่ยวชาญภาษาและบริบทไทย และสุดท้ายคือหลักสูตรสำหรับนักวิจัยที่ต้องการทำวิจัยในหัวข้อการพัฒนาระบบปัญญาประดิษฐ์ โดยหลักสูตรทั้ง 4 นี้ครอบคลุมกลุ่มเป้าหมายตั้งแต่นักเรียน นักศึกษา โปรแกรมเมอร์ ไปจนถึงนักวิจัย ปัจจุบันมีผู้เข้าร่วมเรียนรู้แล้วรวมมากกว่า 700 คน และยังคงเดินหน้าจัดกิจกรรมให้ความรู้ต่อในปี 2569 อย่างต่อเนื่อง สำหรับผู้ที่สนใจสามารถติดตามการเปิดรับสมัครหลักสูตรต่าง ๆ ผ่านเฟซบุ๊ก AI Thailand Community”

การพัฒนา ThaiLLM และกำลังคนอย่างเข้มแข็งเพื่อขับเคลื่อนระบบนิเวศ AI อย่างเป็นรูปธรรม ผ่านพลังความร่วมมือของภาครัฐ เอกชน และประชาชน คือจุดเปลี่ยนครั้งสำคัญที่จะยกระดับบทบาทของประเทศไทยจากผู้ใช้งานสู่ผู้สร้าง ผู้พัฒนา และผู้กำหนดทิศทางอนาคตของระบบนิเวศ AI ได้อย่างมั่นคงและยั่งยืน

ผู้เข้าร่วมกิจกรรมพัฒนากำลังคนด้าน AI

เรียบเรียงโดย ภัทรา สัปปินันทน์ ฝ่ายสร้างสรรค์สื่อและผลิตภัณฑ์ สวทช.
อาร์ตเวิร์กโดย ภัทรา สัปปินันทน์
ภาพประกอบโดย ภัทรา สัปปินันทน์, ภาพจาก AI Thailand Community และภาพจาก Shutterstock

2 มี.ค. 2569