หน้าแรก เปิดตัว “ThaiLLM” โครงสร้างพื้นฐาน AI สัญชาติไทย เพื่อคนไทย

เปิดตัว “ThaiLLM” โครงสร้างพื้นฐาน AI สัญชาติไทย เพื่อคนไทย

2 มี.ค. 2569
0
ข่าว
ข่าวประชาสัมพันธ์
บทความ
ผลงานวิจัยเด่น

เปิดตัว “ThaiLLM” โครงสร้างพื้นฐาน AI สัญชาติไทย เพื่อคนไทย

 

ปัจจุบันการแข่งขันด้านปัญญาประดิษฐ์ (Artificial Intelligence: AI) ระดับโลกได้ขยายจากการพัฒนาแอปพลิเคชันเฉพาะทางไปสู่การสร้าง foundation model หรือโมเดลรากฐาน ซึ่งเป็นระบบ AI ขนาดใหญ่ที่นำไปต่อยอดใช้งานได้หลายบริบท หลายประเทศชั้นนำต่างเร่งลงทุนด้วยงบประมาณมหาศาลเพื่อพัฒนาโมเดลนี้เป็นของตนเอง ด้วยตระหนักว่า AI คือโครงสร้างพื้นฐานใหม่ของเศรษฐกิจดิจิทัล

กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัยและนวัตกรรม (อว.) โดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) ร่วมกับสถาบันข้อมูลขนาดใหญ่ (BDI), สถาบันวิทยสิริเมธี (VISTEC), สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT), สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT), มหาวิทยาลัยมหิดล และจุฬาลงกรณ์มหาวิทยาลัย พัฒนา ThaiLLM โมเดล AI ที่เชี่ยวชาญทั้งภาษาและบริบทของประเทศไทย เพื่อใช้เป็นโครงสร้างพื้นฐานระบบนิเวศ AI ของประเทศ โดยได้รับการสนับสนุนทุนวิจัยจากกองทุนพัฒนาดิจิทัลเพื่อเศรษฐกิจและสังคม (DEF)

Foundation Model แตกต่างจากโมเดลทั่วไปอย่างไร ?

foundation model คือ โมเดล AI ที่มีบทบาทสำคัญในฐานะการเป็นรากฐานของระบบ AI ต่าง ๆ เมื่อมีโมเดลรากฐาน ภาครัฐ ภาคเอกชน รวมถึงภาควิจัย สามารถนำโมเดลนี้ไปปรับแต่งต่อยอด (fine-tune) ได้โดยไม่ต้องเริ่มจากศูนย์ ทำให้ประหยัดทั้งทรัพยากรและเวลาในการพัฒนา รวมถึงลดการพึ่งพาเทคโนโลยีจากต่างประเทศได้เป็นอย่างดี

ดร.ศราวุธ คงยัง นักวิจัยทีมวิจัยการยกระดับปัญญาประดิษฐ์ เนคเทค สวทช. ผู้พัฒนา Thai LLM
ดร.ศราวุธ คงยัง นักวิจัยทีมวิจัยการยกระดับปัญญาประดิษฐ์ เนคเทค สวทช.

ดร.ศราวุธ คงยัง นักวิจัยทีมวิจัยการยกระดับปัญญาประดิษฐ์ เนคเทค สวทช. อธิบายว่า สาเหตุหลักที่ต้องพัฒนา foundation model เป็นของประเทศไทย เนื่องจากภาษาไทยมีโครงสร้างภาษาที่แตกต่างจากภาษาอังกฤษ มีภาษาถิ่น ภาษาราชการ อีกทั้งมีวิถีชีวิตและวัฒนธรรมที่เฉพาะตัว ดังนั้นหากใช้โมเดลที่ฝึกด้วยข้อมูลต่างประเทศเป็นหลักก็อาจขาดความเข้าใจบริบทไทยในเชิงลึก

“การพึ่งพาการใช้งานโมเดลจากต่างประเทศยังทำให้ประเทศไทยมีข้อจำกัดด้านอธิปไตยของข้อมูล ทั้งการกำหนดเงื่อนไขการจัดเก็บ การประมวลผล และการเข้าถึง โดยเฉพาะกรณีการใช้งานภายในองค์กรที่มีความอ่อนไหวและต้องการมาตรการความปลอดภัยสูง จากความท้าทายดังกล่าว สวทช. และพันธมิตรจึงได้ร่วมกันพัฒนา foundation model ของประเทศไทยขึ้นในชื่อ ThaiLLM เพื่อเป็นโครงสร้างพื้นฐานระบบนิเวศ AI ของประเทศไทย”

“ThaiLLM” โครงสร้างพื้นฐาน AI สัญชาติไทย เพื่อคนไทย

ทั้งนี้ทีมภาคีผู้พัฒนาได้รับการสนับสนุนการใช้งานเครื่องซูเปอร์คอมพิวเตอร์ในการเทรนโมเดล ThaiLLM จากศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) เนคเทค สวทช. ซึ่งช่วยประหยัดเวลาและค่าใช้จ่ายอย่างมากเมื่อเทียบกับการใช้บริการของต่างประเทศ รวมถึงช่วยรักษาอธิปไตยของข้อมูลตามเป้าหมายการพัฒนา ThaiLLM

เครื่องซูเปอร์คอมพิวเตอร์ LANTA ให้บริการโดยศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) เนคเทค สวทช.
เครื่องซูเปอร์คอมพิวเตอร์ LANTA ให้บริการโดย ThaiSC สวทช.

“ThaiLLM” พร้อมให้บริการโมเดลที่ “เชี่ยวชาญทั้งภาษาและบริบทไทย”

ในเดือนมกราคมที่ผ่านมา ทีมภาคีผู้พัฒนาได้เปิดให้บริการ ThaiLLM แล้ว 2 ขนาด คือ 8 พันล้านพารามิเตอร์ และ 3 หมื่นล้านพารามิเตอร์ โดยจำนวนพารามิเตอร์ที่มากขึ้นสะท้อนถึงความสามารถในการประมวลผลที่สูงขึ้นตามไปด้วย ทั้งนี้ ThaiLLM ผ่านการทดสอบแล้วว่าประมวลภาษาและวัฒนธรรมไทยได้ทัดเทียมโมเดลขนาดใหญ่ระดับสากล ซึ่งในอนาคตทีมภาคีผู้พัฒนายังมีแผนเปิดให้บริการโมเดลที่มีจำนวนพารามิเตอร์สูงขึ้นต่อไป

ดร.ศราวุธ อธิบายว่า ThaiLLM มีความเชี่ยวชาญด้านภาษาและบริบทของไทย เนื่องจากผ่านการเทรนด้วยฐานข้อมูลภาษาไทยที่มีความครอบคลุมและหลากหลาย เช่น ภาษาไทยที่มีการใช้งานทั่วไปในชีวิตประจำวันหรือภาษาธรรมชาติ ข้อมูลวิถีชีวิตและวัฒนธรรม ข้อมูลจากเอกสารราชการ ข้อมูลการศึกษา ข้อมูลจากบทความงานวิจัย ข้อมูลจากเอกสารพระราชกฤษฎีกา ทำให้เรียนรู้ความเป็นไทยเพิ่มเติมจากโมเดลฐานที่นำมาพัฒนามากกว่า 100,000 ล้านโทเคน (100B+ tokens) หรือใกล้เคียงกับ 100,000 ล้านคำ

“ขณะนี้ภาคีผู้พัฒนาได้เปิดให้ใช้งาน ThaiLLM โดยไม่คิดค่าบริการ ผ่านเว็บไซต์ https://thaillm.or.th/ ซึ่งให้บริการทั้งหมด 3 รูปแบบ รูปแบบแรก คือ playground เป็นพื้นที่ให้นักพัฒนาโมเดล AI และประชาชนทั่วไปที่สนใจทดลองใช้งานโมเดลขนาด 8 พันล้านพารามิเตอร์ รูปแบบที่สอง คือ API (Application Programming Interface) เหมาะสำหรับผู้ที่ต้องการนำโมเดลไปพัฒนาและปรับแต่งเชิงลึก โดยไม่จำเป็นต้องใช้คอมพิวเตอร์สมรรถนะสูง และรูปแบบสุดท้าย คือ โมเดลเหมาะสำหรับผู้ที่ต้องการนำโมเดลไปพัฒนาและปรับแต่งเชิงลึก”

อินโฟกราฟิกนำเสนอ Thai LLM โมเดลโครงสร้างพื้นฐานด้าน AI ระดับประเทศ ที่ใช้ข้อมูลในการพัฒนามากกว่า 100,000 ล้านโทเคน ครอบคลุมเนื้อหาสำคัญ 6 ด้าน ได้แก่ ภาษา, ภาษาราชการ, วัฒนธรรม, การศึกษา, งานวิจัย และการแพทย์ ปัจจุบันเปิดให้ใช้งานฟรีใน 2 ขนาด คือ 8 พันล้านพารามิเตอร์ และ 3 หมื่นล้านพารามิเตอร์ ผ่าน 3 รูปแบบหลัก ได้แก่ Playground สำหรับทดลองใช้, API สำหรับผู้ที่ไม่มีคอมพิวเตอร์สมรรถนะสูง และการดาวน์โหลด Model ไปพัฒนาต่อยอดเชิงลึก (1/4)
อินโฟกราฟิกนำเสนอ Thai LLM โมเดลโครงสร้างพื้นฐานด้าน AI ระดับประเทศ ที่ใช้ข้อมูลในการพัฒนามากกว่า 100,000 ล้านโทเคน ครอบคลุมเนื้อหาสำคัญ 6 ด้าน ได้แก่ ภาษา, ภาษาราชการ, วัฒนธรรม, การศึกษา, งานวิจัย และการแพทย์ ปัจจุบันเปิดให้ใช้งานฟรีใน 2 ขนาด คือ 8 พันล้านพารามิเตอร์ และ 3 หมื่นล้านพารามิเตอร์ ผ่าน 3 รูปแบบหลัก ได้แก่ Playground สำหรับทดลองใช้, API สำหรับผู้ที่ไม่มีคอมพิวเตอร์สมรรถนะสูง และการดาวน์โหลด Model ไปพัฒนาต่อยอดเชิงลึก (2/4)
อินโฟกราฟิกนำเสนอ Thai LLM โมเดลโครงสร้างพื้นฐานด้าน AI ระดับประเทศ ที่ใช้ข้อมูลในการพัฒนามากกว่า 100,000 ล้านโทเคน ครอบคลุมเนื้อหาสำคัญ 6 ด้าน ได้แก่ ภาษา, ภาษาราชการ, วัฒนธรรม, การศึกษา, งานวิจัย และการแพทย์ ปัจจุบันเปิดให้ใช้งานฟรีใน 2 ขนาด คือ 8 พันล้านพารามิเตอร์ และ 3 หมื่นล้านพารามิเตอร์ ผ่าน 3 รูปแบบหลัก ได้แก่ Playground สำหรับทดลองใช้, API สำหรับผู้ที่ไม่มีคอมพิวเตอร์สมรรถนะสูง และการดาวน์โหลด Model ไปพัฒนาต่อยอดเชิงลึก (3/4)
อินโฟกราฟิกนำเสนอ Thai LLM โมเดลโครงสร้างพื้นฐานด้าน AI ระดับประเทศ ที่ใช้ข้อมูลในการพัฒนามากกว่า 100,000 ล้านโทเคน ครอบคลุมเนื้อหาสำคัญ 6 ด้าน ได้แก่ ภาษา, ภาษาราชการ, วัฒนธรรม, การศึกษา, งานวิจัย และการแพทย์ ปัจจุบันเปิดให้ใช้งานฟรีใน 2 ขนาด คือ 8 พันล้านพารามิเตอร์ และ 3 หมื่นล้านพารามิเตอร์ ผ่าน 3 รูปแบบหลัก ได้แก่ Playground สำหรับทดลองใช้, API สำหรับผู้ที่ไม่มีคอมพิวเตอร์สมรรถนะสูง และการดาวน์โหลด Model ไปพัฒนาต่อยอดเชิงลึก (4/4)

“โมเดลสัญชาติไทย” ใช้งานได้จริง เตรียมเดินหน้าสู่ “Agentic AI”

หลังจากการเปิดตัว ThaiLLM มีพันธมิตรหลายรายนำโมเดลไปใช้เพิ่มความเชี่ยวชาญด้านภาษาและบริบทไทยให้แก่โมเดลที่มีอยู่แล้วหลายตัว เช่น THaLLE (ทะเล) โดย KBTG, Typhoon (ไต้ฝุ่น) โดย SCB 10X รวมถึง OpenThaiGPT และ Pathumma LLM ที่พัฒนาโดยเนคเทค สวทช. และพันธมิตร

ดร.ศราวุธ เล่าว่า ทิศทางต่อไปของการพัฒนานอกจากการเพิ่มจำนวนพารามิเตอร์และจำนวนข้อมูลที่ใช้เทรน ThaiLLM ทีมวิจัยจากเนคเทค สวทช. ยังมีแผนพัฒนา Agentic AI ซึ่งหมายถึงการพัฒนาโมเดล AI ขนาดเล็กที่มีความเชี่ยวชาญเฉพาะทาง โดยมีตัวควบคุมกลางทำหน้าที่คล้ายวาทยกรคอยกำหนดลำดับขั้นตอน มอบหมายงาน และประสานการทำงานของแต่ละส่วนให้สอดคล้องกันอย่างเป็นระบบ ผลที่เกิดขึ้นคือ AI จะประมวลผลได้เร็วขึ้น มีความเชี่ยวชาญเฉพาะทางมากยิ่งขึ้น ขณะที่ใช้ทรัพยากรในการทำงานลดลง

“เนคเทค สวทช. และพันธมิตรยังมุ่งเป้าพัฒนา Pathumma LLM ซึ่งเป็นโมเดล AI ที่มีฟังก์ชัน multi-modal หรือรองรับการประมวลผลข้อมูลทั้งที่เป็นข้อความ ภาพ และเสียง ดังที่เปิดให้บริการทั้งรูปแบบ playground, API และโมเดลแล้วตั้งแต่ปี 2567 ให้ประมวลได้มีประสิทธิภาพ และมีความเชี่ยวชาญทั้งภาษาและบริบทไทยมากยิ่งขึ้นด้วย”

Agentic AI

ระบบนิเวศ AI เข้มแข็งต้องแกร่งทั้งโครงสร้างพื้นฐานและกำลังคน

การจะพัฒนาระบบนิเวศปัญญาประดิษฐ์ให้ยั่งยืนได้ สิ่งสำคัญที่ต้องพัฒนาเคียงคู่กันไปกับเทคโนโลยี คือ การพัฒนากำลังคนที่มีความรู้ ความเชี่ยวชาญ เพื่อร่วมขับเคลื่อนการนำ AI ไปใช้เสริมการพัฒนาเศรษฐกิจและสังคม

ดร.ศราวุธ เล่าว่า ตั้งแต่เดือนตุลาคมปี 2568 สวทช. และพันธมิตรได้จัดกิจกรรมพัฒนากำลังคนผ่านหลักสูตร 4 ระดับ ได้แก่ หลักสูตรเริ่มต้นสำหรับผู้เริ่มต้นใช้งาน AI, หลักสูตรการสร้าง AI สำหรับให้บริการระบบสืบค้นข้อมูลและการปรับแต่งโมเดล AI, หลักสูตรการพัฒนาโมเดล AI ที่เชี่ยวชาญภาษาและบริบทไทย และสุดท้ายคือหลักสูตรสำหรับนักวิจัยที่ต้องการทำวิจัยในหัวข้อการพัฒนาระบบปัญญาประดิษฐ์ โดยหลักสูตรทั้ง 4 นี้ครอบคลุมกลุ่มเป้าหมายตั้งแต่นักเรียน นักศึกษา โปรแกรมเมอร์ ไปจนถึงนักวิจัย ปัจจุบันมีผู้เข้าร่วมเรียนรู้แล้วรวมมากกว่า 700 คน และยังคงเดินหน้าจัดกิจกรรมให้ความรู้ต่อในปี 2569 อย่างต่อเนื่อง สำหรับผู้ที่สนใจสามารถติดตามการเปิดรับสมัครหลักสูตรต่าง ๆ ผ่านเฟซบุ๊ก AI Thailand Community

การพัฒนา ThaiLLM และกำลังคนอย่างเข้มแข็งเพื่อขับเคลื่อนระบบนิเวศ AI อย่างเป็นรูปธรรม ผ่านพลังความร่วมมือของภาครัฐ เอกชน และประชาชน คือจุดเปลี่ยนครั้งสำคัญที่จะยกระดับบทบาทของประเทศไทยจากผู้ใช้งานสู่ผู้สร้าง ผู้พัฒนา และผู้กำหนดทิศทางอนาคตของระบบนิเวศ AI ได้อย่างมั่นคงและยั่งยืน

ผู้เข้าร่วมกิจกรรมพัฒนากำลังคนด้าน AI

ผู้เข้าร่วมกิจกรรมพัฒนากำลังคนด้าน AI

ผู้เข้าร่วมกิจกรรมพัฒนากำลังคนด้าน AI

ผู้เข้าร่วมกิจกรรมพัฒนากำลังคนด้าน AI


เรียบเรียงโดย ภัทรา สัปปินันทน์ ฝ่ายสร้างสรรค์สื่อและผลิตภัณฑ์ สวทช.
อาร์ตเวิร์กโดย ภัทรา สัปปินันทน์
ภาพประกอบโดย ภัทรา สัปปินันทน์, ภาพจาก AI Thailand Community และภาพจาก Shutterstock

แชร์หน้านี้: