การค้นคืนสารสนเทศข้ามภาษา หรือการสืบค้นข้ามภาษา (Cross-Language Information Retrieval หรือ CLIR) เป็นส่วนหนึ่งของการสืบค้นหรือการค้นคืนสารสนเทศ  หมายถึง การค้นคืนสารสนเทศซึ่งภาษาที่แสดงในเอกสารไม่ตรงกับภาษาที่ใช้เป็นคำค้น  เนื่องจากเอกสารหรือสารสนเทศมีหลากหลายภาษา การใช้คำค้นด้วยภาษาใดภาษาหนึ่ง จะทำให้ไม่สามารถค้นคืนข้อมูลที่มีอยู่เป็นจำนวนมากแต่อาจจะแสดงอยู่ในภาษาอื่นๆ ไม่ได้ถูกดึงขึ้นมา เช่น การใช้คำภาษาไทยเป็นคำค้น จะทำให้ไม่พบเอกสารที่เขียนด้วยภาษาอื่น ตัวอย่าง เช่น ถ้าต้องการสืบค้นคำว่า ฐานข้อมูล ก็จะพบเฉพาะเอกสารที่มีเฉพาะคำว่า ฐานข้อมูลในเอกสารภาษาไทยเท่านั้น ข้อมูลเรื่องฐานข้อมูลในเอกสารภาษาอื่นๆ จะไม่ได้ถูกดึงขึ้นมา ซึ่งจะเป็นการพลาดโอกาสในการใช้เอกสารที่มีประโยชน์ได้

การใช้เทคนิคการค้นคืนข้ามภาษานี้ จะเป็นการเพิ่มศักยภาพของระบบ ทำให้ผู้ใช้สามารถสืบค้นเอกสารได้หลากหลายภาษา คนแต่ละเชื้อชาติ มักจะคุ้นเคยกับภาษาประจำชาติของตน การนึกคำค้นจึงแคบอยู่แต่ในภาษาของตนเอง การมีระบบการค้นคืนข้ามภาษาจึงเป็นตัวช่วยได้เป็นอย่างดี ตัวอย่าง เช่น ค้นคำว่า ฐานข้อมูล ในระบบอาจจะใช้วิธีการขยายคำค้นคืนเป็น "ฐานข้อมูล OR database" ก็จะทำให้ได้ข้อมูลไม่ว่าเป็นเอกสารในภาษาไทยหรืออังกฤษ เป็นต้น

ในบทความนี้ ขอนำเสนอเพียงประสบการณ์ในการช่วยหาคำแปลคำค้นในภาษาไทย หรือการแปลคิวรี่ (query) เท่านั้น เพื่อนำมาพัฒนาต่อในส่วนที่เป็นการสืบค้นข้ามภาษา แต่จะไม่กล่าวถึงส่วนของการพัฒนาระบบแต่อย่างใด

ในฐานะที่อยู่ในวงการบรรณารักษศาสตร์และสารสนเทศศาสตร์ ขอกล่าวถึงการกำหนดคำค้น/หัวเรื่อง/คำสำคัญ เป็นการให้ข้อมูลเป็นเบื้องต้น เพื่อจะได้โยงไปถึงเหตุผลในการกำหนดคำค้น/หัวเรื่อง/คำสำคัญเพื่อสนับสนุนการสืบค้นข้ามภาษาที่จะกล่าวถึงต่อไป

แต่เดิม ในลงรายการทรัพยากรสารสนเทศของบรรณารักษ์นั้น การกำหนดคำค้นหรือหัวเรื่องจะยึดถือตามแนวปฏิบัติของกำหนดหัวเรื่อง ซึ่งเป็นการกำหนดด้วยภาษาควบคุมหรือคำศัพท์ควบคุม (Controlled vocaburaly) โดยยึดถือเอาภาษาของเอกสารเป็นสำคัญในการลงรายการในระเบียนทางบรรณานุกรมของระบบห้องสมุด รวมทั้งการกำหนดคำค้น/หัวเรื่อง/คำสำคัญ แม้ว่าต่อมาจะมีการขยายการกำหนดโดยเพิ่มเป็นอีกภาษาหนึ่งนั้น ก็อาจจะทำเป็นบางประเภทของทรัพยากรสารสนเทศ ยังมิได้มีการจัดทำกับสารสนเทศโดยทั่วไป ด้วยเหตุต้องใช้เวลาในการแปลคำศัพท์จากภาษาไทยเป็นภาษาอังกฤษ หรือเทียบภาษาอังกฤษเป็นภาษาไทย และน่าจะมีการปรับการกำหนดคำค้น/หัวเรื่อง/คำสำคัญ ขึ้นอีกช่วงหนึ่ง เนื่องจากการเข้ามาของ web 2.0 และ social media อื่นๆ ที่ผู้ใช้เป็นผู้สร้างเนื้อหา (content) เองสามารถกำหนดคำค้น (tag) ขึ้นด้วยตนเอง รูปโฉมของการกำหนดคำค้น/หัวเรื่อง/คำสำคัญของบรรณารักษ์หรือผู้ปฏิบัติงานทางด้านสารสนเทศ ก็ควรจะมีการเปลี่ยนหรือปรับตัวกันไปตามเทคโนโลยี ทั้งนี้ ก็เพื่อให้ผู้ใช้นึกถึงคำค้นที่กลายเป็นภาษาธรรมชาติ (natural language) มากขึ้น การกำหนดคำค้น/หัวเรื่อง/คำสำคัญ จึงอาจจะมีได้ทั้งคำศัพท์ควบคุมหรือภาษาควบคุม หรือคำจากภาษาธรรมชาติก็ได้ และคำจากภาษาธรรมชาติอาจจะกลายเป็นคำศัพท์ควบคุมหรือภาษาควบคุมในภายหลังก็เป็นได้

การจัดเตรียมคำศัพท์เพื่อนำไปพัฒนาและสนับสนุนการสืบค้นข้ามภาษานั้น เป็นการแปลคิวรี่ (query)โดย

  1. แปลคำศัพท์ภาษาอังกฤษเป็นภาษาไทย ซึ่งมีการกำหนดเป็นคำในภาษาไทยอยู่แล้ว โดยการแปลอย่างเป็นทางการโดยราชบัณฑิตยสถาน การกำหนดเป็นคำค้นในระบบห้องสมุด หรือแม้แต่เป็นการแปลโดยนักวิชาการซึ่งก็มีหลายสถาบัน/หน่วยงานที่อาจจะกำหนดใช้แตกต่างกันตามลักษณะของการนำไปใช้ของแต่ละองค์กร หรือการกำหนดเป็นภาษาไทยขึ้นเอง จึงทำให้เกิดมีความหลากหลายในการใช้คำภาษาไทยกับคำภาษาอังกฤษเพียงคำเดียว เช่น
    anaerobic การพร่องออกซิเจน;ที่ไม่มีออกซิเจน;ที่ไม่มีอากาศ;แอนแอโรบิค
    amebiasis อะมีบิเอซิส;โรคจากเชื้อบิดอะมีบา;โรคบิดมีตัว;บิด;โรคบิด;บิดอะมีบา;อะมีบา
    anamnesis ความสามารถจำ;ประวัติการป่วย (แพทยศาสตร์);การย้อนรำลึก (วรรณกรรม)
     
  2. แปลเพิ่มเติมเพื่อให้มีการเข้าถึงมากขึ้น เนื่องจากพบว่า มีการใช้อยู่ในบางคำที่พบ เช่น
    alginic acid กรดแอลจินิก; แอลจินิกแอซิด
    และเพิ่มการเขียนที่แตกต่าง
    alginic acid  กรดแอลจินิก;กรดอัลจินิก;แอลจินิกแอซิด;อัลจินิกแอซิด
    ZnO      ซิงค์ออกไซด์;สังกะสีออกไซด์
     
  3. ใช้คำทับศัพท์ ซึ่งพบว่า มีการเขียนหลายแบบ เช่น
    Alkalies อัลคาไล;อัลคาไลน์;แอลคาไลน์
    Alkaloids อัลคาลอยด์;แอลคาลอยด์
    alpha thalassemia แอลฟา-ธาลัสซีเมีย;อัลฟา-ธาลัสซีเมีย
    Aluminum Silicates  อลูมินัมซิลิเคท;อะลูมินัมซิลิเคท;อะลูมิเนียมซิลิเคท;อลูมิเนียมซิลิเคท;อลูมินัมซิลิเคต;อะลูมินัมซิลิเคต;อะลูมิเนียมซิลิเคต;อลูมิเนียมซิลิเคต
    aneuploidy อะนิวพลอยดีย์;อนูปลอยดี
    polymer พอลิเมอร์; โพลิเมอร์
    Actins     แอคติน;แอกทิน
     
  4. กำหนดเองโดยผู้เขียนเนื้อหา กล่าวคือ ผู้เขียนมีการกำหนดคำแปลขึ้นเอง เช่น
    Anaerobic baffled reactor ถังปฏิกรณ์แผ่นกั้นไร้อากาศ;ถังปฏิกรณ์ไร้อากาศแบบแผ่นกั้น;เครื่องปฏิกรณ์แผ่นกั้นไร้อากาศ;เครื่องปฏิกรณ์ไร้อากาศแบบแผ่นกั้น
     
  5. คงคำศัพท์เป็นภาษาอังกฤษ ถ้าไม่สามารถหาได้ หลีกเลี่ยงในการท้บศัพท์เอง เพื่อป้องกันการคลาดเคลื่อน ได้แก่ สูตร ชื่อทางเคมี ชื่อทางพฤกษศาสตร์ ชื่อสปีชีย์ ชื่อเชื้อโรค เช่น
    4 (4 fluorophenyl) 2 (4 methylsulfinylphenyl)
    5 (4 pyridyl)imidazole
    Aigialus parvus
    Weissella cibaria
    ตัวย่อ ซึ่งเมื่อต้องแปลเป็นภาษาไทย ทำให้ต้องทำความเข้าใจว่าน่าจะเกี่ยวข้องกับสาขาใด เรื่องใด และอาจจะเกี่ยวข้องกับหลายสาขา บางครั้งจึงต้องคงคำภาษาอังกฤษนั้นไว้ เช่น XCS, VSM เป็นต้น
     
  6. การให้คำสำคัญ คำค้น หัวเรื่อง เป็นวลี ทำให้แปลแล้วอาจจะไม่ได้ใจความ จึงคงภาษาอังกฤษไว้ เช่น
    waste facility, walking difficulty เป็นต้น
     
  7. การให้คำสำคัญ คำค้น หัวเรื่อง หลากหลายวิธีเขียน จึงต้องพยายามจัดกลุ่มคำและเพื่อให้เขียนเป็นแบบแผนเดียวกัน เช่น
    X ray diffraction การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X- ray diffractions การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X-Ray Diffraction การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X-ray diffraction การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน
    X-ray diffractions การเลี้ยวเบนรังสีเอกซ์;เอกซเรย์ดิฟแฟรกชัน

ประสบการณ์ที่ได้นำเสนอเบื้องต้น เป็นการดำเนินการโดยความเข้าใจของผู้เขียนเท่านั้น ซึ่งกำหนดโดยพิจารณาว่าพยายามหาคำค้น/หัวเรื่อง/คำสำคัญ ให้ได้มากที่สุดเพื่อประโยชน์ในการสืบค้นข้ามภาษา ยังต้องมีการทดลองถึงการใช้คำเหล่านี้ต่อการสืบค้นต่อไป


 

MTEC
BIOTEC
NECTEC
NANOTEC

tsp

AIMI

nctc

ผลงานวิจัยพร้อมถ่ายทอด

ฐานข้อมูลหน่วยงานภาครัฐ

 
สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.)
เป็นหน่วยงานของรัฐที่จัดตั้งขึ้นเพื่อศึกษาวิจัยและพัฒนาทางด้านวิทยาศาสตร์ และเทคโนโลยีเพื่อการพัฒนาประเทศไทย ไม่ได้มีวัตถุประสงค์เพื่อแสวงหากำไร
หากท่านพบว่ามีข้อมูลใดๆ ที่ละเมิดทรัพย์สินทางปัญญาปรากฏอยู่ในเว็บไซต์ของสำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
โปรดแจ้งให้ทราบเพื่อดำเนินการแก้ปัญหาดังกล่าวโดยเร็วที่สุดต่อไป