8 Best practices ใน Data science

  1. กำหนดเป้าหมายที่ต้องการบรรลุ: ขั้นตอนแรกและถือว่าเป็นหนึ่งในขั้นตอนที่สำคัญที่สุดสำหรับงานด้าน Data science คือ การกำหนดโจทย์ที่สำคัญทางธุรกิจที่ต้องการแก้ไข หรือ การกำหนดเป้าหมายที่สำคัญทางธุรกิจที่ต้องการบรรลุ การกำหนดโจทย์หรือเป้าหมายนี้ควรให้ผู้มีส่วนได้ส่วนเสียเข้ามามีส่วนร่วมในการกำหนดด้วย เพื่อให้แน่ใจว่าเป็นโจทย์หรือเป้าหมายที่ทุกคนที่เกี่ยวข้องเห็นร่วมกันว่าสำคัญ
  2. ระบุข้อมูลที่ต้องการ: คือการทำความเข้าใจว่ามีข้อมูลใดบ้างและข้อมูลที่มีอยู่นั้นเพียงพอที่จะตอบโจทย์หรือเป้าหมายที่สำคัญทางธุรกิจที่กำหนดไว้ในข้อ 1 หรือไม่ บ่อยครั้งที่ข้อมูลพื้นฐานไม่ได้อยู่ในรูปแบบที่ถูกต้อง มีข้อผิดพลาด (error) หรือความผิดปกติ ดังนั้นจึงจำเป็นต้องทำความสะอาด (clean) ข้อมูลเหล่านั้นก่อน เพื่อไม่ให้ส่งผลกระทบต่อการวิเคราะห์และผลลัพธ์
  3. ใช้เครื่องมือที่เหมาะสม: ปัจจุบันมีเครื่องมือวิเคราะห์ข้อมูลให้เลือกหลากหลาย ทั้งนี้ควรตรวจสอบให้แน่ใจว่าเครื่องมือวิเคราะห์ข้อมูลดังกล่าวรองรับข้อมูลที่เปลี่ยนแปลงอย่างรวดเร็วและต่อเนื่องตลอดเวลา และ รองรับข้อมูลที่มีความซับซ้อนซึ่งเพิ่มขึ้นเรื่อยๆ หรือไม่ อย่างไร เพื่อให้การทำงานมีประสิทธิภาพยิ่งขึ้น
  4. ปกป้องฟีดข้อมูล: การโจมตีทางไซเบอร์ในองค์กรเกิดขึ้นบ่อยครั้งในช่วงไม่กี่ปีที่ผ่านมา ดังนั้นจึงจำเป็นที่องค์กรจะต้องใช้พัฒนากลไกเพื่อป้องกันเรื่องดังกล่าว เช่น Two-Factor Authentication หรือ การยืนยันตัวตนแบบสองขั้นตอน (เช่น บริการธนาคารออนไลน์ที่ต้องยืนยันตัวตนด้วยรหัสผ่าน และ OTP) หรือ การเข้ารหัสและการแฮช (hash) ข้อมูลที่ละเอียดอ่อน หรือ การแบ่งย่อยข้อมูลและการผสมข้อมูลย่อยทั้งหมดเข้าด้วยกันเพื่อให้ได้ผลลัพธ์สุดท้าย เพื่อป้องกันช่องโหว่ที่อาจเกิดขึ้นในระบบจัดเก็บหรือคลังข้อมูลขององค์กร
  5. ส่งเสริมการทำงานร่วมกัน: ในองค์กรควรมีการสร้างวัฒนธรรมของการทำงานร่วมกัน มีการเรียนรู้และการต่อยอดงานที่คล้ายคลึงกันที่คนอื่นๆ เคยทำไว้ก่อนหน้า เพื่อไม่ต้องเสียเวลาและทรัพยากรกลับไปเริ่มนับ 0 รวมถึงการส่งเสริมทำงานร่วมกันกับชุมชนภายนอกองค์กร
  6. ขับเคลื่อนด้วยข้อมูล: จำเป็นอย่างยิ่งที่จะต้องมีการปลูกฝังความคิดเรื่องการขับเคลื่อนด้วยข้อมูลภายในองค์กร บางกรณีข้อมูลที่ค้นพบอาจตรงข้ามกัน แต่สิ่งสำคัญคือการที่คนในองค์กรยินดีที่จะเข้าใจผลลัพธ์เหล่านี้และทำตามขั้นตอนที่จำเป็นเพื่อจัดการกับผลลัพธ์ที่ได้
  7. จัดทำแผนปฏิบัติการ: คุณค่าที่แท้จริงจาก Data science ไม่ได้มาจากการค้นพบสิ่งที่น่าสนใจ แต่เป็นการดำเนินการกับผลลัพธ์ที่ค้นพบ องค์กรควรมีแผนปฏิบัติการที่ชัดเจนซึ่งระบุขั้นตอนการดำเนินงานและระบุผู้รับผิดชอบหรือผู้ขับเคลื่อนหลัก 
  8. ทดสอบและตรวจสอบความถูกต้องเป็นประจำ: การทดสอบและตรวจสอบความถูกต้องของโมเดลและผลลัพธ์เป็นประจำเป็นสิ่งสำคัญ ผู้ที่เกี่ยวข้องในการดำเนินงานในองค์กรต้องพร้อมที่จะทดสอบและตรวจสอบความถูกต้องของโมเดลและผลลัพธ์เป็นประจำ เพื่อให้แน่ใจว่าโมเดลและผลลัพธ์มีความเกี่ยวข้องกับธุรกิจที่กำลังพัฒนา

ที่มาข้อมูล:

Mohammad, Z. (2017, March 30). 8 Best practices in data science [Blog post]. Retrieved from https://www.datascience.com/blog/eight-data-science-best-practices

MTEC
BIOTEC
NECTEC
NANOTEC

tsp

AIMI

nctc

ตราโลโก้ ศูนย์เทคโนโลยีเพื่อความมั่นคงของประเทศและการประยุกต์เชิงพาณิชย์ (Logo of National Security and Dual-Use Technology Center: NSD)

ฐานข้อมูลหน่วยงานภาครัฐ

 
สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.)
เป็นหน่วยงานของรัฐที่จัดตั้งขึ้นเพื่อศึกษาวิจัยและพัฒนาทางด้านวิทยาศาสตร์ และเทคโนโลยีเพื่อการพัฒนาประเทศไทย ไม่ได้มีวัตถุประสงค์เพื่อแสวงหากำไร
หากท่านพบว่ามีข้อมูลใดๆ ที่ละเมิดทรัพย์สินทางปัญญาปรากฏอยู่ในเว็บไซต์ของสำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
โปรดแจ้งให้ทราบเพื่อดำเนินการแก้ปัญหาดังกล่าวโดยเร็วที่สุดต่อไป