เราได้ยินคำว่า BIG DATA มาหลายปี พร้อมทั้งมีแรงผลักดันให้กับหน่วยงานภาครัฐและเอกชนหันมาทำ BIG DATA กันมากขึ้น หากวันหนึ่งคุณมีความจำเป็นต้องใช้ BIG DATA ขึ้นมา แล้วคุณต้องทำอย่างไร และควรต้องเรียนรู้อะไรบ้าง ?  ในบทความนี้ผู้เขียนจะขอทำความเข้าใจกับคุณผู้อ่านแบบง่าย ๆ  ใน 2 ประเด็นที่เป็นประโยชน์หลักสำหรับ "งาน" ของคุณ เพื่อความเข้าใจในมุม BIG DATA ก่อนการตัดสินใจว่างานนั้นเหมาะกับการทำ BIG DATA หรือไม่ ถ้าพร้อมแล้ว เราไปเรียนรู้ด้วยกันครับ
   ถ้าคุณจะใช้งาน BIG DATA คุณต้องเรียนรู้อะไรบ้าง
   1. คุณต้องเรียนรู้ข้อมูลของคุณและข้อมูลใน BIG DATA 
คำว่าข้อมูล หรือ DATA เมื่อจะนำมาใช้ในงาน BIG DATA คุณต้องทำความเข้าใจประเภทของข้อมูลก่อน ดังภาพครับ

         ประเภทของข้อมูลใน BIG DATA เราแบ่งเป็น 2 ประเภท คือ ประเภทข้อมูลที่ถูกสร้างด้วยมนุษย์ เป็นข้อมูลประเภทที่มีโครงสร้าง เช่นพวกไฟล์เอกสาร ฐานข้อมูล เหล่านี้สกัดเอามาทำฐานข้อมูลหรือเก็บเป็น Archive ได้  อีกประเภทคือ ประเภทข้อมูลที่ไม่มีโครงสร้าง เช่นพวกข้อมูลที่เกิดจาก Sensor , IOT, หรือเกิดจากเครื่องประมวลผล เก็บเป็นข้อมูลที่มีอย่างต่อเนื่อง เป็นต้น   คำถามคือ ข้อมูลของคุณที่จะนำมาใช้งานนี้เป็นแบบไหนครับ คำถามต่อไปคือ มันมีความถี่ในการเกิดข้อมูลมากแค่ไหน ถ้าบอกว่า เก็บข้อมูลวันละครั้ง เดือนละครั้ง ปีละครั้ง รวมแล้วไม่เกินล้านข้อมูลต่อปีนำมาประมวลผลกราฟสรุปเป็นไตรมาส โดยความเห็นส่วนตัวของผู้เขียนแนะนำว่า ไม่ควรจัดทำมาเป็น BIG DATA เพราะคุณต้องลงทุนด้าน Infra structure มากขึ้นเพื่อรองรับ Software BIG DATA ดังกล่าว งานคุณใช้เป็นเพียงฐานข้อมูลก็พอครับ  กลับกัน ถ้าข้อมูลของคุณมาทุกวัน ต่อเนื่อง เช่นข้อมูลการขายของร้านสะดวกซื้อยี่สิบสาขาในแต่ละวัน ปริมาณข้อมูลรวมแล้วเกินหลักล้านเรคอร์ดแถมต้องประมวลผลวิเคราะห์อย่างหนักน่วง แบบนี้ครับ BIG DATA จะสามารถช่วยคุณได้ในด้านของการนำเข้าข้อมูลที่รวดเร็วบนฐานข้อมูลรูปแบบใหม่ การประมวลผลที่รวดเร็วกว่าการใช้ฐานข้อมูลแบบเดิมกว่าร้อยเท่า แต่สิ่งที่คุณต้องเรียนรู้เพิ่มเติมคือ การจัดการระบบรวมทั้งฐานข้อมูล BIG DATA แบบใหม่ ๆ ด้วยครับ ต้องประเมินกันแล้วว่าคุ้มหรือไม่ที่จะต้องลงทุนลงแรงและลงเงิน

    2. คุณต้องเรียนรู้ภาพรวมของ BIG DATA
       
เพราะข้อมูลของคุณเป็นเพียงแค่ส่วนหนึ่งใน BIG DATA  ทว่าในภาพรวม จะมีกระบวนการที่เกี่ยวข้องให้คุณต้องเข้าใจ ทางผู้เขียนขอทำเป็นภาพ Infographic ให้ได้เข้าใจง่าย ๆ พร้อมอธิบาย ดังภาพครับ 

           จากภาพ  อธิบายจากซ้ายสุด ด้าน DATA คุณจะพบว่า คุณเข้าใจข้อมูลของคุณที่แยกเป็น 2 ประเภทได้ชัดเจน ข้อมูลของคุณจะมีส่วนที่น่าสนใจอยู่ 3V ที่น่าจะเข้าข่ายทำ BIG DATA ได้แก่ Variety  ข้อมูลคุณมีความหลากหลาย  Velocity ข้อมูลคุณมีความเร็วในการเกิดข้อมูลถี่มาก  Veracity ข้อมูลคุณมีความสำคัญในการสร้างความถูกต้องในองค์กร (เช่นพวก Log พวกข้อมูลนำไปประเมิน ข้อมูลสำคัญ ๆ ขององค์กร) หลังจากนั้น เรามาดูใน ด้าน  Storage  คุณจะพบว่าหากข้อมูลของคุณต้องการเก็บ Raw Data พร้อมทั้งข้อมูลที่มีความหลากหลายมีปริมาณมากขึ้นทวีคูณ คุณจะต้องพิจารณา Volume ที่ใช้งานใน Storage ของคุณ  ในทางกลับกัน หากข้อมูลคุณไม่ได้ใช้ปริมาณมาก คุณใช้เพียง Storage ปกติที่เพิ่มข้อมูลได้เรื่อย ๆ ก็เพียงพอ ถัดมาครับ ด้าน Data Processing  เพราะการนำเข้าข้อมูลของคุณจำเป็นต้องพิจารณาในด้าน Extract Transform Loading [ETL]  หรือการ ELT ที่นำข้อมูลพร้อมใช้งานไปประมวลผล หากข้อมูลของคุณมีปริมาณมหาศาล การใช้ BIG DATA จะเป็นประโยชน์ในด้านการช่วยกันประมวลผลแบบ Cluster ที่ยิ่งมีจำนวน Node มากขึ้น ก็ยิ่งทำให้การประมวลผลเร็วขึ้น  ถัดมาเป็น ด้าน  Data Analytic  ถือเป็นหัวใจของ BIG DATA ที่สามารถประมวลผลผ่านการใช้กระบวนการหรืออัลกอริทึมที่เกี่ยวข้องได้อย่างรวดเร็วมากกว่าการใช้งานซอฟต์แวร์ประมวลผลข้อมูลด้านอื่น ๆ อันมีสาเหตุมาจากกระบวนการจัดเก็บฐานข้อมูลและการประมวลผลในรูปแบบ BIG DATA ที่รวดเร็วและมีความเสถียรของระบบนั่นเอง   ด้านสุดท้ายที่คุณจำเป็นต้องรู้และเข้าใจมากที่สุดสำหรับงานและข้อมูลของคุณคือ ด้าน Data Visualization คือการนำเสนอข้อมูลของคุณกับผู้ใช้ให้เข้าใจได้ง่ายและทรงพลังในรูปแบบของคุณ ซึ่งเป็น Value ของงานที่สำคัญมาก  แต่ทราบไหมครับ ในความจริงแล้ว แม้คุณจะสร้างโมดูลการนำเสนอที่แปลกใหม่เร้าใจขนาดไหน ผู้รับฟังข้อมูลไม่ได้ตื่นเต้นกับสิ่งที่อยู่ตรงหน้ามากไปกว่าการเข้าใจข้อมูลที่อยู่ตรงหน้าในระยะเวลาสั้น ๆ  นี่คือโจทย์สำคัญในการนำเสนอข้อมูลของคุณครับ
        โดยสรุปแล้ว เมื่ออ่านบทความมาจนถึงบรรทัดนี้ ผู้เขียนหวังว่าคุณผู้อ่านจะได้ทราบถึง 2 ประเด็นหลักๆ ที่ควรเข้าใจก่อนใช้งานหรือลงแรงไปกับ BIG DATA แล้วนะครับ ส่วนใครที่ตัดสินใจจะใช้ BIG DATA แล้วอยากรู้ว่า ต้องเริ่มเรียนรู้อะไร อย่างไร แค่ไหน ไว้ติดตามตอนหน้าครับ  ภาพที่อยู่ในบทความนี้ คุณสามารถโหลดนำไปใช้งานเพื่อการศึกษาได้ฟรี จากเว็บไซต์ oer ของ สวทช. ที่นี่ครับ  https://oer.learn.in.th/search_detail/result/87542   และที่นี่ครับ https://oer.learn.in.th/search_detail/result/87543   สุดท้ายนี้ ขอข้อมูลของคุณจงเป็นประโยชน์และใช้เทคโนโลยีให้ถูกต้องตรงกับงานที่จะเกิดขึ้นต่อไปอย่างยั่งยืนครับ 

 

MTEC
BIOTEC
NECTEC
NANOTEC

tsp

AIMI

nctc

ตราโลโก้ ศูนย์เทคโนโลยีเพื่อความมั่นคงของประเทศและการประยุกต์เชิงพาณิชย์ (Logo of National Security and Dual-Use Technology Center: NSD)

ฐานข้อมูลหน่วยงานภาครัฐ

 
สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.)
เป็นหน่วยงานของรัฐที่จัดตั้งขึ้นเพื่อศึกษาวิจัยและพัฒนาทางด้านวิทยาศาสตร์ และเทคโนโลยีเพื่อการพัฒนาประเทศไทย ไม่ได้มีวัตถุประสงค์เพื่อแสวงหากำไร
หากท่านพบว่ามีข้อมูลใดๆ ที่ละเมิดทรัพย์สินทางปัญญาปรากฏอยู่ในเว็บไซต์ของสำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
โปรดแจ้งให้ทราบเพื่อดำเนินการแก้ปัญหาดังกล่าวโดยเร็วที่สุดต่อไป