ในบทความที่แล้ว ได้มีการพูดทักษะการทำงานกับข้อมูล ในภาคทฤษฎีกันไปแล้ว วันนี้จึงขอนำมาพูดอีกครั้ง ในภาคปฏิบัติกันบ้าง เพื่อให้ท่านผู้อ่านได้เห็นภาพของกระบวนการการทำงานกับข้อมูล
ขั้นตอนที่ 1: หาชุดข้อมูล (Dataset) ที่ตนเองสนใจ
ในการหา Dataset สามารถหาได้จากหลายแหล่งแต่ส่วนใหญ่แล้ว อาจจะเป็นข้อมูลจากต่างประเทศ อย่างไรก็ตาม สำหรับรัฐบาลไทยนั้นได้มอบหมายให้สำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน) ทำโครงการ DGA Open Government License โดย มีมากถึง 1,158 รายการ ให้ลองดาวน์โหลดไปใช้งาน
สำหรับผมเองตามที่ได้ทราบกันว่า ผมได้มาทำงานที่ประเทศกัมพูชา (ในบทความนี้) ผมจึงลองนำ Dataset ที่มีชื่อว่า “ข้อมูลจุดผ่านแดนระหว่างไทยกับประเทศเพื่อนบ้าน”
โดยเป็นข้อมูลจุดผ่านแดนระหว่างไทยกับประเทศเพื่อนบ้าน กลุ่มเป้าหมายที่จะนำข้อมูลไปใช้คือประชาชนไทยและประชาชนประเทศเพื่อนบ้านซึ่งจะได้รับข้อมูลว่ามีจุดผ่านแดนที่ใดบ้าง วันเวลาทำการของจุดผ่านแดนแต่ละแห่ง เพื่ออำนวยความสะดวกในการเดินทางเข้า-ออก
ขั้นตอนที่ 2: ตรวจสอบข้อมูลให้ถูกต้อง (Data Cleansing)
เมื่อทำการดาวน์โหลดไฟล์ CSV มาแล้วก็มาตรวจสอบดูว่ามีข้อมูลที่หายไป (Missing Data) บ้างหรือไม่ นอกจากนี้ต้องดูว่าข้อมูลนั้น อยู่ในหน่วยเดียวกันรูปแบบเดียวกันหรือไม่ ก่อนที่จะนำข้อมูลไปใช้งานต่อไป
เท่าที่ตรวจสอบดูพบว่า ข้อมูลชุดนี้มีข้อมูลที่จำเป็นต่อการทำการวิเคราะห์ข้อมูล จึงเป็นข้อมูลที่ไม่จำเป็นต้องทำ Data Cleansing
แต่ถ้าต้องการวิเคราะห์ให้ลึกกว่านี้ต้องทำ Data Cleansing อาทิ การจัดรูปแบบของปี พ.ศ. แยกข้อมูลออกเป็นระดับจังหวัด อำเภอ เป็นต้น
ขั้นตอนที่ 3: แปลงข้อมูลเป็นภาพ (Data Visualization)
หลังจากนั้นให้นำข้อมูลไปใช้วิเคราะห์ บางท่านอาจจะถนัดโปรแกรม MS Excel แต่ในที่นี้ผมขออนุญาตใช้ The R Project for Statistical Computing เมื่อทำการวิเคราะห์แล้วจึงได้ดังภาพด้านล่าง (กดที่ชื่อบริเวณใต้ภาพเพื่อไปยังโปรแกรม Interactive)
ขั้นตอนที่ 4: สรุปผลที่ได้
1. จุดผ่านแดนชั่วคราว มีอยู่แค่ 2 ที่เท่านั้น คือ จังหวัดกาญจนบุรีกับประเทศพม่า และ จังหวัดนครพนมกับประเทศลาว
2. ในขณะที่ส่วนใหญ่แล้วประเทศไทยมีจุดผ่อนปรนกับจุดผ่านแดนถาวรกับประเทศเพื่อนบ้านเท่า ๆ กัน โดยประเทศเพื่อนบ้านนั้นประกอบไปด้วย ประเทศกัมพูชา ประเทศพม่า ประเทศมาเลเซีย และประเทศลาว
3.เมื่อมองจำนวนจุดผ่านแดนของประเทศกับประเทศเพื่อนบ้าน พบว่า ประเทศไทยมีจุดผ่านแดนกับประเทศลาวมากที่สุด (ดูจากจำนวนวงกลมสีดำ) ในขณะที่มีจุดผ่านแดนกับประเทศมาเลเซียน้อยที่สุด (ดูจากจำนวนวงกลมสีม่วง)
จะเห็นได้ว่าการทำ Data Analysis นั้น จะทำให้สามารถสรุปผลของข้อมูลได้ดีกว่าที่จะเปิดดูในรูปแบบของตารางงาน เพราะสามารถเห็นภาพได้ชัดเจนกว่าและโอกาสผิดพลาดมีน้อยกว่า