กรุงเทพฯ ประเทศไทย

4 กระบวนการที่น่าสนใจในการทำงานกับข้อมูล

pexels photo 577585 1

ในบทความที่แล้ว ได้มีการพูดทักษะการทำงานกับข้อมูล ในภาคทฤษฎีกันไปแล้ว วันนี้จึงขอนำมาพูดอีกครั้ง ในภาคปฏิบัติกันบ้าง เพื่อให้ท่านผู้อ่านได้เห็นภาพของกระบวนการการทำงานกับข้อมูล

 

ขั้นตอนที่ 1: หาชุดข้อมูล (Dataset) ที่ตนเองสนใจ

Data.go.th โดย DGA
Data.go.th โดย DGA

ในการหา Dataset สามารถหาได้จากหลายแหล่งแต่ส่วนใหญ่แล้ว อาจจะเป็นข้อมูลจากต่างประเทศ อย่างไรก็ตาม สำหรับรัฐบาลไทยนั้นได้มอบหมายให้สำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน) ทำโครงการ DGA Open Government License โดย มีมากถึง 1,158 รายการ ให้ลองดาวน์โหลดไปใช้งาน

 

ข้อมูลจุดผ่านแดนระหว่างไทยกับประเทศเพื่อนบ้าน

 

สำหรับผมเองตามที่ได้ทราบกันว่า ผมได้มาทำงานที่ประเทศกัมพูชา (ในบทความนี้) ผมจึงลองนำ Dataset ที่มีชื่อว่า ข้อมูลจุดผ่านแดนระหว่างไทยกับประเทศเพื่อนบ้าน”

 

โดยเป็นข้อมูลจุดผ่านแดนระหว่างไทยกับประเทศเพื่อนบ้าน กลุ่มเป้าหมายที่จะนำข้อมูลไปใช้คือประชาชนไทยและประชาชนประเทศเพื่อนบ้านซึ่งจะได้รับข้อมูลว่ามีจุดผ่านแดนที่ใดบ้าง วันเวลาทำการของจุดผ่านแดนแต่ละแห่ง เพื่ออำนวยความสะดวกในการเดินทางเข้า-ออก

DOWNLOAD ที่นี่

 

ขั้นตอนที่ 2: ตรวจสอบข้อมูลให้ถูกต้อง (Data Cleansing)

 

ไฟล์ CSV ภาษาไทยมักจะมีปัญหาเป็นภาษาต่างดาว ต้องแปลงให้ภาษาไทยก่อนตรวจ

 

เมื่อทำการดาวน์โหลดไฟล์ CSV มาแล้วก็มาตรวจสอบดูว่ามีข้อมูลที่หายไป (Missing Data) บ้างหรือไม่ นอกจากนี้ต้องดูว่าข้อมูลนั้น อยู่ในหน่วยเดียวกันรูปแบบเดียวกันหรือไม่ ก่อนที่จะนำข้อมูลไปใช้งานต่อไป

 

เท่าที่ตรวจสอบดูพบว่า ข้อมูลชุดนี้มีข้อมูลที่จำเป็นต่อการทำการวิเคราะห์ข้อมูล จึงเป็นข้อมูลที่ไม่จำเป็นต้องทำ Data Cleansing

 

แต่ถ้าต้องการวิเคราะห์ให้ลึกกว่านี้ต้องทำ Data Cleansing อาทิ การจัดรูปแบบของปี พ.ศ. แยกข้อมูลออกเป็นระดับจังหวัด อำเภอ เป็นต้น

 

ขั้นตอนที่ 3: แปลงข้อมูลเป็นภาพ (Data Visualization)

 

โลโก้โปรแกรม R
โลโก้โปรแกรม R

 

หลังจากนั้นให้นำข้อมูลไปใช้วิเคราะห์ บางท่านอาจจะถนัดโปรแกรม MS Excel แต่ในที่นี้ผมขออนุญาตใช้ The R Project for Statistical Computing เมื่อทำการวิเคราะห์แล้วจึงได้ดังภาพด้านล่าง (กดที่ชื่อบริเวณใต้ภาพเพื่อไปยังโปรแกรม Interactive)

 

กราฟแสดงจังหวัดของไทย จุดผ่านแดน และประเทศเพื่อนบ้าน

 

กราฟแสดงจังหวัดของไทยและประเทศเพื่อนบ้าน

 

ขั้นตอนที่ 4: สรุปผลที่ได้

 

 

1. จุดผ่านแดนชั่วคราว มีอยู่แค่ 2 ที่เท่านั้น คือ จังหวัดกาญจนบุรีกับประเทศพม่า และ จังหวัดนครพนมกับประเทศลาว

 

 

2. ในขณะที่ส่วนใหญ่แล้วประเทศไทยมีจุดผ่อนปรนกับจุดผ่านแดนถาวรกับประเทศเพื่อนบ้านเท่า ๆ กัน โดยประเทศเพื่อนบ้านนั้นประกอบไปด้วย ประเทศกัมพูชา ประเทศพม่า ประเทศมาเลเซีย และประเทศลาว

 

 

3.เมื่อมองจำนวนจุดผ่านแดนของประเทศกับประเทศเพื่อนบ้าน พบว่า ประเทศไทยมีจุดผ่านแดนกับประเทศลาวมากที่สุด (ดูจากจำนวนวงกลมสีดำ) ในขณะที่มีจุดผ่านแดนกับประเทศมาเลเซียน้อยที่สุด (ดูจากจำนวนวงกลมสีม่วง)

 

จะเห็นได้ว่าการทำ Data Analysis นั้น จะทำให้สามารถสรุปผลของข้อมูลได้ดีกว่าที่จะเปิดดูในรูปแบบของตารางงาน เพราะสามารถเห็นภาพได้ชัดเจนกว่าและโอกาสผิดพลาดมีน้อยกว่า

เนื้อหาน่าสนใจในระดับใด

โปรดให้คะแนน

คะแนนเฉลี่ย 0 / 5. นับคะแนน 0

ยังไม่มีใครให้คะแนนเลย มาเป็นคนแรกที่ให้คะแนนกันเถอะ

 

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *