สำหรับภาษา Python นั้นเหมาะกับการทำ Data Analysis อย่างมาก
เนื่องจากมี ecosystem และพวก library ต่าง ๆ ให้ใช้มากมาย
แต่ในความมากมายนั้น กลับกลายเป็นภัยสำหรับผู้เริ่มต้น

ดังนั้นจึงสรุป library หลัก ๆ สำหรับผู้เริ่มต้นไว้นิดหน่อย
ค่อย ๆ ศึกษาและใช้งานกันไปนะ

เริ่มจากเรื่องพื้น ๆ ก่อนเลยคือ Python นั่นเอง

เป็นสิ่งที่ขาดไปไม่ได้เลย
ทั้งเรื่องของการติดตั้ง Python
ทั้งเรื่องการติดตั้ง library ต่าง ๆ
รวมทั้งอาจจะนำเครื่องมือที่เป็นประโยชน์ต่าง ๆ มาใช้
เช่น Anaconda, iPython เป็นต้น

ตลอดจนรูปแบบของภาษา Python
เรื่องของ Data Structure ต่าง ๆ
เรื่องของ List comprehension
ดังนั้นพื้นฐานจึงสำคัญมาก ๆ
จะทำให้เราสามารถศึกษาเรื่องอื่น ๆ ได้อย่างรวดเร็วมากขึ้น

จากนั้นจึงเริ่มนำ library พื้นฐานสำหรับ Data Analysis มาใช้

ประกอบไปด้วย

  • NumPy สำหรับการจัดการข้อมูลในรูปแบบ array หลายมิติ ซึ่งมีประสิทธิภาพที่สูงมาก ๆ และมี operation ต่าง ๆ เพื่ออำนวยความสะดวก
  • SciPy เป็นส่วนขยายต่อจาก NumPy สำหรับ operation ต่าง ๆ มากยิ่งขึ้น
  • Matplotlib เป็นส่วนการแสดงผลในรูปแบบ visualization
  • Jypyter เป็นเครื่องมือที่สร้างอยู่บน iPython แต่เป็น interative บน web browser ทำให้เราสามารถเขียน code, execute code และเอกสารต่าง ๆ อยู่ที่เดียวกัน เป็นเครื่องมือที่พลาดไม่ได้เลย

ต่อมาคือเรื่องของการจัดการและวิเคราะห์ข้อมูล

เป็นสิ่งที่จำเป็นอย่างมากในกระบวนการทำงาน เช่น

  • การ load ข้อมูล
  • การ cleaning ข้อมูล
  • การจัดการ missing value
  • การ tranform ข้อมูล
  • การวิเคราะห์ข้อมูล

ซึ่งมี library ที่ได้รับความนิยมมาก ๆ ประกอบไปด้วย

  • Pandas เป็น library ที่ได้รับความนิยมสุด ๆ สำหรับ Data Science เนื่องจากมี data structure ที่ดีและเครื่องมือในการวิเคราะห์ข้อมูลให้ครบ
  • xarray ได้รับแรงบันดาลในมาจาก Pandas นั่นเอง แต่สร้างมาเพื่อทำงานกับ array หลายมิติโดยเฉพาะ
  • scikit-learn เป็น library สำหรับ Machine Learning ที่ได้รับความนิยมสุด ๆ โดยมี algorithm ต่าง ๆ ทาง Machine Learning ให้ใช้งานอย่างครบครัน

เพียงเท่านี้ก็น่าจะทำให้ผู้เริ่มต้นอ้วกกันเป็นแถว ๆ แล้ว

แต่ก็ยังมี library อื่น ๆ ที่ต่อยอดมาจากสิ่งต่าง ๆ เหล่านี้อีกนะ
ก็เลือกใช้งานกันตามความต้องการ เช่น

  • Statsmodels ทำการเตรียม algorithm ต่าง ๆ ในเชิงสถิติไว้เพียบ และสามารถทำงานรวมกับ Pandas ได้เลย
  • seaborn สำหรับการ plot ข้อมูลในรูปแบบต่าง ๆ
  • Bokeh สำหรับการ plot ข้อมูลในรูปแบบ interactive ที่สวยงาม

แต่เหนือสิ่งอื่นใด พื้นฐานมันสำคัญมาก ๆ
ขอให้สนุกกับการ coding ครับ