data-science Archive

PandasGUI :: ทำการวิเคราะห์การทำงานของ Pandas แบบ GUI กัน

สำหรับคนที่ทำงานสาย data ไม่น่าจะพลาดกับการใช้งาน library ชื่อว่า Pandas ซึ่งช่วยให้การจัดการข้อมูลเป็นเรื่องที่ง่ายและรวดเร็วขึ้นเป็นอย่างมาก แถมมี community ที่แข็งแรงและ active อย่างมาก อีกทั้งยังมีเครื่องมือแวดล้อมถูกสร้างขึ้นมามากมาย ไม่ว่าจะเป็น SweetViz Pandas profiling Bamboolib แต่มีอีกเครื่องมือหนึ่งที่น่าใช้มาก ๆ คือ Pandas

Read More…

สรุปเรื่อง The Practice of Data Science

จากบทความเรื่อง Demystifying Data Science For All ทำการบักทึกการพูดเกี่ยวกับ The Practice of Data Science หรือแนวปฏิบัติของ Data Science ประกอบไปด้วย People คือ คน หน้าที่ และ ความสามารถ ต้องทำงานเป็นทีม Process คือขั้นตอนการทำงานของ Data Science Tool คือเครื่องมือและ platform ต่าง ๆ มีความน่าสนใจอย่างมาก จึงทำการแปลและสรุปไว้นิดหน่อย

Read More…

สรุปเกี่ยวกับเรื่องของข้อมูลในปี 2018 จาก O’Reilly

ทาง O’Reilly ทำการสรุปทิศทางเกี่ยวกับข้อมูลในปี 2018 รวมทั้งแนวโน้มในการจัดการข้อมูล ทั้งคน องค์กร ทั้งเครื่องมือ ทั้ง algorithm ทั้ง machine learning ทั้ง analytic ทั้ง infrastructure ทั้งจริยธรรมในการใช้ข้อมูล มาดูกันว่ามีอะไรที่น่าสนใจบ้าง

Read More…

Docker สำหรับ Data Science

มีโอกาสคุยกับกลุ่มในสาย Data Science พบว่า ปัญหาหลัก ๆ ของคนกลุ่มนี้คือ เรื่องการจัดการ environment ที่ใช้งาน ประกอบไปด้วย ปัญหาในการติดตั้ง software ปัญหาในการติดตั้ง library หรือ dependency ต่าง ๆ ปัญหาในการ configuration และ setting ค่าต่าง ๆ ทำให้ขั้นตอนการวิเคราะห์ข้อมูลมันช้าอย่างมาก บางคนใช้ได้ บางคนใช้ไม่ได้ บางองค์กรต้องรอให้ฝ่าย IT มาทำการติดตั้งให้ ถ้าขั้นตอนการทำงานช้า ก็รอกันต่อไป หรือแม้แต่การนำเครื่องมือใหม่ ๆ มาใช้ ก็ยากเย็นเหลือเกิน

Read More…

[Python] เตรียมข้อมูลให้พร้อมสำหรับการวิเคราะห์ ด้วย Pandas library กัน

ระหว่างนั่งรอเครื่องบินไปจังหวัดเชียงใหม่ เจอข้อมูลที่น่าสนใจจาก sensor เกี่ยวกับสภาวะอากาศ จึงนำมาใช้ฝึกการ cleaning ข้อมูลด้วย Pandas library กันหน่อย โดยขั้นตอนการทำงานประกอบไปด้วย อ่านข้อมูลจากไฟล์ CSV ทำการจัดเรียงข้อมูล ทำการ transform ข้อมูลในแต่ละ column ทำการจัดการเรื่อง missing value การ plotting หรือแสดงข้อมูลในรูปแบบ graph มาเริ่มกันหน่อย

Read More…

[Python] สรุป library เกี่ยวกับ Data Analysis สำหรับผู้เริ่มต้นไว้นิดหน่อย

สำหรับภาษา Python นั้นเหมาะกับการทำ Data Analysis อย่างมาก เนื่องจากมี ecosystem และพวก library ต่าง ๆ ให้ใช้มากมาย แต่ในความมากมายนั้น กลับกลายเป็นภัยสำหรับผู้เริ่มต้น ดังนั้นจึงสรุป library หลัก ๆ สำหรับผู้เริ่มต้นไว้นิดหน่อย ค่อย ๆ ศึกษาและใช้งานกันไปนะ

Read More…

สรุปแนวโน้มที่น่าสนใจการจัดการข้อมูลในปี 2017 จาก Oreilly

ข้อมูลจาก Data community ของ Oreilly ทำการสรุปแนวโน้มในปี 2017 ออกมาได้อย่างน่าสนใจ ทั้งเรื่องของ Data scientist ทั้งเรื่องของ Data engineering ทั้งเรื่องของ Data stroage ทั้งเรื่องของเครื่องมือต่าง ๆ จึงทำการแปลและสรุปไว้นิดหน่อยดังนี้

Read More…

สรุปสิ่งที่แบ่งปันเรื่อง Software Developement Trends 2017

ได้รับโอกาสให้ไปแบ่งปันมุมมองเรื่อง Software Development Trends 2017 ในงาน IT Trends: Strategic Planning for 2016 จัดโดยสถาบัน IMC ซึ่งมีหัวข้อที่น่าสนใจมากมาย ส่วนในเรื่องของ Software Development Trends 2017 นั้นมีเนื้อหาดังนี้ ปัญหาที่พบในการพัฒนา software ว่าด้วยเรื่องกระบวนการคิด ว่าด้วยเรื่องของโครงสร้างองค์กร ว่าด้วยเรื่องของทีม ว่าด้วยเรื่องของเทคโนโลยี ว่าด้วยเรื่องของ programming language trend เป็นหนึ่งในมุมมองของตัวผมเองที่มีต่อการพัฒนา software มาดูรายละเอียดกันสักหน่อย

Read More…

ว่าด้วยเรื่องของ Data Science

ในปัจจุบันเรื่องของ Data Science ถูกพูดถึงกันอย่างมาก มักจะมาพร้อมกับคำว่า Big Data ดังนั้น เราดูกันหน่อยว่า ที่มาที่ไปของ Data Science มันเป็นมาอย่างไร ทำไมถึงในปัจจุบันถึงพูดถึงกันมาก ทำไมเราจึงต้องให้ความสนใจ และ ใส่ใจ มาเริ่มหาคำตอบกัน

Read More…

Big Data :: เลือกเครื่องมือในการวิเคราะห์ข้อมูลอย่างไรดี

ในปัจจุบันข้อมูลต่างๆ ทั้งในโลกของ Social network ทั้งจากอุปกรณ์ต่างๆ มันโตขึ้นมาก (Internet of Things) ทั้งจากในองค์กรต่างๆ ที่เพิ่มขึ้นสูงอย่างรวดเร็ว ยิ่งในองค์กรใหญ่ๆ แล้วนั้นแล้วยิ่งมีข้อมูลสูงมากๆ ดังนั้น จะมีอะไรมาจัดการและวิเคราะห์ข้อมูลเหล่านี้บ้างนะ

Read More…