ในปัจจุบันเรื่องของ Data Science ถูกพูดถึงกันอย่างมาก
มักจะมาพร้อมกับคำว่า Big Data
ดังนั้น เราดูกันหน่อยว่า
- ที่มาที่ไปของ Data Science มันเป็นมาอย่างไร
- ทำไมถึงในปัจจุบันถึงพูดถึงกันมาก
- ทำไมเราจึงต้องให้ความสนใจ และ ใส่ใจ
มาเริ่มหาคำตอบกัน
ที่มาที่ไปของ Data Science
เริ่มถูกพูด และ เขียนขึ้นมาครั้งแรกในปี 1962
จาก paper เรื่อง The Future of Data Analysis โดยคุณ John W. Tukey
ทำการอธิบายถึงแนวทางการวิเคราะห์ข้อมูล
ว่าโปรแกรมคอมพิวเตอร์ จะเข้ามามีความสำคัญอย่างไรในอนาคต
ทาง Forbes ได้สรุปที่ไปที่มาของ Data Science
ในบทความเรื่อง A Very Short History of Data Science
ซึ่งมันละเอียดอย่างมาก แนะนำให้อ่านเพิ่มเติมนะครับ
โดยตั้งแต่ปี 1990 เป็นต้นมา Data Science เติบโตมาอย่างก้าวกระโดด
และกลายมาเป็นงานที่มีความต้องการอย่างสูงตั้งแต่ปี 2000
ส่วนปัจจุบันหลายสำนักบอกว่า เป็นงานที่ sexy สุด ๆ ไปแล้ว !!
แต่จำเป็นต้องมีทักษะความรู้ในหลากหลายแขนงเช่นกัน
แสดงดังรูป
ปัจจุบัน Data Science เป็นอย่างไร ?
คำว่า Data Science กับ Data Analysis มันมักจะมาคู่กัน
มีอัตราเติบโต และ ความต้องการจากบริษัทต่าง ๆ สูงมาก
เนื่องจากค่าใช้จ่ายด้านที่จัดเก็บข้อมูล (Stoarge) นั้นถูกลงอย่างมาก
เนื่องจากวิธีการประมวลผลข้อมูล (Processing) มีประสิทธิภาพสูงขึ้น
ส่งผลทำให้แต่ละบริษัท
สามารถทำการทำการ regression
ค้นหาประโยชน์ และ แนวโน้มต่าง ๆ จากข้อมูลจำนวนมากที่จัดเก็บไว้
ทั้งข้อมูลจากภายในบริษัท และ ข้อมูลจากข้างนอก
โดย Data Science จะเข้ามาช่วยเรื่องของ
คุณภาพของข้อมูลก่อนที่จะนำมาประมวลผล
เนื่องจาก ถ้าข้อมูลเริ่มต้นมันห่วยแล้ว
ผลการประมวลผลมันก็ห่วยเช่นกัน
รวมทั้งต้องมีความรู้ความเข้าใจเกี่ยวกับ Business domain นั้น ๆ เป็นอย่างดี
จึงต้องการคนที่มีความรู้ความสามารถเข้ามาช่วยเหลือนั่นเอง
สามารถแบ่งส่วนการทำงานออกไป 2 ส่วน คือ
- ข้อมูลมาจากไหน ? (Data source)
- จะใช้ข้อมูลเหล่านั้นอย่างไร ?
เริ่มจากข้อมูลมาจากไหน นั่นคือ Data Source
ในปัจจุบันนั้นที่มาของข้อมูลมันเยอะมาก ๆ แสดงตัวอย่างดังรูป
ความแตกต่างระหว่างนักสถิติ (Statistician) กับ Data Scientist คือ
นักสถิติจะนำข้อมูลมา run regression ตามสมการทางสถิติ
ส่วน Data Scientist นั้นจะต้องไปหาข้อมูลที่ต้องการ จัดโครงสร้าง
ตัดส่วนที่ไม่จำเป็นออกไป
ทำการวิเคราะห์
จากนั้นทำการสื่อสาร สรุปผลการวิเคราะห์ให้อยู่ในรูปแบบที่เข้าใจง่าย
เช่น อยู่ในรูปแบบของ vistualization เป็นต้น
จะสังเกตุได้ว่า Data Scientist นั้นต้องการข้อมูลที่มีคุณภาพ
นั่นคือ จำเป็นต้องมีแหล่งข้อมูลที่มีคุณภาพ
เพื่อให้ได้ผลที่มีคุณภาพนั่นเอง
โดยแหล่งข้อมูลสามารถแบ่งได้ 3 กลุ่มใหญ่ ๆ คือ
- Database ประกอบไปด้วยข้อมูลที่มีโครงสร้าง และ ไม่มีโครงสร้าง
- Third party data
- Application data
คำถามที่น่าสนใจ คือ จะเริ่มนำข้อมูลมาจากแหล่งไหนดีล่ะ ?
เนื่องจากแต่ละระบบมีแหล่งข้อมูลเยอะมาก ๆ
รวมทั้งจากหลากหลาย vendor อีก
ไหนจาก API ต่าง ๆ อีกมากมาย
แน่นอนว่ามันเป็นงานที่ไม่ง่ายเลย
และไม่มีใครอยากจะเข้ามาทำสักเท่าไร
เนื่องจากต้องทำการ integration เข้ากับระบบ
เนื่องจากต้องทำการแปลงข้อมูลให้อยู่ในรูปแบบที่ต้องการ
เนื่องจากต้องกรองและทำความสะอาดข้อมูลก่อนทำการจัดเก็บ
และอื่น ๆ อีกมากมาย !!
คำตอบที่ดีก็คือ
ให้ลองคิดคำนวณเรื่องของ Return on Investment (ROI) ของแหล่งข้อมูลแต่ละที่
ว่ามันมีคุณค่าและให้ผลตอบแทนในการลงทุนมากน้อยเพียงใด
ดังนั้นสามารถสรุปสิ่งที่ Data Scientists ต้องทมีดังนี้
- การค้นหาข้อมูลที่ค้องการ
- การจัดการโครงสร้าง จัดเรียงข้อมูล และ ทำความสะอาด (Cleansing data)
- การวิเคราะห์ข้อมูล
- เชื่อมโยงข้อมูลและผลการวิเคราะห์ในแต่ละส่วนเข้าด้วยกัน
- แสดงผลการวิเคราะห์ให้อยู่ในรูปแบบที่เข้าใจง่าย
มันคือการให้รู้จักคิด
มันคือการนำข้อมูลมาช่วยในการตัดสินใจ
มันคือการคิดแบบเป็นเหตุเป็นผล
มันคือการคิดด้วยหลักทางสถิติ
มันคือการคิดจากผลทางคณิตศาสตร์
ซึ่งมันไม่ใช่เรื่องใหม่อะไรเลย
วันนี้คุณพร้อมกับ Data Science แล้วหรือยัง ?
Reference Websites
https://github.com/okulbilisim/awesome-datascience
http://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
https://dzone.com/articles/a-deep-dive-into-the-world-of-data-science
https://www.facebook.com/DataScience101/
http://www.exploringdatascience.com/the-data-science-clock/