ข้อมูลจาก Data community ของ Oreilly
ทำการสรุปแนวโน้มในปี 2017 ออกมาได้อย่างน่าสนใจ
ทั้งเรื่องของ Data scientist
ทั้งเรื่องของ Data engineering
ทั้งเรื่องของ Data stroage
ทั้งเรื่องของเครื่องมือต่าง ๆ
จึงทำการแปลและสรุปไว้นิดหน่อยดังนี้
1. Data scientist เริ่มนำ Deep learning มาใช้กันมากขึ้น
ในปี 2016 นั้นเทคโนโลยีที่เกี่ยวกับ Deep learning พัฒนาไปอย่างมาก
ตลอดจนบริษัทต่าง ๆ ได้ออกเครื่องมือเกี่ยวกับ Deep learning ออกมามากขึ้น
ทำให้การเรียนรู้และการใช้งานง่ายมากขึ้น
แน่นอนว่า เครื่องมือต่าง ๆ เหล่านี้
ต้องสามารถ integrate เข้ากับพวก Big data tools และ framework ได้เป็นอย่างดี
ดังนั้นจะสอดคล้องกับเรื่องข้อมูลพวก time serie, event based
ที่มาจากอุปกรณ์ IoT และ sensor ต่าง ๆ ที่มีจำนวนมากขึ้น
ยิ่งนำ Deep learning มาช่วยจะก่อให้เกิดประโยชน์ขึ้นมากมาย
ดังนั้นในปี 2017 นั้นเรื่อง Deep learning คงเป็นสิ่งที่ Data scientist ทุกคนพลาดไม่ได้เลย
2. Data engineering จะมีความต้องการสูงอย่างมาก
ยิ่ง Data scientist เป็นงานที่มีความต้องการสูงแล้ว
ยิ่งทำให้เกิดช่องหว่างหนึ่งในองค์กรขึ้นมา
นั่นคือ
Data scientist ที่สามารถเขียน code ได้
Data scientist ที่สามารถแก้ไข code ได้
นั่นคือ Data engineering นั่นเอง
Data scientist ที่ว่ายากแล้ว
Data engineering นี่ยากกว่า
ดังนั้น developer ที่ต้องการความท้าทายแนะนำเป็นอย่างยิ่ง
3. บริษัทต่าง ๆ เริ่มนำ service ไปอยู่บนระบบ Cloud มากขึ้น
จากรายงานของ Oreilly พบว่า
บริษัทที่มีการทดลองนำ service ไปอยู่บนระบบ cloud แล้ว
ส่วนใหญ่จะนำ service อื่น ๆ ขึ้นไปด้วย
และจะเพิ่มขึ้นอีก ขึ้นอีกไปเรื่อย ๆ
เนื่องจากในปัจจุบันมี service ต่าง ๆ บนระบบ cloud ให้ใช้มากมาย
ตั้งแต่การจัดเก็บข้อมูล
การประมวลผลข้อมูล
การวิเคราะห์ข้อมูล
การแสดงผลข้อมูลในรูปแบบสวยงาม
รวมไปถึงการทำนายข้อมูลต่าง ๆ
ทำให้ผู้ใช้งานไม่ต้องสนใจเครื่องมือเลย
สนใจเฉพาะ business เท่านั้น
ทำให้ระบบต่าง ๆ ที่อยู่บน cloud ได้รับความนิยมมากขึ้นเป็นอย่างมาก
4. แต่อย่าลืมว่า ข้อมูลบางอย่างมันก็เอาขึ้น public cloud ได้นะ !!
เช่น Legacy system, sensitive data และ security
รวมไปถึง privacy issue ต่าง ๆ
ดังนั้นสิ่งที่เกิดขึ้นคือ การ mix หรือรวมกันระหว่างระบบปกติกับ public cloud
หรือกลายเป็น hybrid application นั่นเอง
หรือบางครั้งต้องใช้งาน private cloud จาก cloud provider ต่าง ๆ
ดังนั้นองค์กรต่าง ๆ จำเป็นจะต้องมี solution architect
ที่มีความเข้าใจกับเรื่องต่าง ๆ เหล่านี้
ปล. ถ้ายังไม่เคยใชงานระบบ cloud เลยก็จะลำบากมาก ๆ นะ สำหรับ solution architect !!
5. มีเครื่องมือต่าง ๆ ขึ้นมา ซึ่งทำให้งานที่ยากกลายเป็นเรื่องที่ง่ายขึ้นมาก ๆ
เครื่องมือสมัยใหม่นั้นมีทุกอย่างให้ครบ
เพียงแค่ใส่ข้อมูลที่ถูกต้องเข้าไปให้
บางตัวผู้ใช้งานไม่จำเป็นต้องรู้การเขียน code ก็ใช้ได้
บางตัวผู้ใช้งานไม่จำเป็นต้องเชี่ยวชาญเรื่องของสถิติก็ใช้งานได้
ตัวอย่างเช่น
- Amazon Machine Learning
- Google Cloud Platform
- Microsoft Azure
6. แยกส่วนการทำงานระหว่าง Data Storage และ Data computation ออกจากกันอย่างชัดเจน
เนื่องจากแต่ละส่วนมีการทำงานและความต้องการต่างกันไป
จะรวมเข้าไว้ด้วยกันคงไม่ดีอย่างแน่นอน
7. พวก Notebooks และ workflow tool ต่าง ๆ ยังคงถูกพัฒนาต่อไป
ตัวอย่างที่เห็นได้ชัดคือ Jupyter notebook
เป็นสิ่งที่ Data scientist นิยมใช้กันอย่างมาก
เนื่องจากมีทุกสิ่งอย่างที่จำเป็นต่อการใช้งาน
แถมใช้งานง่ายอีกต่างหาก
ตั้งแต่แบ่งปันเอกสารการใช้งาน
source code
สูตรต่าง ๆ
แสดง Visualization
และผลสรุปต่าง ๆ
ซึ่งมีประโยชน์ต่อทีมอย่างมาก
แน่นอนว่ายังมีเครื่องมืออื่น ๆ มาใช้งานอีก เช่น Beaker notebook
ซึ่งสนับสนุนภาษาโปรแกรมจำนวนมาก
แต่สิ่งหนึ่งที่ notebooks ต่าง ๆ จะต้องมีคือ
การเชื่อมต่อหรือทำงานร่วมกับ Spark
แต่ใช่ว่าทุกคนจะใช้ notebooks นะ
เพราะว่างานบางอย่างที่ซับซ้อนก็ใช้ไม่ได้เช่นกัน
หรือ Data Engineering อาจจะต้องใช้เครื่องมือเหมือนกับ developer ก็ได้
แต่โดยรวมแล้วพวก notebooks และ workflow tool ต่าง ๆ
จะยังคงพัฒนาต่อไปอีก
ทั้งจากเรื่องของ Deep learning รวมทั้งกับเทคนิคและวิธีการใหม่ ๆ
ที่เกิดขึ้นมาเยอะเหลือเกิน
สุดท้ายแล้วเรื่องของ Privacy และ Ethic (จริยธรรมหรือจรรยาบรรณ) ของการนำข้อมูลไปใช้งาน
ยังคงเป็นเรื่องที่ยังต้องถกเถียงเพื่อหาแนวทางที่ดี
เพราะว่าทุกอย่างมันเริ่มเยอะและซับซ้อน
ทั้งข้อมูลมีจำนวนมากมาย
ทั้งข้อมูลมีความหลากหลาย
ทั้ง algorithm มีความซับซ้อนซ่อนเงื่อน
ดังนั้นเรื่องของ transparency มันจึงเป็นเรื่องที่ยากมาก ๆ
เช่นถ้าเรามีความเอนเอียงต่อการทดสอบแล้ว
มันจะส่งผลกระทบต่อผลการวิเคราะห์ด้วยเสมอ
คำถามที่น่าในใจคือ แล้วในประเทศไทยละ ?