จากบทความ What Marketers Should Know About Big Data
ได้อธิบายเกี่ยวกับ Big Data ได้อย่างน่าสนใจ
ทั้งเรื่องความเข้าใจผิด
ทั้งเรื่องความรู้พื้นฐาน
ดังนั้น จึงนำมาแปล และ สรุปนิดหน่อย
เริ่มต้นด้วย Quote ที่สะกิดใจเกี่ยวกับ Big Data ในปัจจุบัน
ดูเหมือนว่า หลาย ๆ คนในแวดวงของเทคโนโลยี
มักจะใช้คำว่า Big Data แทนคำว่า data ไปแล้ว !!
เป็นสิ่งที่สะท้อนว่า Big Data มันเป็นแฟชั่นที่ได้รับความนิยมอย่างมาก
หรือเป็นคำทางการตลาด
ซึ่งมันทำให้หลาย ๆ สิ่งถูกบิดเบือนไปจากความเป็นจริง
คำว่า Big Data มันทำให้เราหลงลืมความรู้พื้นฐานไปได้ง่าย
นั่นคือ Big Data is a Big Distraction
ดังนั้น ก่อนที่จะนำ Big Data ไปขาย ไปใช้
ก็ควรเข้าใจพื้นฐานของมันก่อนนะ
เพื่อที่จะได้ใช้งานกันอย่างถูกต้อง
Big Data คืออะไร ?
ตอบได้ง่ายมาก ๆ คือ ข้อมูลขนาดใหญ่ไงล่ะ !!
แน่นอนว่า ไม่สามารถจัดเก็บ และประมวลผลบนเครื่องเดียวได้
ต้องกระจายไปทำงานหลาย ๆ เครื่อง
เป็นข้อมูลที่มาจากหลายแหล่ง
เป็นข้อมูลที่มีหลากหลายรูปแบบ
เป็นข้อมูลที่สร้างขึ้นมาอย่างรวดเร็ว
ดังนั้นจึงสามารถสรุปคุณบัติของ Big Data
ได้ด้วยชื่อ 3V => Volume, Velocity และ Variety
แต่ยังก่อน มีสิ่งที่ควรรู้อีกก็คือ Big Data Ecosystem
เนื่องจากเทคโนโลยีที่เกี่ยวกับ Big Data มีเยอะมาก ๆ
ซึ่งถูกแบ่งออกเป็น 3 กลุ่ม คือ
- Storage คือ การจัดเก็บข้อมูล นั่นคือเรื่อง Volume และ Variety
- Processing คือ การประมวลผล นั่นคือเรื่อง Volume และ Velocity
- Analytic คือ การวิเคราะห์ นั่นคือกระบวนการวิธีสำหรับเข้าถึงข้อมูลเชิงลึกจาก 1 และ 2
1. Storage
เนื่องจากข้อมูลนั้น ไม่มีรูปแบบที่ชัดเจน
และไม่สามารถกำหนดได้เหมือนกับ RDBMS
ดังนั้นเราจึงต้องการที่จัดเก็บแบบใหม่ !!
แน่นอนว่า เทคโนโลยีที่มักได้ยิน หรือ ได้รับความนิยมสุด ๆ
จะอยู่ภายใต้ชื่อ Hadoop ซึ่งสามารถแบ่งตามคุณลักษณะได้ 3 กลุ่มใหญ่ ๆ ดังนี้
- Distributed data ข้อมูลจะกระจายไปทำงานหลาย ๆ เครื่อง หรือ node
- Cluster computing กระบวนการทำงานของแต่ละ node จะอยู่ภายใต้ cluster ซึ่งเป็น software ที่เชื่อมแต่ละ node เข้าด้วยกัน เหมือนกับว่าทำงานอยู่ในเครื่อง หรือ ระบบเดียวกัน
- Massive parallel processing ระบบการประมวลผลภายใน cluster สามารถทำงานแบบขนานกันได้ ซึ่งช่วยให้การทำงานเร็วขึ้น
2. Processing
ข้อมูลจะไร้ค่าอย่างมาก ถ้าปราศจากการประมวลผล
ซึ่งมีรูปแบบการประมวลผล 2 แบบ คือ
- Batch เป็นการประมวลผลที่ใช้เวลานาน
- Streaming เป็นการประมวลผลแบบ realtime
ซึ่งในปัจจุบันจะพูดถึง Apache Spark อย่างมาก
เนื่องจากสามารถทำงานได้อย่างรวดเร็ว
ซึ่งเร็วกว่า Hadoop ประมาณ 10-100 เท่าเลย
3. Analytic
ข้อมูลในโลกของ Big Data นั้น
ไม่เหมาะสมอย่างยิ่งที่จะนำมาวิเคราะห์ !!
ดังนั้น จึงต้องทำการแปลงข้อมูล
ไปอยู่ในข้อมูลที่มีรูปแบบก่อนเสมอ
โดยเทคนิคในการวิเคราะห์ประกอบไปด้วย
- Data mining
- Predictive analytic
- Text analytic
- Video analytic
- Social media analytic
- Sentiment analytic
- Location analytic
- Machine learning
ภาพรวมของ Big Data Ecosystem เป็นดังนี้
สุดท้ายขอเน้นย้ำว่า
ในปัจจุบันความรู้ต่าง ๆ เหล่านี้
มันเข้ามาเป็นความรู้พื้นฐานที่ทุก ๆ คน
ในโลกของเทคโนโลยีต้องรู้จัก และ เข้าใจ
มันไม่ใช่เรื่องง่ายเลย
ดังนั้น จึงต้องเริ่มเรียนรู้กันได้แล้วครับ
Big Data ไม่ใช่มาแทนที่ Big Idea
Big Data is Big Thinking
ดังนั้นก่อนนำคำว่า Big Data ไปใช้งาน
จำเป็นต้องเข้าใจความรู้พื้นฐานของมันก่อนนะ