Screen Shot 2558-11-03 at 10.23.51 PM
จากบทความ What Marketers Should Know About Big Data
ได้อธิบายเกี่ยวกับ Big Data ได้อย่างน่าสนใจ
ทั้งเรื่องความเข้าใจผิด
ทั้งเรื่องความรู้พื้นฐาน
ดังนั้น จึงนำมาแปล และ สรุปนิดหน่อย

เริ่มต้นด้วย Quote ที่สะกิดใจเกี่ยวกับ Big Data ในปัจจุบัน

ดูเหมือนว่า หลาย ๆ คนในแวดวงของเทคโนโลยี
มักจะใช้คำว่า Big Data แทนคำว่า data ไปแล้ว !!
เป็นสิ่งที่สะท้อนว่า Big Data มันเป็นแฟชั่นที่ได้รับความนิยมอย่างมาก
หรือเป็นคำทางการตลาด
ซึ่งมันทำให้หลาย ๆ สิ่งถูกบิดเบือนไปจากความเป็นจริง

คำว่า Big Data มันทำให้เราหลงลืมความรู้พื้นฐานไปได้ง่าย
นั่นคือ Big Data is a Big Distraction

ดังนั้น ก่อนที่จะนำ Big Data ไปขาย ไปใช้
ก็ควรเข้าใจพื้นฐานของมันก่อนนะ
เพื่อที่จะได้ใช้งานกันอย่างถูกต้อง

Big Data คืออะไร ?

ตอบได้ง่ายมาก ๆ คือ ข้อมูลขนาดใหญ่ไงล่ะ !!
แน่นอนว่า ไม่สามารถจัดเก็บ และประมวลผลบนเครื่องเดียวได้
ต้องกระจายไปทำงานหลาย ๆ เครื่อง
เป็นข้อมูลที่มาจากหลายแหล่ง
เป็นข้อมูลที่มีหลากหลายรูปแบบ
เป็นข้อมูลที่สร้างขึ้นมาอย่างรวดเร็ว

ดังนั้นจึงสามารถสรุปคุณบัติของ Big Data
ได้ด้วยชื่อ 3V => Volume, Velocity และ Variety

แต่ยังก่อน มีสิ่งที่ควรรู้อีกก็คือ Big Data Ecosystem

เนื่องจากเทคโนโลยีที่เกี่ยวกับ Big Data มีเยอะมาก ๆ
ซึ่งถูกแบ่งออกเป็น 3 กลุ่ม คือ

  • Storage คือ การจัดเก็บข้อมูล นั่นคือเรื่อง Volume และ Variety
  • Processing คือ การประมวลผล นั่นคือเรื่อง Volume และ Velocity
  • Analytic คือ การวิเคราะห์ นั่นคือกระบวนการวิธีสำหรับเข้าถึงข้อมูลเชิงลึกจาก 1 และ 2

1. Storage

เนื่องจากข้อมูลนั้น ไม่มีรูปแบบที่ชัดเจน
และไม่สามารถกำหนดได้เหมือนกับ RDBMS
ดังนั้นเราจึงต้องการที่จัดเก็บแบบใหม่ !!

แน่นอนว่า เทคโนโลยีที่มักได้ยิน หรือ ได้รับความนิยมสุด ๆ
จะอยู่ภายใต้ชื่อ Hadoop ซึ่งสามารถแบ่งตามคุณลักษณะได้ 3 กลุ่มใหญ่ ๆ ดังนี้

  1. Distributed data ข้อมูลจะกระจายไปทำงานหลาย ๆ เครื่อง หรือ node
  2. Cluster computing กระบวนการทำงานของแต่ละ node จะอยู่ภายใต้ cluster ซึ่งเป็น software ที่เชื่อมแต่ละ node เข้าด้วยกัน เหมือนกับว่าทำงานอยู่ในเครื่อง หรือ ระบบเดียวกัน
  3. Massive parallel processing ระบบการประมวลผลภายใน cluster สามารถทำงานแบบขนานกันได้ ซึ่งช่วยให้การทำงานเร็วขึ้น

2. Processing

ข้อมูลจะไร้ค่าอย่างมาก ถ้าปราศจากการประมวลผล
ซึ่งมีรูปแบบการประมวลผล 2 แบบ คือ

  1. Batch เป็นการประมวลผลที่ใช้เวลานาน
  2. Streaming เป็นการประมวลผลแบบ realtime

ซึ่งในปัจจุบันจะพูดถึง Apache Spark อย่างมาก
เนื่องจากสามารถทำงานได้อย่างรวดเร็ว
ซึ่งเร็วกว่า Hadoop ประมาณ 10-100 เท่าเลย

3. Analytic

ข้อมูลในโลกของ Big Data นั้น
ไม่เหมาะสมอย่างยิ่งที่จะนำมาวิเคราะห์ !!
ดังนั้น จึงต้องทำการแปลงข้อมูล
ไปอยู่ในข้อมูลที่มีรูปแบบก่อนเสมอ

โดยเทคนิคในการวิเคราะห์ประกอบไปด้วย

  • Data mining
  • Predictive analytic
  • Text analytic
  • Video analytic
  • Social media analytic
  • Sentiment analytic
  • Location analytic
  • Machine learning

ภาพรวมของ Big Data Ecosystem เป็นดังนี้

bigdata_eco

สุดท้ายขอเน้นย้ำว่า

ในปัจจุบันความรู้ต่าง ๆ เหล่านี้
มันเข้ามาเป็นความรู้พื้นฐานที่ทุก ๆ คน
ในโลกของเทคโนโลยีต้องรู้จัก และ เข้าใจ
มันไม่ใช่เรื่องง่ายเลย
ดังนั้น จึงต้องเริ่มเรียนรู้กันได้แล้วครับ

Big Data ไม่ใช่มาแทนที่ Big Idea
Big Data is Big Thinking

ดังนั้นก่อนนำคำว่า Big Data ไปใช้งาน
จำเป็นต้องเข้าใจความรู้พื้นฐานของมันก่อนนะ