BigData Archive

สรุปจากการดู SQL Query Optimization!

เห็นใน feed มีการ share เรื่อง SQL Query Optimization! กันเยอะซึ่งอธิบายการปรับปรุงประสิทธิภาพการทำงานของ SQL กันยกตัวอย่างเช่น

Read More…

สรุปจากการอ่านบทความ How Quora scaled MySQL to 100k+ Queries Per Second ?

เห็นใน feed มีการ share บทความเรื่อง How Quora scaled MySQL to 100k+ Queries Per Secondเป็นการ scale MySQL database ของระบบ Quoraซึ่งเป็นระบบถามตอบปัญหาต่าง ๆ นั่นเองโดยมีการใช้งานคร่าว ๆ คือ ข้อมูลต่าง ๆ จะเก็บไว้ใน MySQL นั่นเองดังนั้นมาดูกันว่าทางระบบทำการ scale กันอย่างไร

Read More…

บันทึกการ pre-processing ข้อมูลก่อนจัดเก็บใน Elasticsearch

จากบทความของ Elastic เรื่อง Pruning incoming log volumes with Elasticอธิบายถึงการเก็บข้อมูลใน Elastic stack ว่าข้อมูลที่จัดเก็บนั้นมีจำนวนที่เยอะ รูปแบบที่หลากหลายส่งผลให้ระบบมีปัญหาในการจัดเก็บ การประมวลผล หรือ ใช้งานดังนั้น สิ่งหนึ่งที่เราควรทำก่อนคือรู้ว่าข้อมูลอะไรบ้างที่ใช้ และ ไม่ใช้งานบ้างเพื่อที่จะเก็บเท่าที่ใช้งานเท่านั้น มิใช่เก็บไปเสียทุกอย่าง

Read More…

น่าสนใจสำหรับ KIP-932: Queues for Kafka

น่าสนใจดีกับ KIP-932: Queues for KafkaKIP (Kafka Improvement Proposal) นี้ทำการใช้งาน queue ใน Kafka นั่นเองโดยปกติถ้าต้องจัดการ message ที่เข้า Topic ให้ตามรูปแบบของ Queue คือ ที่สำคัญก็ยังต้อง scale ได้ง่าย

Read More…

Zero-ETL คืออะไร

เห็นคำว่า Zero-ETL ผ่าน ๆ ทาง social network มานิดหน่อยก็เลยมาหาดูหน่อยว่า มันคืออะไรถามทาง ChatGPT ก็บอกว่า ไม่รู้จัก ส่วน product ก็มีออกมาให้ลองใช้ ทั้งจากฝั่ง Google และ AWS คือ AWS :: ข้อมูลจาก Aurora ไปยัง Redshift AWS :: Redshift กับ Apache Spark Google :: สามารถทำการ query ข้อมูลจาก BigTable ผ่าน BigQuery ตรง ๆ ได้เลย ดังนั้นมาดูกันหน่อยว่ามันคืออะไรกัน

Read More…

เรื่องที่น่าสนใจจากบทความเรื่อง Postgres: a better message queue than Kafka?

วันนี้นั่งอ่านบทความเรื่อง Postgres: a better message queue than Kafka?ทำการอธิบายการสร้างระบบ loggingซึ่งทำงานอยู่บน PostgreSQLว่ามีข้อดีและข้อเสียอย่างไร รวมทั้งการปรับปรุงในอนาคตทำไมถึงใช้งาน PostgreSQL แทนที่จะเป็น Apache Kafka สำหรับ message queue

Read More…

สรุปจากบทความ Using ClickHouse as an Analytic Extension for MySQL

จากบทความเรื่อง Using ClickHouse as an Analytic Extension for MySQLซึ่งเขียนโดย Percona นั้น ทำการอธิบายการนำข้อมูลจาก MySQL ไปวิเคราะห์ผ่าน ClickHouseโดยใช้งาน extension สำหรับ MySQL นั่นเองที่สำคัญไม่ใช่เอามาแทนที่ แต่เอามาทำงานตาม use case ที่เหมาะสม

Read More…

สรุปเรื่องของ Data architecture ไว้นิดหน่อย

มีเรื่องของ Data architecture ที่ต้องทำเลยสรุปเรื่องของ Data architecture ไว้หน่อยว่ามีความเป็นมาอย่างไรบ้างเราอยู่ตรงไหน และจะไปทางไหนต่อ

Read More…

สรุปการอ่านบทความเรื่อง HTTP Analytics for 6M requests per second using ClickHouse จาก Cloudflare

เห็นเรื่องการเปลี่ยนจาก Elasticsearch มาเป็นของ Clickhouse ก็ทำให้ไปอ่านบทความเก่าตั้งแต่ปี 2018เรื่อง HTTP Analytics for 6M requests per second using ClickHouseว่าด้วยเรื่องการวิเคราะห์ traffic ปริมาณสูงว่า architecture ของระบบมีวิวัฒนาการอย่างไรเพื่อให้รองรับข้อมูลที่สูงมาก ๆนั่นคือ architecture ของ Data pipelineมาดูกัน

Read More…

ว่าด้วยเรื่องของ Delta Lake ?

ตอนเช้าเจอบทความว่าด้วยเรื่องของ Delta Lakeสะกดถูกแล้ว เพราะว่า ไม่ใช่ Data Lake นะอ่านเจอแล้วก็งง ๆ ว่า มันคืออะไรเลยลองหาข้อมูล เพื่อทำให้เข้าใจมากขึ้นสรุปสั้น ๆ ไว้ดังนี้

Read More…