BigData Archive

Zero-ETL คืออะไร

เห็นคำว่า Zero-ETL ผ่าน ๆ ทาง social network มานิดหน่อยก็เลยมาหาดูหน่อยว่า มันคืออะไรถามทาง ChatGPT ก็บอกว่า ไม่รู้จัก ส่วน product ก็มีออกมาให้ลองใช้ ทั้งจากฝั่ง Google และ AWS คือ AWS :: ข้อมูลจาก Aurora ไปยัง Redshift AWS :: Redshift กับ Apache Spark Google :: สามารถทำการ query ข้อมูลจาก BigTable ผ่าน BigQuery ตรง ๆ ได้เลย ดังนั้นมาดูกันหน่อยว่ามันคืออะไรกัน

Read More…

เรื่องที่น่าสนใจจากบทความเรื่อง Postgres: a better message queue than Kafka?

วันนี้นั่งอ่านบทความเรื่อง Postgres: a better message queue than Kafka?ทำการอธิบายการสร้างระบบ loggingซึ่งทำงานอยู่บน PostgreSQLว่ามีข้อดีและข้อเสียอย่างไร รวมทั้งการปรับปรุงในอนาคตทำไมถึงใช้งาน PostgreSQL แทนที่จะเป็น Apache Kafka สำหรับ message queue

Read More…

สรุปจากบทความ Using ClickHouse as an Analytic Extension for MySQL

จากบทความเรื่อง Using ClickHouse as an Analytic Extension for MySQLซึ่งเขียนโดย Percona นั้น ทำการอธิบายการนำข้อมูลจาก MySQL ไปวิเคราะห์ผ่าน ClickHouseโดยใช้งาน extension สำหรับ MySQL นั่นเองที่สำคัญไม่ใช่เอามาแทนที่ แต่เอามาทำงานตาม use case ที่เหมาะสม

Read More…

สรุปเรื่องของ Data architecture ไว้นิดหน่อย

มีเรื่องของ Data architecture ที่ต้องทำเลยสรุปเรื่องของ Data architecture ไว้หน่อยว่ามีความเป็นมาอย่างไรบ้างเราอยู่ตรงไหน และจะไปทางไหนต่อ

Read More…

สรุปการอ่านบทความเรื่อง HTTP Analytics for 6M requests per second using ClickHouse จาก Cloudflare

เห็นเรื่องการเปลี่ยนจาก Elasticsearch มาเป็นของ Clickhouse ก็ทำให้ไปอ่านบทความเก่าตั้งแต่ปี 2018เรื่อง HTTP Analytics for 6M requests per second using ClickHouseว่าด้วยเรื่องการวิเคราะห์ traffic ปริมาณสูงว่า architecture ของระบบมีวิวัฒนาการอย่างไรเพื่อให้รองรับข้อมูลที่สูงมาก ๆนั่นคือ architecture ของ Data pipelineมาดูกัน

Read More…

ว่าด้วยเรื่องของ Delta Lake ?

ตอนเช้าเจอบทความว่าด้วยเรื่องของ Delta Lakeสะกดถูกแล้ว เพราะว่า ไม่ใช่ Data Lake นะอ่านเจอแล้วก็งง ๆ ว่า มันคืออะไรเลยลองหาข้อมูล เพื่อทำให้เข้าใจมากขึ้นสรุปสั้น ๆ ไว้ดังนี้

Read More…

[Open Data] ข้อมูลการฉีดวัคซีน COVID-19 จาก Our World in Data

ช่วงนี้มีข่าวเรื่องการจองฉีดวัคซีนกันเยอะเลยไปหาดูข้อมูลเกี่ยวกับฉีดวัคซีนของแต่ละประเทศว่าเป็นอย่างไรบ้างพบว่ามีหลายแหล่ง แต่ก็มีที่ Our World in Data ทำการสรุปข้อมูล รายงานรวมทั้ง share ข้อมูลของการฉีดวัคซีนทั้งโลกไว้

Read More…

Elasticsearch 7.11 :: ว่าด้วยเรื่อง Schema on read

ปกติ Elasticsaearch ข้อมูลต่าง ๆ ที่จัดเก็บในแต่ละ index จะสามารถค้นหาได้ก็ต่อเมื่อ ทำการบันทึกลงใน disk แล้วเท่านั้นหรือเรียกว่า Schema on writeโดย schema หรือโครงสร้างข้อมูลจะต้องถูกวางแผนก่อนเสมอว่าจะมีโครงสร้างอย่างไร ว่าแต่ละ field จะมีชนิดอะไร

Read More…

สรุปการสอนและแบ่งปันเรื่อง ELK stack ช่วงปลายปีที่มหาวิทยาลัยราชภัฏยะลา

ช่วงปลายปีมีโอกาสไปสอนและแบ่งปันความรู้เรื่อง ELK stack สำหรับ Big Data Analytic เป็นเวลา 3 วัน ที่สำนักวิทยบริการ มหาวิทยาลัยราชภัฏยะลา โดยครั้งนี้มีเวลา 3 วัน จึงทำให้ได้เนื้อหาที่เข้มข้นและลงรายละเอียดเยอะ เลยทำการสรุปไว้นิดหน่อย ไว้ปีหน้าหาเวลามาแบ่งปันกันนิดหน่อย เนื่องจาก ELK stack มันเปลี่ยนบ่อยเหลือเกิน มาเริ่มกันเลย

Read More…

สรุปเรื่องการตรวจจับ Bot ด้วย Machine Leaning จากงาน Code Mania 1010

หัวข้อสุดท้ายที่เข้าฟังในงาน Code Mania 1010 :: All about passion คือ Real-time Bot Detection using Machine Learning จาก Agoda ส่วนที่น่าสนใจคือ ขั้นตอนของการสร้าง model เพื่อนำมามาตรวจสอบ ในแต่ละ request ที่เข้ามายังระบบว่า เป็น Bot ที่เราไม่ต้องการหรือไม่ ตลอดจนการนำไปใช้งาน ซึ่งจะมี feature จำนวนมาก แน่นอนว่า feature ต่าง ๆ ไม่สามารถเปิดเผยได้ มิเช่นนั้น จะโดนเล่นงานแน่นอน !! มาเริ่มกันเลย

Read More…