เห็นคำว่า Zero-ETL ผ่าน ๆ ทาง social network มานิดหน่อยก็เลยมาหาดูหน่อยว่า มันคืออะไรถามทาง ChatGPT ก็บอกว่า ไม่รู้จัก ส่วน product ก็มีออกมาให้ลองใช้ ทั้งจากฝั่ง Google และ AWS คือ AWS :: ข้อมูลจาก Aurora ไปยัง Redshift AWS :: Redshift กับ Apache Spark Google :: สามารถทำการ query ข้อมูลจาก BigTable ผ่าน BigQuery ตรง ๆ ได้เลย ดังนั้นมาดูกันหน่อยว่ามันคืออะไรกัน
Read More…
วันนี้นั่งอ่านบทความเรื่อง Postgres: a better message queue than Kafka?ทำการอธิบายการสร้างระบบ loggingซึ่งทำงานอยู่บน PostgreSQLว่ามีข้อดีและข้อเสียอย่างไร รวมทั้งการปรับปรุงในอนาคตทำไมถึงใช้งาน PostgreSQL แทนที่จะเป็น Apache Kafka สำหรับ message queue
Read More…
จากบทความเรื่อง Using ClickHouse as an Analytic Extension for MySQLซึ่งเขียนโดย Percona นั้น ทำการอธิบายการนำข้อมูลจาก MySQL ไปวิเคราะห์ผ่าน ClickHouseโดยใช้งาน extension สำหรับ MySQL นั่นเองที่สำคัญไม่ใช่เอามาแทนที่ แต่เอามาทำงานตาม use case ที่เหมาะสม
Read More…
มีเรื่องของ Data architecture ที่ต้องทำเลยสรุปเรื่องของ Data architecture ไว้หน่อยว่ามีความเป็นมาอย่างไรบ้างเราอยู่ตรงไหน และจะไปทางไหนต่อ
Read More…
เห็นเรื่องการเปลี่ยนจาก Elasticsearch มาเป็นของ Clickhouse ก็ทำให้ไปอ่านบทความเก่าตั้งแต่ปี 2018เรื่อง HTTP Analytics for 6M requests per second using ClickHouseว่าด้วยเรื่องการวิเคราะห์ traffic ปริมาณสูงว่า architecture ของระบบมีวิวัฒนาการอย่างไรเพื่อให้รองรับข้อมูลที่สูงมาก ๆนั่นคือ architecture ของ Data pipelineมาดูกัน
Read More…
ตอนเช้าเจอบทความว่าด้วยเรื่องของ Delta Lakeสะกดถูกแล้ว เพราะว่า ไม่ใช่ Data Lake นะอ่านเจอแล้วก็งง ๆ ว่า มันคืออะไรเลยลองหาข้อมูล เพื่อทำให้เข้าใจมากขึ้นสรุปสั้น ๆ ไว้ดังนี้
Read More…
ช่วงนี้มีข่าวเรื่องการจองฉีดวัคซีนกันเยอะเลยไปหาดูข้อมูลเกี่ยวกับฉีดวัคซีนของแต่ละประเทศว่าเป็นอย่างไรบ้างพบว่ามีหลายแหล่ง แต่ก็มีที่ Our World in Data ทำการสรุปข้อมูล รายงานรวมทั้ง share ข้อมูลของการฉีดวัคซีนทั้งโลกไว้
Read More…
ปกติ Elasticsaearch ข้อมูลต่าง ๆ ที่จัดเก็บในแต่ละ index จะสามารถค้นหาได้ก็ต่อเมื่อ ทำการบันทึกลงใน disk แล้วเท่านั้นหรือเรียกว่า Schema on writeโดย schema หรือโครงสร้างข้อมูลจะต้องถูกวางแผนก่อนเสมอว่าจะมีโครงสร้างอย่างไร ว่าแต่ละ field จะมีชนิดอะไร
Read More…
ช่วงปลายปีมีโอกาสไปสอนและแบ่งปันความรู้เรื่อง ELK stack สำหรับ Big Data Analytic เป็นเวลา 3 วัน ที่สำนักวิทยบริการ มหาวิทยาลัยราชภัฏยะลา โดยครั้งนี้มีเวลา 3 วัน จึงทำให้ได้เนื้อหาที่เข้มข้นและลงรายละเอียดเยอะ เลยทำการสรุปไว้นิดหน่อย ไว้ปีหน้าหาเวลามาแบ่งปันกันนิดหน่อย เนื่องจาก ELK stack มันเปลี่ยนบ่อยเหลือเกิน มาเริ่มกันเลย
Read More…
หัวข้อสุดท้ายที่เข้าฟังในงาน Code Mania 1010 :: All about passion คือ Real-time Bot Detection using Machine Learning จาก Agoda ส่วนที่น่าสนใจคือ ขั้นตอนของการสร้าง model เพื่อนำมามาตรวจสอบ ในแต่ละ request ที่เข้ามายังระบบว่า เป็น Bot ที่เราไม่ต้องการหรือไม่ ตลอดจนการนำไปใช้งาน ซึ่งจะมี feature จำนวนมาก แน่นอนว่า feature ต่าง ๆ ไม่สามารถเปิดเผยได้ มิเช่นนั้น จะโดนเล่นงานแน่นอน !! มาเริ่มกันเลย
Read More…