Docker สำหรับ Data Science

มีโอกาสคุยกับกลุ่มในสาย Data Science พบว่า
ปัญหาหลัก ๆ ของคนกลุ่มนี้คือ เรื่องการจัดการ environment ที่ใช้งาน
ประกอบไปด้วย

ปัญหาในการติดตั้ง software
ปัญหาในการติดตั้ง library หรือ dependency ต่าง ๆ
ปัญหาในการ configuration และ setting ค่าต่าง ๆ

ทำให้ขั้นตอนการวิเคราะห์ข้อมูลมันช้าอย่างมาก
บางคนใช้ได้ บางคนใช้ไม่ได้
บางองค์กรต้องรอให้ฝ่าย IT มาทำการติดตั้งให้
ถ้าขั้นตอนการทำงานช้า ก็รอกันต่อไป
หรือแม้แต่การนำเครื่องมือใหม่ ๆ มาใช้ ก็ยากเย็นเหลือเกิน

บางครั้งทำเองได้ แต่ก็ลืม
ลืมขั้นตอนการติดตั้งและ configuration
ลืม configuration ค่าต่าง ๆ ที่ไปหาจาก internet !!

บ่อยครั้งพบว่า library ต่าง ๆ ที่ใช้
ไม่ได้ update version ใหม่ ๆ มาใช้เลย
บางคนใช้ version เก่า ๆ มาเป็นปี ๆ !!

เราทำงานเป็นทีม Data Science นะ
แต่ว่า … แต่ละคนต่างคนต่างทำ
OS ที่ใช้งานต่างกัน
เครื่องมือที่ใช้ต่างกัน หรือถ้าเหมือนกัน แต่ configuration ต่างกัน
หรือทำไปเปลี่ยนไป

หรือไม่สามารถ run งานเก่า ๆ ได้เลย
เนื่องจาก environment ต่าง ๆ มันเปลี่ยนไปหมดแล้ว
ผลที่ตามมาแล้วจะทำอย่างไรละ ?
ต้องทิ้งงานนั้นกันไปหรืออย่างไร ?

ยิ่งรับสมาชิกใหม่เข้ามาในทีมยิ่งลำบาก
เพราะว่า เพียงแค่การติดตั้ง environment ให้เริ่มทำงานได้ก็ยากแล้ว
บางคนถึงขั้นถอดใจ ออกดีกว่า

สุดท้ายถ้าทำการ update/upgrade สิ่งต่าง ๆ แล้ว
ไม่รู้เลยว่ามันส่งผลกระทบต่อส่วนการทำงานใดบ้าง
ดังนั้นก็วนกลับไปเรื่องเดิมคือ ไม่ต้องทำอะไร มันทำงานได้ !!

บริษัทต่าง ๆ เขาแก้ไขปัญหานี้อย่างไรกันนะ ?

เท่าที่คุยมาก็มีอยู่ 2 แบบคือ

แบบที่ 1 ใครอยากทำอะไร ติดตั้งอะไรก็ทำไปเลย ง่ายนะ เร็วด้วย แต่ว่าต่างคนก็ต่างไปคนละทาง
แบบที่ 2 บริษัททำการควบคุมทุกอย่าง ลงได้เท่าที่กำหนดเท่านั้น ทำให้ฝ่าน IT ควบคุมได้หมด แต่สำหรับคนใช้มันยากต่อการเปลี่ยนแปลงมาก ๆ

ไม่ว่าแบบไหนก็มีปัญหากันไปคนละแบบ
แต่ก็ไม่ได้แก้ไขปัญหาให้หมดไป
ดังนั้นมีวิธีการอื่น ๆ อีกไหมละ ?

หนึ่งในวิธีการที่ขอแนะนำคือ Docker

ยิ่งที่โลกของ Data Science ยิ่งต้องใช้กัน
เนื่องจากมีเครื่องมือ และ library ต่าง ๆ เป็นจำนวนมาก
ถ้าเรามีชุดเครื่องมือเตรียมไว้ให้ทั้งหมด
จากนั้นแต่ละคนก็นำสิ่งที่เตรียมไว้ไปใช้งาน
น่าจะลดปัญหาไปได้เยอะ และน่าจะเริ่มงานได้อย่างรวดเร็ว

ปัญหาที่มักเจอเช่น Python 2.7 vs 3.x

คำถามคือ ลำบากไหมที่ต้องสลับ version ของ Python ไปมา !!
เลยยกตัวอย่างของการนำ Docker มาแก้ไขปัญหาเหล่านี้นิดหน่อย

เริ่มด้วยการสร้าง Docker Image สำหรับ Python 3 ขึ้นมาก่อน
มี library ที่ต้องการใช้คือ

numpy
scipy
scikit-learn

ทำการกำหนด library เหล่านี้ไว้ในไฟล์ชื่อว่า requirements.txt

ทำการสร้าง Dockerfile ไว้ใช้สำหรับสร้าง Docker Image
มีขั้นตอนดังนี้

เลือก base image เป็น Python 3.6.8
กำหนด working directory
ทำการ copy ไฟล์ requirements.txt เข้าไป
ทำการ copy ไฟล์ทั้งหมดเข้าไป
ทำการติดตั้ง library ต่าง ๆ ที่กำหนดไว้ในไฟล์ requirement.txt
กำหนดให้ทำการ run คำสั่ง python app.py เพื่อทดสอบไฟล์ที่เราต้องการนั่นคือ app.py

เรายังขาดไฟล์ app.py ซึ่งเป็น code ทำงานของเรานั่นเอง
ตรงนี้เอาที่สบายใจเลย

เมื่อทุกอย่างเรียบร้อย ทำการสร้าง image จาก Dockerfile
และสร้าง container เพื่อทำงานตามที่ต้องการ ดังนี้

$docker image build -t my_python_3 .
$docker container run --rm my_python_3:latest

เพียงเท่านี้ก็สามารถทำงานได้แล้ว
ง่ายมาก ๆ แต่ที่เหลือยากหมดเลย !!!

ขอยกตัวอย่าง Docker image ที่น่าสนจาก Kaggle

ประกอบไปด้วย

kaggle/python สำหรับภาษา Python
kaggle/rstats สำหรับภาษา R
kaggle/julia สำหรับภาษา Julia

แต่ขนาดของ Docker image เหล่านี้จะมีขนาดใหญ่มาก ๆ
เนื่องจากมี library ต่าง ๆ เพียบนะครับ
ยกตัวอย่างเช่น kaggle/python มีขนาดกว่า 900 MB
ดังนั้นใช้งานแบบมีสตินะครับ

เพียงนำสิ่งเหล่านี้ไปใช้ ก็สามารถเริ่มในสิ่งที่ต้องการได้แล้ว
ถ้าใครไม่พอใจ ก็นำไปแก้ไขหรือสร้างใหม่ให้กับทีมได้เลยครับ

แต่สิ่งที่สำคัญคือ
ตอบรับกับความต้องการหรือการเปลี่ยนแปลงได้รวดเร็วเพียงใด
ลดผลกระทบจากการเปลี่ยนแปลงให้น้อยหรือไม่เกิดเลยได้อย่างไร

ขอให้สนุกกับการ coding ครับ

Tags:data-science,docker

cc :: somkiat

Docker สำหรับ Data Science

บริษัทต่าง ๆ เขาแก้ไขปัญหานี้อย่างไรกันนะ ?

หนึ่งในวิธีการที่ขอแนะนำคือ Docker

ปัญหาที่มักเจอเช่น Python 2.7 vs 3.x

ขอยกตัวอย่าง Docker image ที่น่าสนจาก Kaggle

Article by Somkiat Puisungnoen

บริษัทต่าง ๆ เขาแก้ไขปัญหานี้อย่างไรกันนะ ?

หนึ่งในวิธีการที่ขอแนะนำคือ Docker

ปัญหาที่มักเจอเช่น Python 2.7 vs 3.x

ขอยกตัวอย่าง Docker image ที่น่าสนจาก Kaggle

Article by Somkiat Puisungnoen

Related Posts