กลับไปหน้าบล็อก
ดาต้า|30 สิงหาคม 2025

เบื้องหลังท่อข้อมูลพันล้าน: 15 คอนเซ็ปต์ Data Engineering

คุณเคยไหม? ต้องการหาข้อมูลบางอย่าง แต่ระบบล่ม หาไม่เจอ หรือโหลดช้าแบบสุด ๆ

156 ครั้ง
เบื้องหลังท่อข้อมูลพันล้าน: 15 คอนเซ็ปต์ Data Engineering

เบื้องหลังท่อข้อมูลพันล้าน: 15 คอนเซ็ปต์ Data Engineering

คุณเคยไหม? ต้องการหาข้อมูลบางอย่าง แต่ระบบล่ม หาไม่เจอ หรือโหลดช้าแบบสุด ๆ สิ่งนี้เกิดขึ้นเพราะ "ท่อข้อมูล" (Data Pipeline) ที่อยู่เบื้องหลังการทำงานมันพัง — และหน้าที่ของ วิศวกรข้อมูล (Data Engineer) คือการออกแบบท่อเหล่านี้ให้ข้อมูลไหลไปได้เร็ว ปลอดภัย และเชื่อถือได้

Data Engineering ไม่ใช่แค่การ “ลากท่อ” ต่อข้อมูลไปเรื่อย ๆ แต่มันคือ การออกแบบระบบทั้งเมือง ที่ข้อมูลคือหัวใจหลัก

ลองนึกถึงเมืองใหญ่ ๆ ที่มีท่อประปาและสายไฟฟ้าเต็มไปหมด ถ้าท่อพังสักจุด ทุกบ้านก็เดือดร้อนทันที ระบบข้อมูลก็เหมือนกันครับ — ถ้าท่อข้อมูลล่ม ธุรกิจทั้งองค์กรก็ทำงานต่อไม่ได้

Part 1: รากฐาน—เลือกวิธีส่งและเก็บข้อมูล

  1. Batch vs Streaming → เหมือนกับการส่งพัสดุ: จะส่งทีละกล่องวันละครั้ง (Batch) หรือส่งตลอดเวลาแบบ Grab/Line Man (Streaming)
  2. OLTP vs OLAP → OLTP คือร้านสะดวกซื้อ (เน้นธุรกรรมเร็ว ๆ เช่นซื้อของ) ส่วน OLAP คือห้องสมุดข้อมูลยักษ์ (เอาไว้เปิดดูย้อนหลัง วิเคราะห์ทีละเยอะ ๆ)
  3. Row vs Column Storage → เหมือนเก็บสมุดรายชื่อ: เก็บทีละคน (Row) หรือเก็บทีละข้อมูล เช่น เก็บเฉพาะ "อายุ" ของทุกคน (Column)
  4. Partitioning → การหั่นตารางใหญ่ ๆ เป็นเล่มเล็ก ๆ เช่น จัดตามเดือน เวลาค้นจะเร็วขึ้นเพราะเปิดแค่เล่มที่ต้องใช้
  5. ETL vs ELT → จะล้างผักก่อนเอาเข้าครัว (ETL) หรือเอาผักเข้าครัวแล้วล้างในครัวเลย (ELT)

Part 2: เกราะป้องกัน—ทำให้ระบบไม่ล่ม

  1. Idempotency → กดปุ่ม “ไลก์” กี่ครั้งก็ขึ้นแค่ 1 ไม่พัง ไม่บั๊ก
  2. Retry & DLQ → ถ้าส่งพัสดุไม่ถึงบ้าน ระบบจะ “ส่งใหม่” แต่ถ้าส่งซ้ำยังพัง ก็เก็บไว้ที่ห้องพัสดุเสีย (DLQ)
  3. Backfilling & Reprocessing → เหมือนเติมน้ำให้ถังที่รั่วในอดีต (Backfill) หรือทำสูตรอาหารใหม่แล้วทำซ้ำทั้งหมด (Reprocess)
  4. Change Data Capture (CDC) → ไม่ต้องส่งพัสดุทั้งลัง แค่บอกว่า “มีเพิ่มอีก 2 ชิ้น” หรือ “ลบออก 1 ชิ้น”
  5. CAP Theorem → ในโลกจริง เลือกได้ไม่ครบ ต้องเลือกระหว่าง ความถูกต้อง (Consistency), ความพร้อมใช้งาน (Availability), หรือความทนต่อเครือข่ายพัง (Partition Tolerance)

Part 3: สถาปนิกข้อมูล—ควบคุมและจัดระเบียบ

  1. DAG & Workflow Orchestration → คิดเหมือนผังการทำกับข้าว ต้องรู้ว่า “หั่นผักก่อนต้ม” เครื่องมืออย่าง Airflow ก็คือหัวหน้าเชฟคอยสั่งงาน
  2. Windowing → ในการไลฟ์สด เราจะสรุปยอดคนดู “ทุก 5 นาที” แทนที่จะดูเป็นสายยาวไม่มีที่สิ้นสุด

สุดท้ายแล้ว Data Engineer ที่เก่ง ไม่ใช่คนที่เขียนโค้ดแล้วรันได้เฉย ๆ แต่คือคนที่ “ออกแบบเมืองข้อมูล” ให้ทนทาน ใช้ง่าย และกู้คืนได้เวลามีปัญหา

15 คอนเซ็ปต์นี้แหละครับ ที่เปลี่ยนคุณจาก "ช่างซ่อมท่อ" → เป็น "สถาปนิกข้อมูล" ตัวจริง