Bizdata Logo
Giai đoạn 1

Data Engineer

Data Engineer Foundation

Làm chủ Big Data và Cloud Computing.

  • Làm chủ Big Data và xây dựng hạ tầng dữ liệu với Spark, Hadoop và Cloud ETL Pipelines. 100% thực chiến với dự án thật đang triển khai của doanh nghiệp .
  • Nhận Certificate of Completion: Data Engineer pathway.

Học phí

15.000.000 VND

Giai đoạn 1

Kỹ năng đạt được

Big Data Computing

  • Apache Spark: Cơ chế Catalyst Optimizer, thực thi Tungsten.
  • Optimization: Chiến lược Partitioning, xử lý Data Skew, tinh chỉnh bộ nhớ (Memory Tuning).
  • Architecture: Kiến trúc Master-Slave, giao tiếp Driver-Executor.

Modern Architecture

  • Lakehouse: Kiến trúc Medallion (Raw/Bronze/Silver/Gold).
  • Warehousing: Mô hình hóa đa chiều nâng cao, xử lý SCD Type 2/3.
  • Formats: Chuẩn Delta Lake (ACID), tối ưu hóa file Parquet.

Production Pipelines

  • Streaming: Xử lý dữ liệu thời gian thực (Real-time).
  • Orchestration: Kafka Connect, quản lý Airflow DAGs và Task Dependencies.
  • Transformation: Tích hợp dbt (Data Build Tool) chuẩn hóa dữ liệu.

DataOps & Cloud Infrastructure

  • CI/CD: Triển khai pipeline tự động (GitHub Actions).
  • Container: Đóng gói ứng dụng Spark/Airflow với Docker.
  • IaC: Quản lý hạ tầng bằng mã (Infrastructure as Code).

Chi tiết lộ trình

LEVEL 1

Big Data Core

Nội dung chi tiết:

  • Advanced Python & SQL: Lập trình hàm (Functional programming), AsyncIO, tối ưu hóa HiveSQL, Recursive CTEs.
  • Linux & Shell Automation: Quản lý tiến trình, Cron jobs, viết Bash script tự động hóa, SSH tunneling.
  • Hadoop Internals: Kiến trúc HDFS (NameNode/DataNode), quản lý tài nguyên YARN.
  • Spark Core Architecture: Cơ chế RDD lineage, lập lịch DAG Scheduler, Catalyst Optimizer, Tungsten.

Kỹ năng:

Linux/Bash Docker HDFS/YARN Spark Core SQL Tuning Git Advanced

LEVEL 2

Data Engineering Full Stack & Cloud

Nội dung chi tiết:

  • The Lakehouse Pattern: Triển khai kiến trúc Medallion (Bronze/Silver/Gold) với Delta Lake sử dụng Spark.
  • Modern ETL & Transformation: Chuyển đổi dữ liệu với dbt (Data Build Tool), điều phối luồng chạy bằng Airflow DAGs.
  • Streaming Pipelines: Thu thập dữ liệu thời gian thực với Kafka & Spark Structured Streaming.
  • DataOps & Governance: CI/CD với GitHub Actions, kiểm soát chất lượng dữ liệu (Great Expectations).

Kỹ năng:

Databricks Airflow dbt Kafka Azure/AWS CI/CD

Sẵn sàng bắt đầu?

Đăng ký ngay để nhận lộ trình chi tiết và tư vấn 1:1

Đăng ký tư vấn