Giai đoạn 1
Data Engineer
Data Engineer Foundation
Làm chủ Big Data và Cloud Computing.
- Làm chủ Big Data và xây dựng hạ tầng dữ liệu với Spark, Hadoop và Cloud ETL Pipelines. 100% thực chiến với dự án thật đang triển khai của doanh nghiệp .
- Nhận Certificate of Completion: Data Engineer pathway.
Học phí
15.000.000
VND
Giai đoạn 1
Kỹ năng đạt được
Big Data Computing
- Apache Spark: Cơ chế Catalyst Optimizer, thực thi Tungsten.
- Optimization: Chiến lược Partitioning, xử lý Data Skew, tinh chỉnh bộ nhớ (Memory Tuning).
- Architecture: Kiến trúc Master-Slave, giao tiếp Driver-Executor.
Modern Architecture
- Lakehouse: Kiến trúc Medallion (Raw/Bronze/Silver/Gold).
- Warehousing: Mô hình hóa đa chiều nâng cao, xử lý SCD Type 2/3.
- Formats: Chuẩn Delta Lake (ACID), tối ưu hóa file Parquet.
Production Pipelines
- Streaming: Xử lý dữ liệu thời gian thực (Real-time).
- Orchestration: Kafka Connect, quản lý Airflow DAGs và Task Dependencies.
- Transformation: Tích hợp dbt (Data Build Tool) chuẩn hóa dữ liệu.
DataOps & Cloud Infrastructure
- CI/CD: Triển khai pipeline tự động (GitHub Actions).
- Container: Đóng gói ứng dụng Spark/Airflow với Docker.
- IaC: Quản lý hạ tầng bằng mã (Infrastructure as Code).
Chi tiết lộ trình
LEVEL 1
Big Data Core
Nội dung chi tiết:
- Advanced Python & SQL: Lập trình hàm (Functional programming), AsyncIO, tối ưu hóa HiveSQL, Recursive CTEs.
- Linux & Shell Automation: Quản lý tiến trình, Cron jobs, viết Bash script tự động hóa, SSH tunneling.
- Hadoop Internals: Kiến trúc HDFS (NameNode/DataNode), quản lý tài nguyên YARN.
- Spark Core Architecture: Cơ chế RDD lineage, lập lịch DAG Scheduler, Catalyst Optimizer, Tungsten.
Kỹ năng:
Linux/Bash
Docker
HDFS/YARN
Spark
Core
SQL
Tuning
Git
Advanced
LEVEL 2
Data Engineering Full Stack & Cloud
Nội dung chi tiết:
- The Lakehouse Pattern: Triển khai kiến trúc Medallion (Bronze/Silver/Gold) với Delta Lake sử dụng Spark.
- Modern ETL & Transformation: Chuyển đổi dữ liệu với dbt (Data Build Tool), điều phối luồng chạy bằng Airflow DAGs.
- Streaming Pipelines: Thu thập dữ liệu thời gian thực với Kafka & Spark Structured Streaming.
- DataOps & Governance: CI/CD với GitHub Actions, kiểm soát chất lượng dữ liệu (Great Expectations).
Kỹ năng:
Databricks
Airflow
dbt
Kafka
Azure/AWS
CI/CD
Sẵn sàng bắt đầu?
Đăng ký ngay để nhận lộ trình chi tiết và tư vấn 1:1
Đăng ký tư vấn