DATA
ENGINEERING
Инженерия данных — проектирование и построение систем для сбора, хранения и обработки данных в масштабе. От ETL-пайплайнов до распределенных систем.
СТЕК ТЕХНОЛОГИЙ DE
Ingestion
Сбор и потоковая обработка данных
KafkaFlinkAirbyteDebezium
Storage
Хранение структурированных и неструктурированных данных
S3SnowflakeBigQueryDelta Lake
Processing
Трансформация и обработка данных
SparkdbtPandasRay
Orchestration
Управление пайплайнами и зависимостями
AirflowPrefectDagsterLuigi
Monitoring
Наблюдаемость и качество данных
GrafanaPrometheusMetaplaneDatafold
ОСНОВЫ DATA ENGINEERING
ETL И ПАЙПЛАЙНЫ
ХРАНЕНИЕ ДАННЫХ
Принципы DE
- Idempotency (идемпотентность)
- Fault tolerance (отказоустойчивость)
- Scalability (масштабируемость)
- Reproducibility (воспроизводимость)
- Maintainability (поддерживаемость)
- Data Quality (качество данных)
- Security (безопасность)
- Cost Efficiency (эффективность затрат)