데이터 엔지니어링 관련 툴과 프레임워크
1. Data Storage and Processing
- 관계형 데이터베이스
- NoSQL 데이터베이스
- MongoDB
- Cassandra
- 데이터 웨어하우스
- Amazon Redshift
- Google BigQuery
- 데이터 레이크 or 분산 파일 시스템
- Amazon S3
- Hadoop
2. Data Integration and ETL
- 데이터파이프라인 스케줄링 및 오케스트레이션
- Apache Airflow
- Luigi
- 스트리밍 실시간 데이터 처리
- Apache Kafka
- Amazon Kinesis
- transforming and manipulating data in memory
- Apache Spark
- Pandas
- 외부에서 데이터 연결 및 로딩
- Talend
- Stitch
3. Data Quality and Testing
- Deequ or great expectations
- Pytest or Unittest
- Data dog or Prometheus
- Apache Airflow
4. Data Modeling and Design
- 아키텍처 그리기
- ERwin
- SQL Power Architect
- 데이터 스키마
- dbt
- SQLAlchemy
- managing and cataloging data assets
- Apache Atlas
- Collibra
- ※ data modeling techniques and patterns
- dimensional modeling
- start schema
- snowflake schema
- data vault
5. Data Analysis and Visualization
- Jupyter Nodebook or Rstudio
- Apache Zeppelin or Databricks
- Tableau or Power BI