Home 데이터엔지니어링 한눈에 보기 - 프레임워크 및 기타 툴
Post
Cancel

데이터엔지니어링 한눈에 보기 - 프레임워크 및 기타 툴

데이터 엔지니어링 관련 툴과 프레임워크

1. Data Storage and Processing

  • 관계형 데이터베이스
  • NoSQL 데이터베이스
    • MongoDB
    • Cassandra
  • 데이터 웨어하우스
    • Amazon Redshift
    • Google BigQuery
  • 데이터 레이크 or 분산 파일 시스템
    • Amazon S3
    • Hadoop

2. Data Integration and ETL

  • 데이터파이프라인 스케줄링 및 오케스트레이션
    • Apache Airflow
    • Luigi
  • 스트리밍 실시간 데이터 처리
    • Apache Kafka
    • Amazon Kinesis
  • transforming and manipulating data in memory
    • Apache Spark
    • Pandas
  • 외부에서 데이터 연결 및 로딩
    • Talend
    • Stitch

3. Data Quality and Testing

  • Deequ or great expectations
  • Pytest or Unittest
  • Data dog or Prometheus
  • Apache Airflow

4. Data Modeling and Design

  • 아키텍처 그리기
    • ERwin
    • SQL Power Architect
  • 데이터 스키마
    • dbt
    • SQLAlchemy
  • managing and cataloging data assets
    • Apache Atlas
    • Collibra
  • ※ data modeling techniques and patterns
    • dimensional modeling
    • start schema
    • snowflake schema
    • data vault

5. Data Analysis and Visualization

  • Jupyter Nodebook or Rstudio
  • Apache Zeppelin or Databricks
  • Tableau or Power BI



출처
data engineering tools

This post is licensed under CC BY 4.0 by the author.