목차

1. 핵심 데이터 개념 살펴보기

2. 데이터 역할 및 서비스 검색

 

 


 

 

핵심 데이터 개념 살펴보기

1. 데이터 형식 식별하기

 - 정형데이터 / 반정형 데이터 (json 등) / 비정형 데이터 (문서, 이미지 등)

2. 파일 스토리지 살펴보기

 -  csv, json, xml

 - BLOB (Binary Large Object) : 대용량 이진 데이터를 저장하는 파일 형식

3. 데이터베이스 검색

 - 관계형 데이터베이스

 - 비관계형 데이터베이스 : 키-값 데이터베이스 / 문서 데이터베이스

 - 열 패밀리 데이터베이스

 - 그래프 데이터베이스

4. 트랜잭션 데이터 처리 살펴보기

 - OLTP : 온라인트랜잭션처

5. 분석 데이터 처리 살펴보기

 - 작동 데이터가 분석을 위해 데이터레이크로 ETL됨.

 - 데이터가 테이블 스키마로 로드 (Spark 기반 데이터 레이크하우스 or 데이터 웨어하우스에서 로드)

 - 데이터 웨어하우스의 데이터를 집계하여 OLAP 모델에 로드

 - 데이터 레이크, 데이터 웨어하우스 및 분석 모델의 데이터를 시각화 생성

 - 데이터 레이크 : 대량의 파일 기반 데이터가 수집되어 분석되는 곳

 - 데이터 웨어하우스 : 읽기 작업에 최적화된 관계형 스키마에 데이터를 저장하는 방법

 -  OLAP 모델 : 분석 워크로드에 최적화된 데이터 스토리지의 집계된 유형

 

 

 

데이터 역할 및 서비스 검색

1. 데이터 세계에서 작업 역할 살펴보기

 - 데이터베이스 관리자

 - 데이터 엔지니어 : 데이터 수집, 파이프라인 정비 및 변환 활동, 워크로드 설계 및 구현 / 데이터 플랫폼 기술 사용 / 

 - 데이터 분석가 : 데이터 탐색을 통해 추세와 관계 식별, 분석 모델 디자인 빌드, 시각화 등 인사이트 제공

 

 

데이터 서비스 식별하기

* Microsoft Azure : 여러 조직의 애플리케이션과 IT 인프라를 구동하는 클라우드 플랫폼 / 트랜잭션, 분석 데이터 워크로드 포함

 

1. Azure SQL

 - Microsoft SQL Server 데이터베이스 엔진으로 구동되는 관계형 데이터베이스 솔루션 제품군 통칭 (아래는 종류)

  • Azure SQL Database : Azure에서 호스트되는 완전 관리형 Paas 데이터베이스
  • Azure SQL Managed Instance : 자동 유지 관리 기능을 간춘 호스트된 SQL Server instance / Azure SQL 데이터베이스보다 유연성 있는 구성이 지원되지만 소유가자 더 높은 관리 책임을 갖음.
  • Azure SQL VM : SQL Server가 설치된 가상 머신 / 가장 유연한 구성 지원 / 소유자 가전적인 관리 책임 갖음

 - 데이터베이스 관리자 : Azure SQL 데이터베이스 시스템을 프로비저닝 / 트랜잭션 데이터를 저장해야 하는 사업부문 애플리케이션 지원

 - 데이터 엔지니어 : ETL작업을 수행하여 트랜잭션 데이ㅓ를 분석 시스템으로 수집하는 데이터 파이프라인의 원본으로 Azure SQL 데이터베이스 사용

 - 데이터 분석가 : 분석 데이터 저장소에 있는 다른 원본의 데이터와 결합되어 엔터프라이즈 분석 지원

 

 

2. 오픈 소스 관계형 데이터베이스를 위한 Azure Database

 - 오픈 소스 관계형 데이터 베이스를 위한 관리형 서비스 제공

  • Azure Database for MySQL : LAMP(Linux, Apache, MySQL, PHP)스택 앱에서 널리 사용되는 DBMS
  • Azure Database for MariaDB : Oracle과의 호환성 제공
  • Azure Database for ProstgreSQL : 하이브리드 관계형 개체 데이터베이스 / cf. PostgreSQL는 사용자 지정 데이터 형식을 고유한 비관계형 속성과 함께 저장 가능

 

3. Azure Storage

 - 아래 같은 데이터를 저장할 수 있는 서비스

  • Blob 컨테이너 : 이진 파일을 위한 스케일링 가능하고 비용이 효율적인 스토리지
  • 파일 공유 : 회사 네트워크에서 볼 수 있는 네트워크 파일 공유
  • 테이블 : 키-값 소트로지

- 데이터 과학자가 Azure Storage를 사용하여 데이터 레이크를 호트스함. 

cf) 데이터 레이크 : 파일을 분산 파일 시스템의 폴더에 정리할 수 있도록 지원하고 계층 구조 네임스페이스를 갖는 Blob 스토리지 

 

 

4. Azure Data Factory (ADF)

 - 데이터 파이프라인을 정의 및 예약하여 데이터를 전송하고 변환할 수 있도록 지원하는 서비스

 - 파이프라인을 다른 Azure 서비스와 통합하여 클라우드 데이터 저장소에서 데이터를 수집하고 클라우드 기반 컴퓨팅을 사용하여 데이터를 처리하고 결과를 다른 데이터 저장소에 보관

 - 데이터 엔지니어가 조직의 트랜잭션 시스템에 있는 데이터로 분석 데이터 저장소를 채워 주는 ETL 솔루션을 빌드하는 용도로 사용

 

 

5. Azure Synaps Analytics

 - 다음을 포함한 여러 분석 기능을 위한 단일 서비스 인터페이스를 제공하고 데이터 분석을 위한 포괄적인 통합 Paas

  • Pipelines : Azure Data Factory와 동일한 기술 기반
  • SQL : 데이터 웨어하우스 워크로드에 최적화되고 스케일링 성능이 뛰어난 SQL 데이터베이스 엔진
  • Apache Spark : Java, Scala, Python, SQL 언어를 지원하는 오픈 소스 분산 데이터 처리 시스템
  • Azure Synapse 데이터 탐색기 : KQL(Kusto 쿼리언어)를 사용하여 로그 및 원격 분석 데이터를 실시간으로 쿼리하는데 최적화된 고성능 데이터 분석 솔루션

- 데이터 엔지니어는 Azure Synaps Analytics를 통해 데이터 수집 파이프라인, 데이터 웨어하우스 스토리지 및 데이터 레이크 스토리지를 결합하는 통합된 데이터 분석 솔루션을 만들 수 있다.

 - 데이터 분석가는 대화형 전자필기장을 통해(???) SQL 및 Spark 풀을 사용하여 데이터를 검색 및 분석 / Azure Machine Learning, Microsoft Power BI와 같은 서비스와 통합하여 데이터 모델을 만들고 인사이트 추출

 

 

6. Azure Databricks

 - Databricks 플랫폼의 Azure 통합 버전

   cf) Databricks : 데이터를 분석하고 인공지능을 활용하는 데 도움을 주는 클라우드 기반 플랫폼. 데이터를 저장하고 처리함.?

 - Apache Spark 데이터 처리 플랫폼에 SQL 데이터베이스 의미 체계와 대규모 데이터 분석을 지원하는 통합 관리 인터페이스 결합

 - 데이터 엔지니어는 기존 Databricks 및 Spark 역량을 사용하여 Azure Databricks 내에 분석 데이터 저장소를 만듦.

 - 데이터 분석가는 Azure Databricks의 네이티브 전자 필기장 지원을 사용하여 윕 기반 인터페이스에서 데이터를 쿼리하고 시각화

 

 

7. Azure HDInsight

 - Apache 오픈 소스 빅데이터 처리 기술을 위해 Azure에 호스트된 클러스터를 제공하는 Azure 서비스

  • Apache Spark : Java, Scala, Python, SQL과 같은 프로그래밍 언어와 API를 지원하는 분산 데이터 처리 시스템
  • Apache Hadoop : MapReduce 작업을 사용하여 여러 클러스터 노드에서 다량의 데이터를 효율적으로 처리하는 분산 시스템 (cf. MapReduce 작업은 Java로 작성하거나 Apache Hive와 같은 인터페이스에 의해 추상화할 수 있음)
  • Apache HBase : 대규모 NoSQL 데이터의 저장 및 쿼리를 위한 오픈 소스 시스템
  • Apache Kafka : 데이터 스트림 처리를 위한 메시지 브로커

- 데이터 엔지니어는 Azure HDInsight를 사용하여 여러 오픈 소스 기술을 사용하는 빅 데이터 분석 워크로드를 지원 가능

 

 

8. Azure Stream Analytics

- 입력에서 데이터 스트림을 캡처하고 쿼리를 적용하여 입력 스트림의 데이터를 추출 및 조작한 다음 분석이나 추가 처리를 위해 결과 출력에 쓰는 실시간 스트림 처리 엔진

- 데이터 엔지니어는 Azure Stram Analytics를 분석 데이터 저장소에 수집하거나 실시간으로 시각화하기 위해 스트리밍 데이터를 캡처하는 데이터 분석 아키텍처에 통합 가능

 

 

9. Azure Data Explorer

 - Azure Synapse Analytics의 Azure Synaps 데이터 탐색기 런타임과 동일한 고성능의 로그 및 원격 분석 데이터 쿼리 기능을 제공하는 독립 실행형 서비스

 - 데이터 분석가는 주로 로그 파일과 IoT 원격 분석 데이터에서 볼 수 있는 타임스탬프 특성을 포함하는 데이터를 쿼리하고 분석 가능

 

 

10. Microsoft Purview

 - 엔터프라이즈 전체 데이터 거버넌스 및 검색 가능성을 위한 솔루션

 - 여러 데이터 원본 및 시스템에서 데이터 맵을 만들고 데이터 계보를 추적하는데 사용

 - 데이터 엔지니어는 엔터프라이즈 전체에서 데이터 거버넌스를 적용하고 분석 워크로드를 지원

 

 

11. Microsoft Fabric

 - 개방형, 관리형 레이크하우스를 기반으로 하는 통합 SaaS 분석 플랫폼

  • 데이터 수집 및 ETL
  • 데이터 레이크하우스 분석
  • 데이터 웨어하우스 분석
  • 데이터 과학 및 기계 학습
  • 실시간 분석
  • 데이터 시각화
  • 데이터 거버넌스 및 관리

+ Recent posts