목차
1. 핵심 데이터 개념 살펴보기
2. 데이터 역할 및 서비스 검색
핵심 데이터 개념 살펴보기
1. 데이터 형식 식별하기
- 정형데이터 / 반정형 데이터 (json 등) / 비정형 데이터 (문서, 이미지 등)
2. 파일 스토리지 살펴보기
- csv, json, xml
- BLOB (Binary Large Object) : 대용량 이진 데이터를 저장하는 파일 형식
3. 데이터베이스 검색
- 관계형 데이터베이스
- 비관계형 데이터베이스 : 키-값 데이터베이스 / 문서 데이터베이스
- 열 패밀리 데이터베이스
- 그래프 데이터베이스
4. 트랜잭션 데이터 처리 살펴보기
- OLTP : 온라인트랜잭션처
5. 분석 데이터 처리 살펴보기
- 작동 데이터가 분석을 위해 데이터레이크로 ETL됨.
- 데이터가 테이블 스키마로 로드 (Spark 기반 데이터 레이크하우스 or 데이터 웨어하우스에서 로드)
- 데이터 웨어하우스의 데이터를 집계하여 OLAP 모델에 로드
- 데이터 레이크, 데이터 웨어하우스 및 분석 모델의 데이터를 시각화 생성
- 데이터 레이크 : 대량의 파일 기반 데이터가 수집되어 분석되는 곳
- 데이터 웨어하우스 : 읽기 작업에 최적화된 관계형 스키마에 데이터를 저장하는 방법
- OLAP 모델 : 분석 워크로드에 최적화된 데이터 스토리지의 집계된 유형
데이터 역할 및 서비스 검색
1. 데이터 세계에서 작업 역할 살펴보기
- 데이터베이스 관리자
- 데이터 엔지니어 : 데이터 수집, 파이프라인 정비 및 변환 활동, 워크로드 설계 및 구현 / 데이터 플랫폼 기술 사용 /
- 데이터 분석가 : 데이터 탐색을 통해 추세와 관계 식별, 분석 모델 디자인 빌드, 시각화 등 인사이트 제공
데이터 서비스 식별하기
* Microsoft Azure : 여러 조직의 애플리케이션과 IT 인프라를 구동하는 클라우드 플랫폼 / 트랜잭션, 분석 데이터 워크로드 포함
1. Azure SQL
- Microsoft SQL Server 데이터베이스 엔진으로 구동되는 관계형 데이터베이스 솔루션 제품군 통칭 (아래는 종류)
- Azure SQL Database : Azure에서 호스트되는 완전 관리형 Paas 데이터베이스
- Azure SQL Managed Instance : 자동 유지 관리 기능을 간춘 호스트된 SQL Server instance / Azure SQL 데이터베이스보다 유연성 있는 구성이 지원되지만 소유가자 더 높은 관리 책임을 갖음.
- Azure SQL VM : SQL Server가 설치된 가상 머신 / 가장 유연한 구성 지원 / 소유자 가전적인 관리 책임 갖음
- 데이터베이스 관리자 : Azure SQL 데이터베이스 시스템을 프로비저닝 / 트랜잭션 데이터를 저장해야 하는 사업부문 애플리케이션 지원
- 데이터 엔지니어 : ETL작업을 수행하여 트랜잭션 데이ㅓ를 분석 시스템으로 수집하는 데이터 파이프라인의 원본으로 Azure SQL 데이터베이스 사용
- 데이터 분석가 : 분석 데이터 저장소에 있는 다른 원본의 데이터와 결합되어 엔터프라이즈 분석 지원
2. 오픈 소스 관계형 데이터베이스를 위한 Azure Database
- 오픈 소스 관계형 데이터 베이스를 위한 관리형 서비스 제공
- Azure Database for MySQL : LAMP(Linux, Apache, MySQL, PHP)스택 앱에서 널리 사용되는 DBMS
- Azure Database for MariaDB : Oracle과의 호환성 제공
- Azure Database for ProstgreSQL : 하이브리드 관계형 개체 데이터베이스 / cf. PostgreSQL는 사용자 지정 데이터 형식을 고유한 비관계형 속성과 함께 저장 가능
3. Azure Storage
- 아래 같은 데이터를 저장할 수 있는 서비스
- Blob 컨테이너 : 이진 파일을 위한 스케일링 가능하고 비용이 효율적인 스토리지
- 파일 공유 : 회사 네트워크에서 볼 수 있는 네트워크 파일 공유
- 테이블 : 키-값 소트로지
- 데이터 과학자가 Azure Storage를 사용하여 데이터 레이크를 호트스함.
cf) 데이터 레이크 : 파일을 분산 파일 시스템의 폴더에 정리할 수 있도록 지원하고 계층 구조 네임스페이스를 갖는 Blob 스토리지
4. Azure Data Factory (ADF)
- 데이터 파이프라인을 정의 및 예약하여 데이터를 전송하고 변환할 수 있도록 지원하는 서비스
- 파이프라인을 다른 Azure 서비스와 통합하여 클라우드 데이터 저장소에서 데이터를 수집하고 클라우드 기반 컴퓨팅을 사용하여 데이터를 처리하고 결과를 다른 데이터 저장소에 보관
- 데이터 엔지니어가 조직의 트랜잭션 시스템에 있는 데이터로 분석 데이터 저장소를 채워 주는 ETL 솔루션을 빌드하는 용도로 사용
5. Azure Synaps Analytics
- 다음을 포함한 여러 분석 기능을 위한 단일 서비스 인터페이스를 제공하고 데이터 분석을 위한 포괄적인 통합 Paas
- Pipelines : Azure Data Factory와 동일한 기술 기반
- SQL : 데이터 웨어하우스 워크로드에 최적화되고 스케일링 성능이 뛰어난 SQL 데이터베이스 엔진
- Apache Spark : Java, Scala, Python, SQL 언어를 지원하는 오픈 소스 분산 데이터 처리 시스템
- Azure Synapse 데이터 탐색기 : KQL(Kusto 쿼리언어)를 사용하여 로그 및 원격 분석 데이터를 실시간으로 쿼리하는데 최적화된 고성능 데이터 분석 솔루션
- 데이터 엔지니어는 Azure Synaps Analytics를 통해 데이터 수집 파이프라인, 데이터 웨어하우스 스토리지 및 데이터 레이크 스토리지를 결합하는 통합된 데이터 분석 솔루션을 만들 수 있다.
- 데이터 분석가는 대화형 전자필기장을 통해(???) SQL 및 Spark 풀을 사용하여 데이터를 검색 및 분석 / Azure Machine Learning, Microsoft Power BI와 같은 서비스와 통합하여 데이터 모델을 만들고 인사이트 추출
6. Azure Databricks
- Databricks 플랫폼의 Azure 통합 버전
cf) Databricks : 데이터를 분석하고 인공지능을 활용하는 데 도움을 주는 클라우드 기반 플랫폼. 데이터를 저장하고 처리함.?
- Apache Spark 데이터 처리 플랫폼에 SQL 데이터베이스 의미 체계와 대규모 데이터 분석을 지원하는 통합 관리 인터페이스 결합
- 데이터 엔지니어는 기존 Databricks 및 Spark 역량을 사용하여 Azure Databricks 내에 분석 데이터 저장소를 만듦.
- 데이터 분석가는 Azure Databricks의 네이티브 전자 필기장 지원을 사용하여 윕 기반 인터페이스에서 데이터를 쿼리하고 시각화
7. Azure HDInsight
- Apache 오픈 소스 빅데이터 처리 기술을 위해 Azure에 호스트된 클러스터를 제공하는 Azure 서비스
- Apache Spark : Java, Scala, Python, SQL과 같은 프로그래밍 언어와 API를 지원하는 분산 데이터 처리 시스템
- Apache Hadoop : MapReduce 작업을 사용하여 여러 클러스터 노드에서 다량의 데이터를 효율적으로 처리하는 분산 시스템 (cf. MapReduce 작업은 Java로 작성하거나 Apache Hive와 같은 인터페이스에 의해 추상화할 수 있음)
- Apache HBase : 대규모 NoSQL 데이터의 저장 및 쿼리를 위한 오픈 소스 시스템
- Apache Kafka : 데이터 스트림 처리를 위한 메시지 브로커
- 데이터 엔지니어는 Azure HDInsight를 사용하여 여러 오픈 소스 기술을 사용하는 빅 데이터 분석 워크로드를 지원 가능
8. Azure Stream Analytics
- 입력에서 데이터 스트림을 캡처하고 쿼리를 적용하여 입력 스트림의 데이터를 추출 및 조작한 다음 분석이나 추가 처리를 위해 결과 출력에 쓰는 실시간 스트림 처리 엔진
- 데이터 엔지니어는 Azure Stram Analytics를 분석 데이터 저장소에 수집하거나 실시간으로 시각화하기 위해 스트리밍 데이터를 캡처하는 데이터 분석 아키텍처에 통합 가능
9. Azure Data Explorer
- Azure Synapse Analytics의 Azure Synaps 데이터 탐색기 런타임과 동일한 고성능의 로그 및 원격 분석 데이터 쿼리 기능을 제공하는 독립 실행형 서비스
- 데이터 분석가는 주로 로그 파일과 IoT 원격 분석 데이터에서 볼 수 있는 타임스탬프 특성을 포함하는 데이터를 쿼리하고 분석 가능
10. Microsoft Purview
- 엔터프라이즈 전체 데이터 거버넌스 및 검색 가능성을 위한 솔루션
- 여러 데이터 원본 및 시스템에서 데이터 맵을 만들고 데이터 계보를 추적하는데 사용
- 데이터 엔지니어는 엔터프라이즈 전체에서 데이터 거버넌스를 적용하고 분석 워크로드를 지원
11. Microsoft Fabric
- 개방형, 관리형 레이크하우스를 기반으로 하는 통합 SaaS 분석 플랫폼
- 데이터 수집 및 ETL
- 데이터 레이크하우스 분석
- 데이터 웨어하우스 분석
- 데이터 과학 및 기계 학습
- 실시간 분석
- 데이터 시각화
- 데이터 거버넌스 및 관리
'Azure' 카테고리의 다른 글
[DP-900] 4. Microsoft Azure 데이터 기본 사항: Azure의 데이터 분석 탐색 - 대규모 분석의 기본 사항 살펴보기 (3) | 2024.09.25 |
---|---|
[Azure] DWU 의미 (0) | 2024.09.25 |
[DP-900] 3. Microsoft Azure 데이터 기본 사항: Azure에서 비관계형 데이터 탐색 (1) | 2024.09.12 |
[DP-900] 2. Microsoft Azure 데이터 기본 사항 : Azure에서 관계형 데이터 탐색 (1) | 2024.09.06 |
[DP-900] Microsoft Azure 데이터 기본 사항 (0) | 2024.09.05 |