ETL과 ELT
ETL: 데이터 적재 전에 가공
ELT: 데이터 적재 후 가공
Parquet : 실무에서는 보통 이거 사용. 열기반, 빅데이터 다룰 때 유용함,스키마 존재
스파크
드라이버: 메타데이터 읽기, 스키마 추론
마스터: excutor 할당 지시
excutor: 병렬 데이터 읽기
메타데이터 예시
엑셀 파일 (데이터셋)
- 데이터: 성적표
- 메타데이터:
- 컬럼명: 이름, 국어, 영어, 수학
- 데이터 타입: 문자열, 숫자, 숫자, 숫자
- 작성자: 황주원
- 생성일자: 2024-06-12
OOM = Out Of Memory
메모리가 부족해서 프로그램이 더 이상 실행될 수 없는 상태!
'데이터분석 6기 > 본캠프' 카테고리의 다른 글
2025-05-28 spark 피하기 (0) | 2025.05.28 |
---|---|
2025-05-27 무신사 크롤링 (1) | 2025.05.27 |
2025-05-26 spark (1) | 2025.05.26 |
2025-05-24 정적 크롤링 과제 (0) | 2025.05.24 |
2025-05-23 크롤링 (1) | 2025.05.23 |