데이터분석 6기/본캠프

2025-05-27 스파크 특강 ot

seyeon1130 2025. 5. 27. 16:16

ETL과 ELT

ETL: 데이터 적재 전에 가공

ELT: 데이터 적재 후 가공

Parquet : 실무에서는 보통 이거 사용. 열기반, 빅데이터 다룰 때 유용함,스키마 존재

 

스파크

드라이버: 메타데이터 읽기, 스키마 추론

마스터: excutor 할당 지시

excutor: 병렬 데이터 읽기

 

메타데이터 예시

엑셀 파일 (데이터셋)

  • 데이터: 성적표
  • 메타데이터:
    • 컬럼명: 이름, 국어, 영어, 수학
    • 데이터 타입: 문자열, 숫자, 숫자, 숫자
    • 작성자: 황주원
    • 생성일자: 2024-06-12

OOM = Out Of Memory

메모리가 부족해서 프로그램이 더 이상 실행될 수 없는 상태!

 

'데이터분석 6기 > 본캠프' 카테고리의 다른 글

2025-05-28 spark 피하기  (0) 2025.05.28
2025-05-27 무신사 크롤링  (1) 2025.05.27
2025-05-26 spark  (1) 2025.05.26
2025-05-24 정적 크롤링 과제  (0) 2025.05.24
2025-05-23 크롤링  (1) 2025.05.23