본문 바로가기

RDD1

[DB] Hadoop 과 Spark 요약정리 / 3️⃣ - RDD란? 목차 RDD (Resilient Distributed Dataset) Why RDD? 주요 특징 작동방식 RDD 의 생성 RDD 연산 연산 예시 계보 (Lineage) 예시 Lazy Execution 작업 스케쥴링 참고 RDD (Resilient Distributed Dataset) 💡 여러 분산 노드에 걸쳐서 탄력적으로 저장되는 변경이 불가능한 데이터 구조 Spark 의 핵심 데이터 모델 병렬처리 가능 에러 시에도 스스로 복구가 가능 Why RDD? 인메모리 데이터 처리를 위한 데이터 셋 데이터 분산 저장을 위해 데이터에 Fault Tolerance 적용 가능 주요 특징 여러 분산 노드에 나누어짐 매우 효율적인 분산처리 다수의 파티션으로 관리됨 하나의 RDD 는 여러 파티션으로 나뉜다. 파티션의 개수,.. 2021. 3. 7.