본문 바로가기

빅데이터2

[DB] Hadoop 과 Spark 요약정리 / 3️⃣ - RDD란? 목차 RDD (Resilient Distributed Dataset) Why RDD? 주요 특징 작동방식 RDD 의 생성 RDD 연산 연산 예시 계보 (Lineage) 예시 Lazy Execution 작업 스케쥴링 참고 RDD (Resilient Distributed Dataset) 💡 여러 분산 노드에 걸쳐서 탄력적으로 저장되는 변경이 불가능한 데이터 구조 Spark 의 핵심 데이터 모델 병렬처리 가능 에러 시에도 스스로 복구가 가능 Why RDD? 인메모리 데이터 처리를 위한 데이터 셋 데이터 분산 저장을 위해 데이터에 Fault Tolerance 적용 가능 주요 특징 여러 분산 노드에 나누어짐 매우 효율적인 분산처리 다수의 파티션으로 관리됨 하나의 RDD 는 여러 파티션으로 나뉜다. 파티션의 개수,.. 2021. 3. 7.
[DB] Hadoop 과 Spark 요약정리 / 1️⃣ - 하둡(Hadoop), MapReduce 목차 하둡(Hadoop) 하둡이란? MapReduce 왜 Map-Reduce인가?? MapReduce 의 용어 정리 MapReduce 진행과정 MapReduce Architecture HDFS 주요 특징들 아키텍쳐 참고 하둡(Hadoop) 하둡이란? 데이터 병렬분산처리를 위한 오픈소스 프레임워크 장점 오픈소스로 라이선스에 대한 비용 부담이 적음 시스템을 중단하지 않고, 장비의 추가가 용이(Scale Out) 일부 장비에 장애가 발생하더라도 전체 시스템 사용성에 영향이 적음(Fault tolerance) 저렴한 구축 비용과 비용대비 빠른 데이터 처리 오프라인 배치 프로세싱에 최적화 단점 HDFS에 저장된 데이터를 변경 불가 실시간 데이터 분석 같이 신속하게 처리해야 하는 작업에는 부적합 너무 많은 버전과 .. 2021. 3. 7.