一级: 全部 文章

文章列表 Articles

Spark源码分析33 - 计算引擎10:Shuffle过程(7)ExternalAppendOnlyMap

大数据
流式处理
源码解析
Spark

Reduce端在处理聚合操作时为了避免数据量过大产生OOM,没有使用Map端聚合时用到AppendOnlyMap,而采用了ExternalAppendOnlyMap这种带有溢写操作... 查看更多

2019-10-18 145 阅读 0 评论

Spark源码分析32 - 计算引擎09:Shuffle过程(6)ShuffleReader

大数据
流式处理
源码解析
Spark

ShuffleReader只有一个实现类:BlockStoreShuffleReader,该类也是Spark中唯一实现的用于拉取Map任务输出数据读取器。 查看更多

2019-10-17 105 阅读 0 评论

Spark源码分析31 - 计算引擎08:Shuffle过程(5)ShuffleWriter

大数据
流式处理
源码解析
Spark

ShuffleWriter是Map任务用于输出结果数据的写出器,主要有三个实现:UnsafeShuffleWriter、BypassMergeSortShuffleWriter和S... 查看更多

2019-10-16 126 阅读 0 评论

Spark源码分析30 - 计算引擎07:Shuffle过程(4)ExternalSorter

大数据
流式处理
源码解析
Spark

ExternalSorter除了会将Map任务的输出数据存储到JVM的堆中,如果指定了聚合函数,则还会对数据进行聚合。ExternalSorter会使用分区器将数组分组到对应的分区... 查看更多

2019-10-15 152 阅读 0 评论

Spark源码分析29 - 计算引擎06:Shuffle过程(3)键值对聚合及排序容器

大数据
流式处理
源码解析
Spark

为了实现Sorter对键值对的聚合和排序操作,Spark提供了一些容器辅助,本文将详细介绍这些容器 查看更多

2019-10-14 192 阅读 0 评论

Spark源码分析28 - 计算引擎05:Shuffle过程(2)ShuffleExternalSorter

大数据
流式处理
源码解析
Spark

ShuffleExternalSorter作为外部排序器,UnsafeShuffleWriter依赖于它实现堆外内存中序列化数据的排序操作,它继承自MemoryConsumer抽象... 查看更多

2019-10-13 98 阅读 0 评论

Spark源码分析27 - 计算引擎04:Shuffle过程(1)ShuffleManager和IndexShuffleBlockResolver

大数据
流式处理
源码解析
Spark

本文主要讲解Shuffle过程涉及的ShuffleManager和IndexShuffleBlockResolver组件。 查看更多

2019-10-12 237 阅读 0 评论

Spark源码分析26 - 计算引擎03:RDD的迭代计算

大数据
流式处理
源码解析
Spark

ShuffleMapTask和ResultTask都需要调用所在Stage中最末RDD的iterator()方法进行迭代计算,不同点无非是二者对迭代计算结果的处理方式不同,Shuf... 查看更多

2019-10-11 189 阅读 0 评论

Spark源码分析25 - 计算引擎02:Task、TaskContxt和TaskMemoryManager

大数据
流式处理
源码解析
Spark

本文主要介绍Task、TaskContxt和TaskMemoryManager。 查看更多

2019-10-09 209 阅读 0 评论

Spark源码分析24 - 计算引擎01:CoarseGrainedExecutorBackend、Executor和TaskRunner

大数据
流式处理
源码解析
Spark

在讲解计算引擎之前,以Standalone部署模式为运行环境,让我们来理一理Application运行流程。 查看更多

2019-10-06 183 阅读 0 评论

标签墙

关于 [5]
本站相关 [4]
Java [142]
语言基础 [37]
Java集合 [20]
反编译 [1]
Java IO [27]
纳粹 [1]
二战 [1]
Java虚拟机 [21]
Java Web基础 [9]
软件工具使用 [8]
Mac [2]
Java Web框架 [25]
MySQL [9]
XenServer [4]
大数据 [102]
流式处理 [80]
基础组件 [21]
Linux [1]
数据结构 [0]
HBase [6]
分布式存储 [6]
Java多线程 [47]
Java并发 [32]
NIO [4]
Git [5]
Spring [1]
Hive [3]
Nginx [3]
JUC相关 [3]
编辑器 [1]
JUC锁 [12]
Spark [43]
JUC集合 [12]
线程池 [9]
源码解析 [58]
Kafka [29]