Spark源码分析 - 2.1.0版本源码分析系列文章总纲目录 置顶

大数据
流式处理
Spark
源码解析

Spark 2.1.0版本源码分析总纲目录 查看更多

2019-08-07 218 阅读 0 评论

Spark源码分析33 - 计算引擎10:Shuffle过程(7)ExternalAppendOnlyMap

大数据
流式处理
源码解析
Spark

Reduce端在处理聚合操作时为了避免数据量过大产生OOM,没有使用Map端聚合时用到AppendOnlyMap,而采用了ExternalAppendOnlyMap这种带有溢写操作... 查看更多

2019-10-18 99 阅读 0 评论

Spark源码分析32 - 计算引擎09:Shuffle过程(6)ShuffleReader

大数据
流式处理
源码解析
Spark

ShuffleReader只有一个实现类:BlockStoreShuffleReader,该类也是Spark中唯一实现的用于拉取Map任务输出数据读取器。 查看更多

2019-10-17 68 阅读 0 评论

Spark源码分析31 - 计算引擎08:Shuffle过程(5)ShuffleWriter

大数据
流式处理
源码解析
Spark

ShuffleWriter是Map任务用于输出结果数据的写出器,主要有三个实现:UnsafeShuffleWriter、BypassMergeSortShuffleWriter和S... 查看更多

2019-10-16 97 阅读 0 评论

Spark源码分析30 - 计算引擎07:Shuffle过程(4)ExternalSorter

大数据
流式处理
源码解析
Spark

ExternalSorter除了会将Map任务的输出数据存储到JVM的堆中,如果指定了聚合函数,则还会对数据进行聚合。ExternalSorter会使用分区器将数组分组到对应的分区... 查看更多

2019-10-15 118 阅读 0 评论

Spark源码分析29 - 计算引擎06:Shuffle过程(3)键值对聚合及排序容器

大数据
流式处理
源码解析
Spark

为了实现Sorter对键值对的聚合和排序操作,Spark提供了一些容器辅助,本文将详细介绍这些容器 查看更多

2019-10-14 157 阅读 0 评论

Spark源码分析28 - 计算引擎05:Shuffle过程(2)ShuffleExternalSorter

大数据
流式处理
源码解析
Spark

ShuffleExternalSorter作为外部排序器,UnsafeShuffleWriter依赖于它实现堆外内存中序列化数据的排序操作,它继承自MemoryConsumer抽象... 查看更多

2019-10-13 54 阅读 0 评论

Spark源码分析27 - 计算引擎04:Shuffle过程(1)ShuffleManager和IndexShuffleBlockResolver

大数据
流式处理
源码解析
Spark

本文主要讲解Shuffle过程涉及的ShuffleManager和IndexShuffleBlockResolver组件。 查看更多

2019-10-12 143 阅读 0 评论

Spark源码分析26 - 计算引擎03:RDD的迭代计算

大数据
流式处理
源码解析
Spark

ShuffleMapTask和ResultTask都需要调用所在Stage中最末RDD的iterator()方法进行迭代计算,不同点无非是二者对迭代计算结果的处理方式不同,Shuf... 查看更多

2019-10-11 164 阅读 0 评论

Spark源码分析25 - 计算引擎02:Task、TaskContxt和TaskMemoryManager

大数据
流式处理
源码解析
Spark

本文主要介绍Task、TaskContxt和TaskMemoryManager。 查看更多

2019-10-09 176 阅读 0 评论

Spark源码分析24 - 计算引擎01:CoarseGrainedExecutorBackend、Executor和TaskRunner

大数据
流式处理
源码解析
Spark

在讲解计算引擎之前,以Standalone部署模式为运行环境,让我们来理一理Application运行流程。 查看更多

2019-10-06 152 阅读 0 评论

Spark源码分析23 - 调度系统08:TaskScheduler

大数据
流式处理
源码解析
Spark

TaskScheduler意为任务调度器,它是属于Spark调度系统中对Task进行调度的资源调度器。Spark自己提供了Standalone模式的集群管理器,也允许开发者使用YA... 查看更多

2019-09-30 162 阅读 0 评论

Spark源码分析22 - 调度系统07:StandaloneAppClient和ClientEndpoint

大数据
流式处理
源码解析
Spark

StandaloneAppClient将作为Application的RPC端点,与Spark自有的Standalone集群管理器进行对话;它会通过向Standalone集群管理器注... 查看更多

2019-09-28 144 阅读 0 评论

Spark源码分析21 - 调度系统06:SchedulerBackend和DriverEndpoint

大数据
流式处理
源码解析
Spark

SchedulerBackend是TaskScheduler的调度后端接口。TaskScheduler给Task分配资源实际是通过SchedulerBackend来完成的,Sche... 查看更多

2019-09-26 169 阅读 0 评论

Spark源码分析20 - 调度系统05:调度算法和调度池的构建

大数据
流式处理
源码解析
Spark

对于不同的调度模式会创建不同的调度池构建器。 查看更多

2019-09-22 105 阅读 0 评论

Spark源码分析19 - 调度系统04:调度池详解

大数据
流式处理
源码解析
Spark

TaskScheduler是以树的方式来管理任务队列,树中的叶子节点为TaskSetManager,非叶子节点为Pool; 它们都是Schedulable的实现类。 查看更多

2019-09-21 171 阅读 0 评论

Spark源码分析18 - 调度系统03:OutputCommitCoordinator和MapOutputTracker

大数据
流式处理
源码解析
Spark

在DAGScheduler中涉及了一个组件,即OutputCommitCoordinator,意为输出提交协调器。它是用于控制Stage的每个TaskAttempt提交到HDFS的... 查看更多

2019-09-19 158 阅读 0 评论

Spark源码分析17 - 调度系统02:DAGScheduler

大数据
流式处理
源码解析
Spark

DAGScheduler实现了面向DAG的高层次调度,即将DAG中的各个RDD划分到不同的Stage。DAGScheduler可以通过计算将DAG中的一系列RDD划分到不同的Sta... 查看更多

2019-09-18 203 阅读 0 评论

Spark源码分析16 - 调度系统01:RDD、Partition、Dependency和Stage

大数据
流式处理
源码解析
Spark

RDD(Resilient Distributed Dataset)名为分布式数据集,是Spark中最基本的数据抽象,它为用户屏蔽了底层对数据的复杂抽象和处理,提供了一组方便的数据... 查看更多

2019-09-17 102 阅读 0 评论

Spark源码分析15 - 存储体系08:存储层(5)BlockManager解析

大数据
流式处理
源码解析
Spark

有了前面的对通信层、存储层的强行铺垫,以及对各种重要组件的详细分析,大家一定对Spark的存储体系的各项功能已经都有了一定的了解,但是对存储体系的运转方式还是没有一个整体上的认识,... 查看更多

2019-09-15 64 阅读 0 评论

Spark源码分析14 - 存储体系07:存储层(4)磁盘存储与序列化

大数据
流式处理
源码解析
Spark

在Spark的存储体系中,磁盘管理由DiskBlockManager磁盘管理器实现,它负责为逻辑的数据块与数据在磁盘的写入位置建立映射关系。 查看更多

2019-09-13 47 阅读 0 评论

Spark源码分析13 - 存储体系06:存储层(3)内存存储的具体实现

大数据
流式处理
源码解析
Spark

内存存储的具体实现由存储实体MemoryEntry类和用于内存操作的MemoryStore类相互配合以实现。 查看更多

2019-09-11 155 阅读 0 评论

Spark源码分析12 - 存储体系05:存储层(2)内存管理器

大数据
流式处理
源码解析
Spark

MemoryManager是用于对节点上内存的分配和回收的内存管理器,每个实现存储体系的节点上都会存在MemoryManager;在Spark中,MemoryManager的实现有... 查看更多

2019-09-08 62 阅读 0 评论

Spark源码分析11 - 存储体系04:存储层(1)内存池

大数据
流式处理
源码解析
Spark

Spark中数据的存储按照位置来分,可以分为磁盘和内存,存储体系也分别根据这两种存储位置做出了不同的实现;同时,存储层还有一项非常重要的工作,就是对这两种存储进行管理。 查看更多

2019-09-05 57 阅读 0 评论

Spark源码分析10 - 存储体系03:通信层(2)数据传输

大数据
流式处理
源码解析
Spark

对于Spark分布式计算的特性而言,Map任务和Reduce任务很有可能会发生Shuffle过程,此时Map任务会将产生的数据保存到存储体系中,然后由Reduce任务进行拉取,当遇... 查看更多

2019-09-04 148 阅读 0 评论

Spark源码分析09 - 存储体系02:通信层(1)消息通信

大数据
流式处理
Spark
源码解析

本文将主要讲解存储体系中消息通信层的各类组件和实现原理。 查看更多

2019-08-31 68 阅读 0 评论

Spark源码分析08 - 存储体系01:辅助类

大数据
流式处理
Spark
源码解析

Spark存储体系由各个Driver和Executor实例中的BlockManager所构成,实现了分布式管理,而从Driver和Executor单个节点来看,Spark存储体系属... 查看更多

2019-08-28 156 阅读 0 评论

Spark源码分析07 - 通信架构05:事件总线

大数据
流式处理
Spark
源码解析

一般来说,笔者通常将事件总线归为Spark的通信架构层。事件总线是以监听器模式实现的,主要组成结构分为监听器、事件源和事件分发器(也即是事件总线)。Spark中定义了大量的事件总线... 查看更多

2019-08-26 114 阅读 0 评论

Spark源码分析06 - 通信架构04:高层实现(2)RpcHandler与消息的处理

大数据
流式处理
Spark
源码解析

NettyRpcEnv将使用NettyRpcHandler来处理入站的RPC消息。 查看更多

2019-08-20 116 阅读 0 评论

  Kafka权威指南

大数据
流式处理

每个应用程序都会产生数据,包括日志消息、度量指标、用户活动记录、响应消息等。如何移动数据,几乎变得与数据本身一样重要。如果你是架构师、开发者... View More

2018-01-27 59 阅读 0 评论

  Spark快速大数据分析

大数据
流式处理

大数据是近几年广受关注的一个概念。今天,互联网不断发展,逐渐深入我们生活的各个层面,随之而来的是数据量的指数级增长。 View More

2017-02-05 102 阅读 0 评论

  SQL基础教程

MySQL

本书介绍了关系数据库以及用来操作关系数据库的SQL语言的使用方法,提供了大量的示例程序和详实的操作步骤说明,读者可以亲自动手解决具体问题,循... View More

2015-05-31 161 阅读 0 评论

  深入理解Java虚拟机(第2版)

Java虚拟机

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对... View More

2014-12-19 93 阅读 0 评论

  偷书贼

纳粹
二战

这是个讲述书是如何振奋灵魂的令人难忘的故事。 View More

2014-12-19 180 阅读 0 评论

Java虚拟机20 - 线程安全和锁优化

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第13章 线程安全与锁优化

Java
Java虚拟机

当多个线程访问一个对象时,如果不用考虑这些线程在运行时环境下的调度和交替执行,也不需要进行额外的同步,或者在调用方进行任何其他的协调操作,调... View More

2016-12-19 96 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机19 - Java内存模型

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第12章 Java内存模型与线程

Java
Java虚拟机

Java虚拟机定义的内存模型(Java Memory Model,JMM)屏蔽了各种硬件和操作系统的内存访问差异,让Java程序在各种平台下... View More

2016-11-26 196 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机18 - 虚拟机字节码执行引擎

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第8章 虚拟机字节码执行引擎

Java
Java虚拟机

虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这就是虚拟机... View More

2016-08-03 158 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机17 - 类加载机制

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第7章 虚拟机类加载机制

Java
Java虚拟机

虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这就是虚拟机... View More

2016-07-01 43 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机16 - 字节码指令

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第6章 类文件结构

Java
Java虚拟机

Java虚拟机的指令由一个字节长度的、 代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需参数(称... View More

2016-06-11 163 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机15 - 类文件结构

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第6章 类文件结构

Java
Java虚拟机

实现语言无关性的基础仍然是虚拟机和字节码存储格式。Java的规范拆分成了Java语言规范《The Java Language Specifi... View More

2016-05-20 57 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机14 - JVM工具之Btrace

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第3章 虚拟机性能监控与故障处理工具

Java
Java虚拟机

Java开发工具包中提供了众多的虚拟机工具可供开发者使用。 View More

2016-03-09 166 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机13 - JVM工具之VisualVM

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第3章 虚拟机性能监控与故障处理工具

Java
Java虚拟机

Java开发工具包中提供了众多的虚拟机工具可供开发者使用。 View More

2016-02-22 150 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机12 - JVM工具之jconsole

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第3章 虚拟机性能监控与故障处理工具

Java
Java虚拟机

Java开发工具包中提供了众多的虚拟机工具可供开发者使用。 View More

2016-01-21 138 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Java虚拟机11 - JVM工具之jstack

  深入理解Java虚拟机(第2版)    周志明

  Chapter:第3章 虚拟机性能监控与故障处理工具

Java
Java虚拟机

Java开发工具包中提供了众多的虚拟机工具可供开发者使用。 View More

2015-07-22 210 阅读 0 评论

查看书籍 《深入理解Java虚拟机(第2版)》 信息  

《深入理解Java虚拟机(第2版)》

作者:周志明

100%

《深入理解Java虚拟机:JVM高级特性与最佳实践(第2版)》共分为五大部分,围绕内存管理、执行子系统、程序编译与优化、高效并发等核心主题对JVM进行了全面而深入的分析,深刻揭示了JVM的工作原理。

JVM
Java
虚拟机
java
计算机
编程
软件开发
程序设计

Write the code, Change the world

标签墙

关于 [5]
本站相关 [4]
Java [142]
语言基础 [37]
Java集合 [20]
反编译 [1]
Java IO [27]
纳粹 [1]
二战 [1]
Java虚拟机 [21]
Java Web基础 [9]
软件工具使用 [8]
Mac [2]
Java Web框架 [25]
MySQL [9]
XenServer [4]
大数据 [102]
流式处理 [80]
基础组件 [21]
Linux [1]
数据结构 [0]
HBase [6]
分布式存储 [6]
Java多线程 [47]
Java并发 [32]
NIO [4]
Git [5]
Spring [1]
Hive [3]
Nginx [3]
JUC相关 [3]
编辑器 [1]
JUC锁 [12]
Spark [43]
JUC集合 [12]
线程池 [9]
源码解析 [58]
Kafka [29]