您现在的位置是:亿华云 > IT科技类资讯
Spark 性能调优核心原理,你会吗?
亿华云2025-10-04 03:58:44【IT科技类资讯】3人已围观
简介用了这么久spark了,今天总结下他的一些优化方面的核心原理,今天我们分这么几个方面来谈:一.RDDRDD是弹性分布式数据集的简称,他是其他后来者,比如DataFrame,DataSet等的基础。他有
用了这么久spark了,你会吗今天总结下他的性心原一些优化方面的核心原理,今天我们分这么几个方面来谈:
一.RDD
RDD是优核弹性分布式数据集的简称,他是你会吗其他后来者,比如DataFrame,性心原DataSet等的基础。他有四大核心属性,优核如下所示。你会吗
这4 大属性又可以划分为两类,性心原横向属性和纵向属性。优核其中,你会吗横向属性锚定数据分片实体,性心原并规定了数据分片在分布式集群中如何分布。优核
纵向属性用于在纵深方向构建 DAG,你会吗通过提供重构 RDD 的性心原容错能力保障内存计算的稳定性。
其实RDD还有个特性:优先位置列表.算上他总共有5大特性。优核白话文总结就是:3个列表,2个函数。3个列表是分区列表,依赖列表和优先位置列表;2个函数就是:计算函数和分区函数。香港云服务器
二.内存计算
在 Spark 中,内存计算有两层含义:第一层含义就是众所周知的分布式数据缓存,第二层含义是 Stage 内的流水线式计算模式。
流水线计算模式指的是:在同一 Stage 内部,所有算子融合为一个函数,Stage 的输出结果由这个函数一次性作用在输入数据集而产生。
所谓内存计算,不仅仅是指数据可以缓存在内存中,更重要的是,通过计算的融合来大幅提升数据在内存中的转换效率,进而从整体上提升应用的执行性能。
比如这个栗子:
如图所示,在上面的计算流程中,如果你把流水线看作是内存,亿华云每一步操作过后都会生成临时数据,如图中的 clean 和 slice,这些临时数据都会缓存在内存里。但在下面的内存计算中,所有操作步骤如 clean、slice、bake,都会被捏合在一起构成一个函数。这个函数一次性地作用在“带泥土豆”上,直接生成“即食薯片”,在内存中不产生任何中间数据形态。
补充下:从程序员的视角出发,DAG 的构建是通过在分布式数据集上不停地调用算子来完成的,DAG 以 Actions 算子为起点,从后向前回溯,以 Shuffle 操作为边界,划分出不同的 Stages。同一 Stage 内所有算子融合为一个函数,Stage 的输出结果由这个函数一次性作用在输入数据集而产生。
很赞哦!(3)
相关文章
- 3、考虑出售域名
- 魅族张兴业谈实践:利用Weex技术做魅族小程序
- 【教程】终于有人把Java内存模型说清楚了!
- 2018年数据科学和机器学习调查:Python完胜R语言,Hadoop被抛弃!
- 主流搜索引擎显示的相关搜索项越多,越能积极反映该域名的市场价值。同时,被评估域名的搜索引擎显示结果不佳可能是由于以下两个原因:
- Web Bundler CheatSheet, 选择合适的构建打包工具
- 什么是自注意力机制?
- GitHub 宣布 GitHub Education 新计划,学校可免费用企业版
- 5、企业注册国内域名需要证件,其它情况一律不需要证件。
- 此Python破解反爬虫实例,曾帮助过我成长,你也会对它表示感谢!
热门文章
站长推荐
公司在注册域名时还需要确保邮箱的安全性。如果邮箱不安全,它只会受到攻击。攻击者可以直接在邮箱中重置密码并攻击用户。因此,有必要注意邮箱的安全性。
Google 的后端工程师都开始写小程序了?反编译 “猜画小歌”看看
为什么有的程序员能快速的学会一门编程语言,你可以吗?
Tomcat是怎样处理搜索引擎爬虫请求的?
为了避免将来给我们的个人站长带来的麻烦,在选择域名后缀时,我们的站长最好省略不稳定的后缀域名,比如n,因为我们不知道策略什么时候会改变,更不用说我们将来是否还能控制这个域名了。因此,如果站长不是企业,或者有选择的话,如果不能选择域名的cn类,最好不要选择它。
API难解释?这次用啤酒和积木来破局
Python近期大事件,热爱Python的你都有耳闻了吗?
Python之父透露退位隐情,与核心开发团队产生隔阂