首页 > 娱乐前沿 > 产经
Spark 2.0最快今年4月亮相
阿呆 2016-02-28 15:00:13

Spark2.0版本则将进一步提供涵盖完整阶段的程式码产生器,不仅能移除递回式呼叫,减少效能损耗,还能进行跨运算子之间的整合,并借由Parquet及內建快取(Built-in Cache)来优化I/O效能。

图片来源:

Databricks

大资料技术Spark今年1月才刚释出1.6版,下一个2.0版本就已经蓄势待发,预计今年4、5月释出,近日Spark创办人、同时也是Databricks技术长的Matei Zaharia,更在2016 Spark Summit上,抢先揭露了Spark 2.0即将带来的3大主要特色:包括能大幅提升Spark平台效能的Project Tungsten即将进入第二阶段,提供涵盖完整阶段的程式码产生器,Spark 2.0也将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame。

其中,持续改善Spark应用程序的记忆体及CPU效能的Project Tungsten,是一项帮助Spark大幅提升核心引擎效能的长期专案,目的是要让Spark执行效能达到硬件设备的极限,借由內建原生记忆体管理机制以及Runtime层级的程式码产生器,来达到接近*机的效能。

Spark从1.4到1.6版本时,便开始靠 Tungsten来优化Spark的资料处理效能,除了加入二进位的储存方式,以及基础的程式码产生器,也增加了用来描述RDD结构的DataFrame格式,以及新的资料集API(Dataset API),让Tungsten可被运行在使用者专案中来提升效能表现,也可用于Spark SQL及部分的MLlib上。Spark 1.6新增了基于DataFrame的扩充元件Dataset API,相较于过去的RDD API,Dataset提供更好的记忆体管理效能,及较佳的长时间执行效能。

而Spark2.0版本则将进一步提供涵盖完整阶段的程式码产生器,不仅能移除递回式呼叫,减少效能损耗,还能进行跨运算子之间的整合,并借由Parquet及內建快取(Built-in Cache)来优化I/O效能。

预计Spark2.0的效能将翻9倍,从1.6版时每秒可处理的1,400万个栏位,暴增到1亿2,500万,其中的Parquet效能,也将从每秒1,100万提升到每秒9,000万笔。Databricks表示,Spark技术在2015年有非常显著的成长,其贡献者在2015年已经超过1000人,是2014年的2倍,参与各地区定期聚会的会员数量也从1万多人暴增至6万多人。而Spark 2.0将是下一个重大更新版本,预计今年4、5月释出。

上一篇  下一篇

I 相关 / Other

月经期间吃什么减肥最快最有效 经期快速瘦身方法


  

  
每个女孩都希望拥有魔鬼般的身材天使般的脸孔,天使般的脸孔是由基因决定的,但

局部减肥最快方法 让你拥有完美身材


  

  
现在大家对于外貌上的追求越来越高了,特别是身材有很多的女孩子长得不是很标致

Henney Bear 2016新品亮相CHIC


近日,轩尼小熊2016新品发布时装秀在上海国家会展中心展开。借助中国国际服装服饰博览会的平台,He

鸿夏恋踩刹车 审或有负债最快3月有进展

鸿夏恋生波,鸿海暂缓与夏普签约,主因是夏普突然冒出或有负债高达3500亿日圆。据了解,鸿海內部持续会议中

大陆民众买台股基金 最快4月上路

台股资金添动能!最快4月起,中国大陆自然人可投资台股基金及外币债券,同时,开放中国大陆QDII得投资兴柜股

I 热点 / Hot