首页 > 娱乐前沿 > 产经
Databricks释出Spark 2.0技术预览版,聚焦资料处理效能与强化API
小艾 2016-05-17 01:07:30
图片来源:

DatabricksbCg我酷网

自Spark 1.0推出时隔两年,Spark技术商Databricks日前释出Spark 2.0技术预览版,并在Databricks的云端大资料平台Databricks Community Edition提供使用者下载。Databricks共同创办人Reynold Xin在官方部落格表示,Apache官方的Spark 2.0要在数周后才会释出,而Databricks推出的技术预览版是以上游程式库(Codebase)为基础,提供使用者可以抢先使用Spark 2.0的功能。bCg我酷网

新版Spark仍维持它的传统,聚焦于两个领域,包含标準SQL支援,以及统一资料框架(DataFrame)和资料集(Dataset)API。Spark 2.0在SQL方面,採用ANSI SQL解析器(Parser),以及支援子查询,来提升Spark的SQL能力,Databricks表示,因为SQL是Spark主要使用介面之一,新版Spark所扩展的SQL功能可以大幅降低旧有应用程式迁移至Spark平台的工作。bCg我酷网

在API方面,新版Spark除了统一Scala和Java语言的DataFrame与Dataset API外,也提供了新的入口点(Entry Point)SparkSession,而SparkSession包含了SQLContext和HiveContext,以降低DataFrame API使用者在选择入口点时的困惑。bCg我酷网

另外,Spark 2.0还更新了累加器API(Accumulator API),以及新增以资料框架为基础的机器学习API(DataFrame-Based Machine Learning API),而新版Spark也允许使用者可以在跨Spark所支援的程式设计语言中,储存和下载机器学习工作流程(Pipeline)和模型。此外,在R语言中,也新增支援广义线性模型(Generalized Linear Model)、单纯贝氏(Naive Bayes)、存活迴归(Survival Regression)以及K-Means等分群演算法。bCg我酷网

在效能方面,Spark 2.0採用了以现代编译器(Compiler)和大规模平行处理(MPP)资料库为基础的第二代Tungsten引擎,以及加强SQL函数式关係查询优化框架Catalyst,来提升Spark资料处理的效能。bCg我酷网

另外,Spark 2.0也延伸了DataFrame与Dataset API,提供使用者结构化串流API(Structured Streaming API)来处理串流资料,其关键功能包含支援以事件和时间为基础的资料处理、乱序资料(Out-Of-Order Data)、延迟资料(Delayed Data)、Sessionization、非串流资料来源等。bCg我酷网

bCg我酷网

上一篇  下一篇

I 相关 / Other

顾思妤资料私房照背景 顾思妤呛水死亡现场视频照片 [非常娱乐]

顾思妤资料私房照背景 顾思妤呛水死亡现场视频照片 [非常娱乐]伊林模特儿顾思妤15日下午在后壁湖出水口海域进行水下拍摄时,传出发生呛水意外,被救起后旁人紧急进行心肺复苏术(CPR),消防人员到场后赶紧将她送医

谢娜的父母是谁家庭背景照片 谢扬功资料组织民间艺术团 [非常娱乐]

谢娜的父母是谁家庭背景照片 谢扬功资料组织民间艺术团 [非常娱乐]近日,据媒体报道,谢娜的父亲谢扬功,于去年10月成立了中江县表哥民间艺术团”。自已当起了团长,帶着20多个演员,多次为乡亲们义演。谢娜的

聚焦欧蜜莎 三年成长见证传统内衣模式永远是春天

聚焦欧蜜莎 三年成长见证传统内衣模式永远是春天
记得当年,当那些商超老大抢地盘时,一些行业专家大呼,狼来了,我们传统的小店将会被大鱼吃掉,多少年了,当笔者看到,那些大街小巷里,星罗密布的士多店,照

那年青春我们正好韩露谁演的种丹妮资料曝光 [非常娱乐]

那年青春我们正好韩露谁演的种丹妮资料曝光 [非常娱乐]那年青春我们正好女二韩露扮演者是谁结局是什么高中时期跟刘婷出双入对的好闺蜜韩露直爽的性格让人生出好感,但是韩露却喜欢上肖小军,而肖小军心里暗恋的对象

Uzi加入皇族RNG战队 其个人资料直播间受关注 [非常娱乐]

Uzi加入皇族RNG战队 其个人资料直播间受关注 [非常娱乐] 北京时间5月16日,就在昨日晚22:38,皇族电子竞技俱乐部在微博公布重磅消息,小狗UZI重新连接”回归RNG。在MSI半决赛负于SKT之后,Mata在赛后采访中曾

I 热点 / Hot