首页 > 娱乐前沿 > 产经
专访Hadoop之父Doug Cutting
伊文 2016-09-18 21:25:59

今年是大数据技术Hadoop问世10周年,十年前Hadoop之父Doug Cutting可能料想不到,当年他以小孩的大象玩偶来命名的Hadoop,不仅开启了大数据时代,更成为孕育大数据技术的摇篮。如今Hadoop生态圈发展出许多企业随手可得的大数据开源技术,同时也促使Spark、SMACK等新兴大数据技术的蓬勃发展。面对Hadoop十年的新局面,iThome专访Doug Cutting,谈及Hadoop与Spark的关係、Hadoop的安全性,以及开源软体商业模式等议题,访谈内容整理如下。92z我酷网

iThome问:在大数据领域,最近热门的话题似乎都围绕着即时分析平台Spark,甚至有人认为Spark取代了Hadoop,你如何看待Spark与Hadoop的竞争?92z我酷网

Doug Cutting答:Spark确实可以取代Hadoop的部分功能,但我不认为Spark可以完全取代Hadoop。Spark在许多应用情境上的表现确实比MapReduce好,但是Spark缺乏Hadoop所提供的HDFS(Hadoop Distributed File System)、YARN(Yet Another Resource Negotiator),以及排程等功能。事实上Hadoop与Spark并非竞争对手,它们是相辅相成的互补关係。92z我酷网

在批次运算(Batch Processing)与串流运算(Stream Processing)的表现上,Spark的确比MapReduce优秀,但是在SQL互动查询方面Spark则不如Impela,而在搜寻的表现上亦不如Solr。就我的观点而言,Spark确实是一个很好的元件,它比Hadoop生态系中一些既存的元件来得好,但它并非完全取代Hadoop,而是让整个Hadoop生态系更加完美。92z我酷网

现在我们会鼓励大家趁着打造新的应用时,以Spark做为批次与串流的运算引擎,当然我们仍旧继续支援MapReduce,然而不可否认Spark代表下一代的技术。92z我酷网

其实Cloudera是第一个宣布支援Spark的大数据公司,我们的客户採用Spark的比例比起其他公司来得多,所以我们在Spark领域也算是领导厂商之一。过去大家以为Cloudera是Hadoop公司,但现在Cloudera其实是Hadoop与Spark的公司,如同我之前所说的,我们公司的存在是支援对客户而言最好的大数据技术,所以我们当然会鼓励客户採用Spark,因为它确实是一个更好的工具。92z我酷网

Hadoop的安全性是企业採纳大数据平台的顾虑之一,尤其对于金融业而言,Hadoop的安全性更是关键,Hadoop在安全上有哪些强化?92z我酷网

十年前我们刚创造Hadoop时,确实缺乏安全机制,任何人只要能接触到Hadoop系统,都可以任意读取或写入资料。但后来我们不断强化安全,投入诸多安全功能研发,已经陆续为Hadoop增加许多安全机制。92z我酷网

强化资料安全要从几个层面着手。首先是存取控制,我们已经为Hadoop开发了存取控制清单(Access Control List)的功能,可以提供使用者安全认证,确保登入与资料存取的安全性。92z我酷网

在存取控制方面,一开始我们虽然只提供档案层级的保护,但在我们持续强化Hadoop安全功能之下,Hadoop的保护机制一直持续精进,从允许特定人员读取特定的栏位、资料表,到现在我们更进一步开发出能够针对列(Raw)或资料格(Cell)的存取控制功能,如此就可以保护特定的资料,甚至是特定範围裏的资料。在这样持续开发的流程之下,Hadoop的安全保护层级会越来越精细,让使用者拥有越来越多的管控机制。92z我酷网

资料安全防护的另一个重要机制是资料加密,Cloudera在这方面也已经与英特尔共同研发,在资料的储存、删除,甚至是资料透过网路传输的过程,都可以採取加密保护,现在Clouder提供的产品都已经有这方面的安全保护机制。92z我酷网

其实,大多数新技术问世时都缺乏安全设计,当Cloudera决定採纳一项新技术之后,第一年的首要任务就是强化安全功能。例如在两年前开始流行的Spark,一开始也是缺乏安全保护,不过这两年我们不断努力补强Spark架构各个层面的安全,现在几乎已经快要完成Spark整个架构的安全机制。92z我酷网

强化安全其实是一个很辛苦的过程,但面对每个新技术我们都必须如此。最近,我们在世界各地已经有不少金融业者开始採用Hadoop,他们甚至还通过了法规验证。以信用卡业为例,在支付产业有一个重要的安全规範—PCI DSS(Payment Card Industry Data Security Standard),目前Cloudera的Hadoop平台已经通过MasterCard的PCI标準验证,而MasterCard也正在推动金融业採用经PCI认证的Hadoop平台。92z我酷网

所以你认为银行可以放心採用Hadoop。92z我酷网

没错,今天你绝对可以用Hadoop打造非常安全的系统。92z我酷网

92z我酷网

我最在意的是技术必须持续进步,让人们可以拥有最好的技术,只要是人们认为最好的技术,我们就会支援。而有了开源软体,让我们可以做到这一点。92z我酷网

- Doug Cutting, Hadoop创办人 暨 Cloudera架构长92z我酷网

如SMACK这类的新兴大数据技术框架,近年来在硅谷的网路公司大受欢迎。SMACK架构是由Spark、Mesos、Akka、Cassandra及Kafka所组成,其中完全没有Hadoop,你如何看待这类技术的发展?92z我酷网

我认为这是很好的现象,任何人都可以组合一些技术而成为一套技术框架,可见这些开源技术的独立性,而这也代表着我们真的拥有更为进化的技术开发模式,因为任何人都可以更换不同的组件,尝试各种组合,找到最合适、最成功的模式。92z我酷网

这也是开源技术不会被特定厂商绑死的最佳保证,同时显示开源软体的优势,如果整个生态系的每个技术都有极佳的可替换性,那幺使用者就可以拥有最好的架构。92z我酷网

以Hadoop来说,Hadoop的核心主要就是三个部分:HDFS、MapReduce及YARN,HDFS提供资料储存、MapReduce提供批次运算、YARN负责排程。虽然从定义上来说Hadoop的核心就只有这三大技术,但实际上有许多开源专案围绕着Hadoop核心,例如搜寻的Solr、串流运算的Spark等等,这些都是开源技术专案,彼此之间没有相互竞争的必要,所以就可以合起来形成广大的Hadoop生态系,相互证明Hadoop平台更好用。92z我酷网

虽然目前就我所知,大多数人仍认为HDFS非常好用,而YARN也是排程与资源分配的最佳选择,但长远来说,像是Mesos这样的技术,如果在未来能受到更多人的青睐,Cloudera就一定会支援Mesos。92z我酷网

就我而言,我最在意的是技术必须持续进步,让人们可以拥有最好的技术,而只要是人们认为最好的技术,我们就会支援。现在我们大多数的客户认为Hadoop系统是最好用的,那幺我们就会继续支援。然而这并不代表Cloudera一成不变,未来若有更好的技术出现,我们也一定会支援,而这就是开源技术的优势,让我们不会故步自封。92z我酷网

相反的,站在源软体对立面的传统软体世界,软体公司一定会捍卫自家的技术,至死方休,即便竞争对手提出更新更好的技术,他们也不可能採用。而在今天的开源软体世界,我们就可以摆脱这样的困境,一旦有人提出了更新的技术,而且事实证明这项技术更好,那幺我们就会採纳,以协助客户使用更好的技术。我们的终极目标就是支援客户採用最佳技术。92z我酷网

很多企业都想要採纳大数据技术,但听说Hadoop是进入门槛很高的技术而却步,Hadoop是否真是难以入门?92z我酷网

我们发现几乎所有Cloudera的客户在尚未成为客户之前,都已经採用免费的开源版本Hadoop,这就表示Hadoop的进入门槛并不高,因为企业可以自己先尝试使用,例如中国联通,早在他们成为Cloudera的客户之前,他们已经自己採用Cloudera的Hadoop版本,因为他们可以免费取得,而且又容易安装执行,就这样一用就好几年,直到最近他们的架构变大了,才开始寻求Cloudera的支援。92z我酷网

近年来开源软体的成功有目共睹,但是开源软体的商业模式却仍是个大问题。过去十多年来,开源软体最成功的模式是Red Hat(红帽),然而现在开源软体可谓百家争鸣,开源软体的环境、企业对于开源软体的需求,远不同于当年的Linux时代,许多技术开发人员纷纷投入开源软体,也积极寻找成功的商业模式,对于接下来十年开源软体的商业发展,你有什幺建议?92z我酷网

这是一个棘手的问题,但很显然,我们需要一个答案。人们喜欢开源软体,而开源也是软体技术开发的一个美好方法,但人们同时需要厂商协助导入技术。对厂商而言,要能在市场上生存就必须要有商业模式。然而是否有一个能让所有开源软体公司一体适用的商业模式,现在言之过早,不过我们都明白身为软体产业的一员,你必须尝试,试着找出这个答案。92z我酷网

开源软体目前有几种不同的商业模式,其中一种是提供代管服务,代表公司如Amazon,透过提供云端服务来收费;另一种则是将软体以开源方式免费供应,再由提供支援服务来收取费用。我认为,软体公司的生计若只维繫在客户需要的支援服务,只靠支援服务的收入来支撑一家软体公司永续发展,颇为困难;而云端服务的模式,亦无法满足所有人的需求,毕竟有些企业会想要在自己的资料中心拥有如同公众云一样的云端服务,或是多种型式的混合云。92z我酷网

Cloudera目前的商业模式则是核心平台开源,管理软体收费。我们认为负责储存与处理资料的核心平台必须开源,程式码必须公开才能够让人信任,而且也不用担心日后被厂商垄断绑死。至于协助管理丛集系统、软体设定、系统监控与优化的管理软体,则是我们可以销售的。这些收费的管理软体是独立于Hadoop核心软体之外,所以企业仍然可以免费使用Hadoop,而IT人员则藉助管理软体的优势,让Hadoop软体有效率地运作。这是目前我们选择的商业模式,它实际运作良好,但我们也继续寻找其他的可能性。92z我酷网

这个商业模式对Cloudera而言之所以是最佳模式,主要是因为我们打造一个广大的平台;但对其他开源软体公司而言就未必是最好的商业模式。对其他开源软体公司而言何者是最佳商业模式,这个答案我恐怕无法提供,毕竟我们的业务型式不尽相同,说不定有别的模式更适合其他的开源软体公司。不过可以肯定的是,观察未来10年成功的开源软体商业模式,将会是一件很有意思的事。92z我酷网

92z我酷网

上一篇  下一篇

I 相关 / Other

乔任梁生前9月7日腾讯娱乐专访视频 元气满满过每天 [非常娱乐]

9月16日晚9点左右,网上突然有消息爆出,疑似乔任梁在上海某别墅区猝死。随后,腾讯娱乐独家获得警方知情人的消息,确认消息属实。警方初步排除他杀可能,具体死因尚未确定。如题,这可能是乔任梁生前的最后一篇专访

【专访NSX新掌门人Rajiv Ramaswami】VMware如何靠NSX实现跨云战略

掌管NSX部门的VMware网路与安全性事业部执行副总裁兼总经理Rajiv Ramaswami 图片来源: iThome 目前许多企业开始使用软体定义资料中心(SDDC)架构私有云,但VMware执行长Pat Gelsinger表示:「VMware也不会就此打住

专访/吴翔震惊人“一大包” 笑回:妈妈生得好

吴翔震近来推出写真诗集“抱你写诗”,身材受到关注,不过胯下“那一包”也引起话题,甚至被指可能有动手脚,吴翔震再三澄清内裤里真的没有塞东西,急着找工作人员证明,不过对于尺寸,他认为是“妈妈生得好”,吴翔

【专访前阁揆张善政】数位政委唐凤应成为国家资讯长

数位政委的定位就是资讯长,而资讯长要处理资讯部门缺人才、缺经费和制度性三大问题。—— 前行政院长张善政 图片来源: iThome 唐凤担任台湾首位数位政委,各界对她都高度期待,且对数位政委的工作内容也有诸多想像

【专访首任行政院资通安全处处长简宏伟】用资安打造数位国家后盾

行政院资通安全处处长 简宏伟 图片来源: iThome 以数位国家为未来国家发展方向的新政府,在执政不到3个月内,行政院就在8月1日时,新设立了一个资通安全处,并找来过去推动电子化政府计画和政府开放资料的关键人物

I 热点 / Hot