首页 > 娱乐前沿 > 科技
AlphaGo幕后开发心路历程大公开!一手打造AlphaGo传奇首席工程师黄士杰回台解密
伊文 2017-11-10 11:39:30

近来机器与人类史上最有名的正面战役,莫过于今年5月,Google旗下AI实验室DeepMind所开发的AlphaGo,与人类围棋世界冠军柯洁的对弈,AlphaGo最终以3:0赢得胜利,打响了AI的名声,不管是学术界或是产业界,都纷纷投资AI应用。eqU我酷网

近日,DeepMind更推出了比AlphaGo还要厉害的AlphaGo△Zero,不需要事先学习人类下棋的棋谱,拥有自我学习的能力,而一手打造出AlphaGo传奇的首席工程师黄士杰,今日(10日)于中研院举办的第一届台湾人工智能年会的演讲中,以“AlphaGo-深度学习与强化学习的胜利”为题,揭露未曾对外公开的AlphaGo发展历程,以及开发AlphaGo所用到的深度学习与强化学习技术关键。eqU我酷网

黄士杰日前曾在个人脸书简短的介绍AlphaGo△Zero的特性,并表示这次回台将会介绍AlphaGo△Zero的开发历程。eqU我酷网

AlphaGo△Zero主要达成的成果是从零开始自我学习下围棋,并且靠着自我学习,在短短的36小时后,摸索出所有基本且重要的围棋知识,围棋程度达到与李世乭九段对战的AlphaGo△v18相同水平,又经过3天后,AlphaGo△Zero对战AlphaGo△v18达到100%的胜率,之后又达到了年初在网络上达成60连胜的Master的水准。eqU我酷网

而40天后,AlphaGo△Zero对战Master达到近90%胜率,成为有史以来AlphaGo棋力最强的版本,他表示,虽然AlphaGo△Zero还未公开下围棋棋,但DeepMind已将AlphaGo△Zero的80局棋公开在发表于《自然》(Nature)期刊上的论文中。eqU我酷网

尽管AlphaGo△Zero仍然以围棋为开发范本,但DeepMind认为类似的技术将可被应用在其他的结构化问题上,例如蛋白质折叠、降低能源损耗,或是寻找革命性的新材料等,将有潜力对社会带来正面的影响。eqU我酷网

他一开场说自己研究电脑围棋10年,一开始到加拿大做研究时,第一个就是要解决语言沟通的问题,花了很多心力在加强英文的沟通,他指出,虽然现在AlphaGo已经完成所有的任务,但是,DeepMind认为应该还要继续往AI技术前进,可以见得,DeepMind有非常强的目标。eqU我酷网

他表示,他人生最开心的时候,就是在2016年5月时,AlphaGo真正赢了人类,他表示,当初没有想过电脑围棋会变得这么厉害,但是还是不断尝试,后来才终于成功,过去就连圣诞节AlphaGo也还在下棋,团队也都不间断在训练AlphaGo。eqU我酷网

黄士杰从小就喜欢下棋,他自己的棋力是业余6段,研究电脑围棋还有是他的兴趣,还有一项令他开心的是,因为AlphaGo的关系,他能够有与他自己的围棋偶像面对面下棋的机会。eqU我酷网

AlphaGo给黄士杰最大的感触是,AI与人类合作的气氛慢慢在行程,他分享在中国乌镇围棋峰会与柯洁对弈的感受,他认为,韩国与李世乭的对弈,可以明显感受到李世乭背负人类必须赢得胜利的压力,但是中国乌镇的比赛,是他真正感受到 AI和人类合作的氛围,柯洁也表示非常荣幸能跟AlphaGo下棋。eqU我酷网

AlphaGo专案的起源

AlphaGo的起源要从黄士杰在攻读博士班时,用单机打造出一个电脑围棋程式Erica说起,而Erica即是用他妻子的名字命名,当时,他现在的主管David△Sliver写了封信表示,对他的研究成果非常惊艳,还问他要不要加入DeepMind,黄士杰后来在隔年,2012年11月才正式加入DeepMind,当时面试最后主管问了他做出Erica的感想,“我觉得很有成就感!”David△Sliver还表示与他有相同的想法。eqU我酷网

他指出,DeepMind的目标是要打造通用的人工智能,当时要开始投入研究电脑围棋AI程式时,DeepMind的共识就是不要复制Erica,因为会既有的限制。eqU我酷网

AlphaGo专案一开始是由DeepMind的CEO△Demis△Hassabis提议要开始研究电脑围棋专案,之后黄士杰与他的主管 David△Sliver,后来研究团队又加入了Chris△Maddison、llya△Sutskever,一同参与开发AlphaGo,“为什么要做围棋?”他表示,这是许多人的疑问,他认为,在IBM深蓝在西洋棋的领域,战胜人类之后,就只剩下围棋这项挑战。eqU我酷网

“要如何判断在深度学习可以在围棋用?”黄士杰的答案是,如果人类可以马上判断下这一步是好棋,那神经网络就可以做到,当时他利用人类的棋谱来让AlphaGo学习,建立策略网络(Policy△Network),用人类的直觉来下围棋。eqU我酷网

他表示,每天的工作就是反复训练网络、测试、观察胜率,不断地重复这样的过程,包含要研究神经网络要建立多深、资料集有没有问题、神经网络需要几层等等的问题,第一个月的AlphaGo是行不通的,胜率不高,后来发现Overfitting的问题后,解决之后AlphaGo就达到95%的胜率。eqU我酷网

之后,AlphaGo最主要的突破即是加入价值网络(Value△Network),将强化学习结合深度学习,让AlphaGo拥有学习的能力,另外,也因为硬件上TPU有很大的帮助,他指出,相同的程式码,用TPU执行的胜率,会变得非常高。AlphaGo将直觉和判断一起训练,就能将直觉和判断达到一致性,并将策略和价值网络结合在一起,变成Dual△Network,之后再不断的加强训练流程。eqU我酷网

为了测试AlphaGo的能耐,黄士杰努力说服团队要在线上测试AlphaGo的棋力,后来终于在2016年年底,让AlphaGo△Master在网络上邀来中日韩台顶尖棋手,帮忙训练,一天下10盘,就在自家的房间低调地用单机训练AlphaGo△Master,平均4 ~8秒下一步棋,一局大约需要1小时,与职业棋手的对战全胜,他认为,电脑围棋AI的价值在于“扩展围棋界的理论和思路”。eqU我酷网

真正脱离人类知识的AlphaGo△Zero

近日,DeepMind释出的AlphaGo△Zero正式脱离人类知识的资料,不再需要人类的资料,AlphaGo原本的版本需要用数千盘人类棋手的对战来训练,然而AlphaGo△Zero则可以在完全不懂围棋的状况下,自己跟自己对战,通过神经网络演算法,不断调整与更新,进而预测棋子的最佳落点。AlphaGo△Zero采用了强化学习,过程中完全没有经过人类的干预,也从未使用过去的棋谱资料,总共只花了40天,就成为历史上最强的棋手。他觉得是这一种趋势,经过10几年的研究,电脑围棋的研究在AlphaGo△Zero上,有很好的收尾。eqU我酷网

他指出,目前AlphaGo△Zero棋力还在持续精进中,DeepMind团队的合作,创造许多不错的成果,包含发表了两篇论文,以及与人类大战两次的大战,在网络上有60个棋局训练,最后还拍了《AlphaGo》的纪录片。eqU我酷网

他表示,AlphaGo的成功是深度学习与强化学习的胜利,从专案起始到收尾,都是靠着大家一同合作,而硬件资源与TPU也扮演很重要的角色,最后,近日AlphaGo△Zero也展示了强化学习的巨大潜力,他认为,AI要成为人类的工具,与人类合作。eqU我酷网

eqU我酷网

上一篇  下一篇

I 相关 / Other

京东双11百亿海量交易的维运关键大公开

京东金融MySQL维运资深资料库管理员潘娟表示,京东尽可能将维运工作分散到日常工作,借由平时的检测发现潜在问题,降低服务出问题的风险。(摄影/何维涓) 电商平台年度最大的购物促销活动双11即将开打,去年的双

提前晒iphonex老爸被解雇 [生活]

提前晒iphonex老爸被解雇提前晒iphonex老爸被解雇,工程师老爸因女儿丢饭碗真是实力坑爹。如果说近期最能吸引眼球的事情,iPhoneX在11月3日的正式发售一定当之无愧。但在发售前夕,iPhoneX的保密信息可谓是严格至极,

新加坡国家级区块链在台大公开

新加坡金管局创新加速办公室主席Stanley△Yong在10月23日举行的“金融科技、创新创业暨区块链最新发展研讨会”上,公开了区块链技术的研究成果。(图片来源/新加坡金管局) 各国央行卯足全力冲刺金融科技、区块链

AI趋势双周报第19期:9万种人体动作大公开!为加速AI影像识别技术进展,Google释出人类行为资料集AVA

图片来源: Google 重点新闻(1014~1027)动作识别 电脑视觉9万种人体动作大公开!为加速AI影像识别技术进展,Google释出人类行为资料集AVA为了加速影像动作识别的研究,Google近日推出人类动作理解资料集AVA(Atomic△

勇敢揭发Uber性骚扰文化的女性工程师Susan Fowler

我酷新闻网记者蓝立晴/综合报道Uber今年一连串的丑闻都是自该公司的性骚扰文化被揭露而起,之后,丑闻如同滚雪球般越来越多,虽然CEO遭到撤换,Uber看似也有点起色,但该公司内部的丑闻仍然令人印象深刻,而这一切的

I 热点 / Hot