AlphaGo幕后开发心路历程大公开！一手打造AlphaGo传奇首席工程师黄士杰回台解密

伊文 2017-11-10 11:39:30

近来机器与人类史上最有名的正面战役，莫过于今年5月，Google旗下AI实验室DeepMind所开发的AlphaGo，与人类围棋世界冠军柯洁的对弈，AlphaGo最终以3：0赢得胜利，打响了AI的名声，不管是学术界或是产业界，都纷纷投资AI应用。eqU我酷网

近日，DeepMind更推出了比AlphaGo还要厉害的AlphaGo△Zero，不需要事先学习人类下棋的棋谱，拥有自我学习的能力，而一手打造出AlphaGo传奇的首席工程师黄士杰，今日（10日）于中研院举办的第一届台湾人工智能年会的演讲中，以“AlphaGo－深度学习与强化学习的胜利”为题，揭露未曾对外公开的AlphaGo发展历程，以及开发AlphaGo所用到的深度学习与强化学习技术关键。eqU我酷网

黄士杰日前曾在个人脸书简短的介绍AlphaGo△Zero的特性，并表示这次回台将会介绍AlphaGo△Zero的开发历程。eqU我酷网

AlphaGo△Zero主要达成的成果是从零开始自我学习下围棋，并且靠着自我学习，在短短的36小时后，摸索出所有基本且重要的围棋知识，围棋程度达到与李世乭九段对战的AlphaGo△v18相同水平，又经过3天后，AlphaGo△Zero对战AlphaGo△v18达到100%的胜率，之后又达到了年初在网络上达成60连胜的Master的水准。eqU我酷网

而40天后，AlphaGo△Zero对战Master达到近90%胜率，成为有史以来AlphaGo棋力最强的版本，他表示，虽然AlphaGo△Zero还未公开下围棋棋，但DeepMind已将AlphaGo△Zero的80局棋公开在发表于《自然》（Nature）期刊上的论文中。eqU我酷网

尽管AlphaGo△Zero仍然以围棋为开发范本，但DeepMind认为类似的技术将可被应用在其他的结构化问题上，例如蛋白质折叠、降低能源损耗，或是寻找革命性的新材料等，将有潜力对社会带来正面的影响。eqU我酷网

他一开场说自己研究电脑围棋10年，一开始到加拿大做研究时，第一个就是要解决语言沟通的问题，花了很多心力在加强英文的沟通，他指出，虽然现在AlphaGo已经完成所有的任务，但是，DeepMind认为应该还要继续往AI技术前进，可以见得，DeepMind有非常强的目标。eqU我酷网

他表示，他人生最开心的时候，就是在2016年5月时，AlphaGo真正赢了人类，他表示，当初没有想过电脑围棋会变得这么厉害，但是还是不断尝试，后来才终于成功，过去就连圣诞节AlphaGo也还在下棋，团队也都不间断在训练AlphaGo。eqU我酷网

黄士杰从小就喜欢下棋，他自己的棋力是业余6段，研究电脑围棋还有是他的兴趣，还有一项令他开心的是，因为AlphaGo的关系，他能够有与他自己的围棋偶像面对面下棋的机会。eqU我酷网

AlphaGo给黄士杰最大的感触是，AI与人类合作的气氛慢慢在行程，他分享在中国乌镇围棋峰会与柯洁对弈的感受，他认为，韩国与李世乭的对弈，可以明显感受到李世乭背负人类必须赢得胜利的压力，但是中国乌镇的比赛，是他真正感受到 AI和人类合作的氛围，柯洁也表示非常荣幸能跟AlphaGo下棋。eqU我酷网

AlphaGo专案的起源

AlphaGo的起源要从黄士杰在攻读博士班时，用单机打造出一个电脑围棋程式Erica说起，而Erica即是用他妻子的名字命名，当时，他现在的主管David△Sliver写了封信表示，对他的研究成果非常惊艳，还问他要不要加入DeepMind，黄士杰后来在隔年，2012年11月才正式加入DeepMind，当时面试最后主管问了他做出Erica的感想，“我觉得很有成就感！”David△Sliver还表示与他有相同的想法。eqU我酷网

他指出，DeepMind的目标是要打造通用的人工智能，当时要开始投入研究电脑围棋AI程式时，DeepMind的共识就是不要复制Erica，因为会既有的限制。eqU我酷网

AlphaGo专案一开始是由DeepMind的CEO△Demis△Hassabis提议要开始研究电脑围棋专案，之后黄士杰与他的主管 David△Sliver，后来研究团队又加入了Chris△Maddison、llya△Sutskever，一同参与开发AlphaGo，“为什么要做围棋？”他表示，这是许多人的疑问，他认为，在IBM深蓝在西洋棋的领域，战胜人类之后，就只剩下围棋这项挑战。eqU我酷网

“要如何判断在深度学习可以在围棋用？”黄士杰的答案是，如果人类可以马上判断下这一步是好棋，那神经网络就可以做到，当时他利用人类的棋谱来让AlphaGo学习，建立策略网络（Policy△Network），用人类的直觉来下围棋。eqU我酷网

他表示，每天的工作就是反复训练网络、测试、观察胜率，不断地重复这样的过程，包含要研究神经网络要建立多深、资料集有没有问题、神经网络需要几层等等的问题，第一个月的AlphaGo是行不通的，胜率不高，后来发现Overfitting的问题后，解决之后AlphaGo就达到95％的胜率。eqU我酷网

之后，AlphaGo最主要的突破即是加入价值网络（Value△Network），将强化学习结合深度学习，让AlphaGo拥有学习的能力，另外，也因为硬件上TPU有很大的帮助，他指出，相同的程式码，用TPU执行的胜率，会变得非常高。AlphaGo将直觉和判断一起训练，就能将直觉和判断达到一致性，并将策略和价值网络结合在一起，变成Dual△Network，之后再不断的加强训练流程。eqU我酷网

为了测试AlphaGo的能耐，黄士杰努力说服团队要在线上测试AlphaGo的棋力，后来终于在2016年年底，让AlphaGo△Master在网络上邀来中日韩台顶尖棋手，帮忙训练，一天下10盘，就在自家的房间低调地用单机训练AlphaGo△Master，平均4 ～8秒下一步棋，一局大约需要1小时，与职业棋手的对战全胜，他认为，电脑围棋AI的价值在于“扩展围棋界的理论和思路”。eqU我酷网

真正脱离人类知识的AlphaGo△Zero

近日，DeepMind释出的AlphaGo△Zero正式脱离人类知识的资料，不再需要人类的资料，AlphaGo原本的版本需要用数千盘人类棋手的对战来训练，然而AlphaGo△Zero则可以在完全不懂围棋的状况下，自己跟自己对战，通过神经网络演算法，不断调整与更新，进而预测棋子的最佳落点。AlphaGo△Zero采用了强化学习，过程中完全没有经过人类的干预，也从未使用过去的棋谱资料，总共只花了40天，就成为历史上最强的棋手。他觉得是这一种趋势，经过10几年的研究，电脑围棋的研究在AlphaGo△Zero上，有很好的收尾。eqU我酷网

他指出，目前AlphaGo△Zero棋力还在持续精进中，DeepMind团队的合作，创造许多不错的成果，包含发表了两篇论文，以及与人类大战两次的大战，在网络上有60个棋局训练，最后还拍了《AlphaGo》的纪录片。eqU我酷网

他表示，AlphaGo的成功是深度学习与强化学习的胜利，从专案起始到收尾，都是靠着大家一同合作，而硬件资源与TPU也扮演很重要的角色，最后，近日AlphaGo△Zero也展示了强化学习的巨大潜力，他认为，AI要成为人类的工具，与人类合作。eqU我酷网

eqU我酷网

I 相关 / Other

京东双11百亿海量交易的维运关键大公开

京东金融MySQL维运资深资料库管理员潘娟表示，京东尽可能将维运工作分散到日常工作，借由平时的检测发现潜在问题，降低服务出问题的风险。（摄影／何维涓）电商平台年度最大的购物促销活动双11即将开打，去年的双

提前晒iphonex老爸被解雇 [生活]

提前晒iphonex老爸被解雇提前晒iphonex老爸被解雇，工程师老爸因女儿丢饭碗真是实力坑爹。如果说近期最能吸引眼球的事情，iPhoneX在11月3日的正式发售一定当之无愧。但在发售前夕，iPhoneX的保密信息可谓是严格至极，

新加坡国家级区块链在台大公开

新加坡金管局创新加速办公室主席Stanley△Yong在10月23日举行的“金融科技、创新创业暨区块链最新发展研讨会”上，公开了区块链技术的研究成果。（图片来源／新加坡金管局）各国央行卯足全力冲刺金融科技、区块链

AI趋势双周报第19期：9万种人体动作大公开！为加速AI影像识别技术进展，Google释出人类行为资料集AVA

图片来源: Google 重点新闻(1014~1027)动作识别电脑视觉9万种人体动作大公开！为加速AI影像识别技术进展，Google释出人类行为资料集AVA为了加速影像动作识别的研究，Google近日推出人类动作理解资料集AVA（Atomic△

勇敢揭发Uber性骚扰文化的女性工程师Susan Fowler

我酷新闻网记者蓝立晴/综合报道Uber今年一连串的丑闻都是自该公司的性骚扰文化被揭露而起，之后，丑闻如同滚雪球般越来越多，虽然CEO遭到撤换，Uber看似也有点起色，但该公司内部的丑闻仍然令人印象深刻，而这一切的

I 相关 / Other

I 热点 / Hot