新华网 正文
出走的门徒之六——第四范式戴文渊:先知登场
2017-02-21 15:50:24 来源: 新华网
关注新华网
微博
Qzone
评论
图集

  风口不会随便眷顾一个人。因为历史不会对默默“打怪升级”着墨,它只看结果。

  在阿西莫夫的代表作《基地》中,除了先知谢顿贯穿全线,其他主角都是门徒。他们内在为直觉所驱动,外在被时代所推动。他们在历史上的出场毫无征兆,却在潮流中游刃有余。你会惊叹,为什么是他?

  离开谷歌、微软、IBM、Facebook、阿里、百度,告别自己过去的所有荣耀,重新走上创业之路,崇尚技术的护城河。为什么是他?新华网开辟“出走的门徒”系列,讲述这样一群科技界理想主义者的现实路径。

  从五道口出发,大概地铁十分钟、或者走路一个半小时,就能到达地球中心“上地”。当你走过这里的街道就会发现,挖掘机在冬天挥着大爪子寻找青草的味道,麻辣烫和烤串的香味即使在白天也勾搭诱人。

  在这里,吃和住解决了,这帮人就开始琢磨着改变世界。他们会一边撸着串,一边聊着怎么样让用户每天对着冰箱说话,“10元钱+2小时”能不能同时解决产品封装和一顿晚饭,以及你怎么判断正在烤串的大爷是不是一个人工智能。到了夜晚,他们一边看着凌晨2点的北京,一边坐车到回血点——回龙观完成新一轮的升级。

  这里,聚集了目前中国技术最好的一批人,空气中都漂浮着未来的味道。

  戴文渊从最开始背靠香港,还是决定,在两年前把公司搬到了上地。然后,目前能支持超大规模集群以及数据量的人工智能应用者开发平台——“先知”,在这里降临。

  从拿到ACM竞赛冠军,到研究人工智能,再到织出百度凤巢,登上华为诺亚方舟……戴文渊用近十年证明,“AI”是可以“for someone”的。未来十年,戴文渊的第四范式和“先知”平台要证明的,是“AI”终将“for everyone”。

  如果回头看戴文渊的这十几年就会发现,所谓先知,并不见得是可以某一次时,比别人先走三步;而是在趋势开始前,永远可以精准地先走半步。

  预兆:用3岁孩子的思考模式跳出AI固有解决方法

  沈南鹏在第一轮就投了第四范式。那是在2015年,当戴文渊把所有要干什么都说完之后,沈南鹏问,“你有什么问题想问我的?”戴文渊就问,你怎么看待我们做的这个事情。现在回忆起来,戴文渊依然记得当时沈南鹏说,“我其实不太关心你们做的是什么。在创业的初期阶段,相较于具体的业务,我更关心你的团队。”

  红杉投资看人。2年过去,说起这一幕,戴文渊说,如果现在再见到沈南鹏,“我很想告诉他,我还在做当时的那个事情”。

  所谓“当时那个事情”,戴文渊是在2005年入坑的。彼时,他获得了2005年ACM国际大学生程序设计竞赛世界冠军。这项由美国计算机协会(ACM)主办、被称为计算机界奥林匹克,一般描述是“入门之后基本拿奖靠智商,拿到银牌就能成为offer收割机”。

  那会,上海交通大学计算机系有一个实验班,学生大三就可以按个人喜好选择实验室。戴文渊在外备赛,等结束时,像图形学(即CG)等热门方向都选完了,只剩下冷门的人工智能没有人选。“那个年代,没有人相信AI能做成。”戴文渊说。

  在学术界,戴文渊多走了的半步,叫做迁移学习。

  如今,在迁移学习领域,论文引用数排名第一的,是戴文渊的导师、香港科技大学计算机系教授杨强,华人界首位国际人工智能协会院士。而戴文渊,凭借10年前发表的一篇论文(Boosting for Transfer Learning),单篇论文引用排名世界第三。

  但在当时那个年代,整个AI学界都是基于凸优化(机器学习中的最优化问题)做AI研究。参加学界会议,一半的人都在研究最优化,就和现在一半的人都在做深度学习一样。

  而且,即便是深入多年的学者,自己也不相信基于这条路,AI可以做出来。可以建出非常好的数学体系,却没有能力为它提供知识的内容。我国自动化领域的领军者王飞跃教授曾说,“到2005年,人工智能领域在中国几乎没人了,全走了。”当时甚至有一个说法,做人工智能的全都是吹牛的。

  走这样一条学术的路径,做出来的效果和一个3岁小孩的认知力相比,还差的很远。那为什么不去学习3岁的小孩怎么思考?人是基于神经的学习,为什么AI不能用神经网络做?杨强带着戴文渊,在没有太多经费支持的情况下,硬是把这个方向坚持了下来。

  AlphaGo就是典型3岁孩子获取知识的思路。“所基于的人工智能技术,强项不在于推演,而是借鉴过去见过的局面。所以,如果要击败AlphaGo,需要尽可能把局面导向历史上没人下过的棋。”在AlphaGo和李世石对弈第一局后,戴文渊在知乎上回答。他还不忘提醒,想要不败,需要注意控制自己的心魔。

  指引:用技术验证对人工智能的坚定信仰

  结局大家都知道了。在“虐”完李世石之后,AlphaGo横扫了围棋界,然后又在德州扑克中成为“赌神”。这时候大家一下子都懵了,原来“算法+大数据”可以让人工智能这么猛。

  这一点,在2008年戴文渊就认识到了。多年的积累和强大的判断力,让他意识到数据在AI这条路上的强大助力。用他自己的话说,“这时候一些大型互联网公司,数据的累加对人工智能会做的贡献,开始比在学术圈做算法的技巧,更有意义,会有最大的提升”。

  对于趋势的判断,他有着不容反驳的自信。“我一直是做AI,十几年了。对这个行业应该做什么事、处于什么状态,有自己的判断,我不会在十几年前做这个事情,那时候技术还不足以支撑。”

  必须要去一个数据量最大的公司,才有可能不断测试自己的算法技能。然后他自己认为当时国内只有百度符合条件,直到2011年BAT才都可以做到。

  在将AI产品化的阶段,戴文渊多走的那半步,是更早认识到了数据的魔力,证明AI是可以“for someone”的。

  他和当时还是实习生的陈雨强,共同搭建了一个商用的深度学习系统,也就是百度的“凤巢”广告系统。从接手这个系统时,戴文渊一直主张引入深度学习,这恐怕是国内历史上第一次用超大规模的集群,跑一个PB级的数据量,为一个应用来建模。这和过去的建模相比,至少是大了四到五个数量级。用他自己的话说,“在一个AI的从业者来说,这是我第一次把我的想法在产业落地,创造出价值。”

  后来“凤巢”系统成功验证,在超大规模数据中机器学习确实能给业务带来正向效果,百度的变现能力也提升8倍,这让戴文渊的团队获得了百万美金的“百度最高奖”。

  而离开百度的原因,是戴文渊有一天忽然发现,自己过得太舒服了。自从,他每天上午10点上班、下午6点下班,感觉自己的位子如果换成别人,业绩也会很好,不会有任何改变。“有的时候老板叫我去研究一个东西的时候,我已经研究好了。”戴文渊说,那种躺在床上“混吃等死”的感受太不舒服了。

  在华为也是一样。刚到华为的时候,华为正在与国际巨头争夺自己在金融领域的话语权,“去银行争解决方案,那个阶段的华为赢面并不大”有一次,在离给客户承诺的时间还有2星期时,一个问题当时的工程师怎么都调试不出来,大家压力都非常大。

  那会戴文渊已经有3年没有写过代码,他花了15分钟把代码写完并解决了。对于帮华为在金融领域凿开口子这一点,戴文渊颇为满意。那一仗打得非常漂亮,华为最终竞标成功。

  降临:用“先知”2周培训出一个AI专家

  然而,攻城略地的日子很快就没了。等到快离开华为的时候,他似乎每天只需要工作1天,其他时候就是打卡。要是在知乎上回答问题,戴文渊最适合的大概有两个,第一个是“在大公司最年轻的T10科学家位子上混吃等死是种什么样的感受”,第二个是“喜欢安逸的金牛座如何跳出自己的舒适区”。

  这个穿着格子衬衫、戴着黑框眼镜、谈吐娓娓温和的年轻人,骨子里有着一开口就能感受到的“不安分”。

  在百度做AI,和出来创办第四范式做AI,完全不同。在百度,你是做战斗机,因为利润足够高,花多少钱都无所谓。“当年在凤巢时,一年在我们这个团队就有几百个人”。戴文渊觉得,自己的主线应该不是帮百度再多挣几百亿元。AI能不能帮一家企业去提升价值,这个问题是不需要再去论证的。

  “我希望做AI的能量更大一些”。戴文渊说。在AI工业化阶段,他正在试图再多走半步,证明AI可以for Everyone。

  2012年,还在百度的戴文渊和陈雨强一起做了一个尝试,让他一个人去重新做一次凤巢。拿深度学习的新技术,一年半把整个凤巢全部重新做一遍,将效益提升了4%。这也就意味着,才花了1.5人/年,就干了原来上千人月做的事情,通俗地说就是把机器学习的成本降了一千多倍。

  2016年7月,第四范式发布了一款人工智能开发平台“先知”,这是AI领域首个面向应用者的开发平台。第四范式对先知设置了参数自动化的算法,并搭建了比Spark快数百倍的机器学习的基础架构,它降低了人工参与的特征工程和模型训练过程,还能提供自动或半自动的特征工程、模型选择调参工具,降低了对数据科学家的依赖。

  用戴文渊的话说,就是一个完全不懂技术的小白,大概经历2周的时间,就可以成为一个AI专家。去年年底,戴文渊利用这个平台在公司内部做了一个叫做“一颗赛艇”的竞赛,这估计是全球首个非专业人士参加的人工智能建模大赛。这场特殊的比赛,对参赛选手唯一的身份要求 ,便是非“数据科学家”、非“建模工程师”;此前,纵然人工智能攻陷了围棋、扑克领域,也没有任何一个公司敢挑战“让普通人做出AlphaGo”这一难题。

  在没有经过任何专业培训的情况下,这些销售、市场、公关等非专业人士中,有超过70%的参赛组合AUC成绩(AUC是衡量模型效果的专业指标,取值在0到1之间)跨过0.8大关。在实际业务中,凡是AUC高于0.8的模型就已经达到工业水准;而在整个行业中,只有极少数深耕机器学习多年、拥有丰富大规模数据处理经验的数据“大神们”才能搭建出AUC0.8以上的模型。

  “但先知这个平台,在我的心中还没有及格,路还很长。我们还有30%的人经过了培训没有做到”。戴文渊说,过去一段时间,公司把较多精力放在了机器学习的算法。“现在的门槛不是算法,是数据怎么样能和平台实现无缝对接。”

  他满脑子都在想,怎么样通过降门槛、降成本,让每个人都能用的起AI,让每个公司都可以实现自己的AI策略。“我们总结出‘4+1’个先决条件:一是要有数据;二要有明确定义的业务目标;三是充足的计算资源;四是要有算法能力,当然也可以由第三方来提供。最后是一个plus,属于没有没关系,但有了更好的,就是形成反馈闭环。譬如说你下了一局围棋获得的数据,能形成反馈进一步优化算法”。

  “AI过去是只能服务一家,现在可以服务几百家,以后可以服务每一家”。商业化阶段,戴文渊用最坚定的信仰告诉大家,AI是真的可以“for everyone”的。

  布道:用“不舒适”创造自己的舒适区

  “不过,后来我也想明白一个事情。其实我们的大环境缺的并不是有理想有抱负的科学家,而是sponsor(发起人)。所以真正挑战人类的其实是IBM,不是许峰雄;是Google,不是DeepMind团队。就像,真正修成圣彼得大教堂的,是天主教会,而不是米开朗基罗。这也是为什么,我觉得还是要做一个公司,用商业的成功带动科技的成功”。

  这种用天衣无缝的逻辑,论证直觉准确性的思维模式,实在是戴文渊最具魅力的地方,更是值得不少创业者深思的。即使他说的是一个故事,这难以让人反驳的强大论证能力、缜密逻辑能力、快速执行能力,也让你甘心把酒奉上。

  在没有当CEO的时候,戴文渊认为自己“并不关心别的同事在做什么”,除非“他做的事和我的技术目标有关联”。但现在,这种纵向思考的模式正在逐渐改变。

  他开始把与国际前沿技术的对接,放心地交给杨强教授这个公司的精神领袖;把人工智能在工业应用上的优化与研究,交给人工智能行业大牛陈雨强;把产品化交给另一位联合创始人胡时伟。

  他依旧追求技术细节,但是更多时间会放在把控公司大方向上;去把所有技术的成果,去和产品、商业市场做对接,做技术和市场商务之间的桥梁;同时,他开始去管理那么多门槛不同、优势不一,甚至在除了技术之外的其他很多方面比他强的人。

  “技术只有0和1的区别,没有0.1。但现在我要把自己变成一个没有0和1的人,才能把整个团队联接好。”戴文渊回忆起当年以队长之职准备ACM竞赛时,对每个队友的选择都用最高的标准,容不得一颗沙子。而到了工业界,这种管理的模式行不通了。

  做技术出身的人,常常会追求安逸,觉得一个有网络的世界就够了,觉得自己可以写一辈子的代码;而现在面对市场,却发现市场是一直在变的,是最没有稳定和“一招鲜”的。

  戴文渊觉得自己永远都没有安全感,却在不停的改变中发现,市场怎么变,自己都不会死。这种永远不在舒适区的状态,反而给了自己莫大的安全感。真的不知道有多少创业者,会对此有共鸣。

  直至目前,非BAT的公司,即使是非常不错的企业,都仍然很难找到靠谱的人完成AI团队的自建,成本、人才都是门槛,技术团队的人太贵了。“绝大多数企业都希望有这一条路,但这一条路在目前是走不通的。一定得是平台,得是降门槛,才能让更多人参与,让十来万个人来一起玩,才能遍地开花。”戴文渊说。在这一点上,他两次用“要相信”来强调自己的立场。

  的确,我们或许不会记得PC是谁发明的,但我们会记住PC是乔布斯带给世人的。在智能时代的浪潮之巅,也许我们不会记得谁发明了深度学习,但我们每个人都记住了AlphaGo。戴文渊,这个把人工智能的火种燎原到各行各业的人。

  20年后,新时代再见。

出走的门徒系列回顾:

之一——地平线余凯:造物主的一小步

之二——跳出摩拜看王晓峰:给岁月以文明

之三——小红书郄小虎:穿越人心的迷雾

之四:丰元创投朱会灿:冒险的牧师

之五——云知声黄伟:AI热终会冷,要跑的比任何风口快

+1
【纠错】 责任编辑: 黄博阳
新闻评论
    地铁上的“春运”
    地铁上的“春运”
    联合国对俄常驻代表丘尔金突然离世表示哀悼
    联合国对俄常驻代表丘尔金突然离世表示哀悼
    全国多地降雪 银装素裹
    全国多地降雪 银装素裹
    航拍海口农田色彩斑斓犹如马赛克
    航拍海口农田色彩斑斓犹如马赛克
    010030090900000000000000011109161294880911