智铀科技作为国内第一家真正做AutoML的公司,创始人夏粉怀有什么样的初心,技术的难度有多高,信心源自于哪里,未来的目标是什么,带着这些问题,笔者走访了前百度资深科学家、智铀科技创始人夏粉博士。
夏粉
01.创立智铀科技的商业逻辑是什么?
夏粉:人工智能(AI)很精英,目前还是BAT的游戏;传统企业想拥抱AI,挑战很大,人才稀缺、科学技术门槛很高。只有AI产品化,简单易用,才能普及到各行各业,靠提供解决方案的方式,很难将AI快速普及到传统行业。其实高科技的在全社会的普及都是遵循这样的规律,比如相机,早期专业的相机只存在于照相馆,而傻瓜相机的出现才会带来全社会的普及。
作为BAT最基础、常用的数据分析方法机器学习而言,只有自动化,才能够实现产品化;而这就需要用算法来训练算法,用AI的方法来训练AI,因此自动化机器学习,门槛很高,是个很前沿的科学技术。
智铀科技一方面要做中国的DeepMind,需要有一个科学家团队,深入研究、突破自动化机器学习的前沿理论、技术问题;另一方面,要深入到应用场景,真正服务到各行各业的实际业务。
02. 目前传统行业拥抱AI的痛点在哪里?
夏粉:传统企业最大的需求是实现商业价值,AI的方式能提升企业价值,以广告为例,AI能提升广告变现能力。但是传统企业做AI ,企业需要信息化(数据采集程度需要提高)、数据沉淀、AI能力这三个能力,现在很多企业开始第一信息化改造,第二沉淀数据,最终都是为了终极目标,利用人工智能以提升变现能力。
目前企业面临的问题是人难招(数据科学家人才稀缺),成本很高(最近有统计数据说机器学习工程师平均年薪是13万美金),团队组建、打磨,也需要两到三年,对一个发展的企业来说时间非常重要,两三年可能就丧失了发展的时间窗口。最重要的是,就算科学家到位,有时候也很难取得好的业务效果。
03. 智铀科技的AutoML产品能解决什么问题?
夏粉:要做做一款AutoML机器学习系统,让普通工程师也能用上机器学习,解决实际建模问题,实现从“不能”到“能”的提升。
如果是专业人士,比如数据科学家,用上这款产品他就能够去除他的一些繁重的脑力劳动,比如调参、优化模型等等。
从技术的角度来解读,机器学习中的数据预处理、特征学习、超参学习到模型训练都实现自动化。
自动化机器学习
04. 产品的开发的节奏
夏粉:目前已经有个极简版已经开发出来了,服务了3-5家客户,易用性不是特别好,目前正在开发易用性版本,近期即将发布。
05. 过去有哪些在自动化机器学习领域的经历?
夏粉:我在百度工作多年,首先感谢百度,公司提供了一个很好的技术氛围与使用场景。最开始在网盟工作的时候,主要集中在为了提升网盟的点击率预估效果,当时有两个目标,一个目标是提升网络广告的CTR点击率,另外一个目标是在提升CTR的过程中,让建模的代价变得最小。因此,在数据特征、建模、调参上面做了一系列的研发,这个业务线应该是百度最大的业务平台(从数据规模上来看),然后数据噪音也是相对来说比较大的。
其次在百度研究院的时候,在百度的内部平台我们的Pulsar大规模机器学习平台得分是排名第一,总共是七八个机器学习平台,我们显著超过第二名。
06. 传统企业是否使用机器学习开源软件就能够解决问题?
夏粉:目前公开的有众多开源算法,但这仅仅是提供一个算法,并没有解决怎么自动让算法取得好的效果,需要科学家将算法应用到实际的问题。
因为从数据到企业业务效果提升还有一个很长的链条,有很多环节,每一个环节出问题都可能导致不好的效果。自动化体现在整个建模的环节,包括前面的数据来了以后,数据的采样,特征的选择,特征的加工,就是特征工程。然后还有算法选择,然后模型调参等,包括模型的评估和可解释性,模型的应用等方面。但如果你需要一个产品化的东西的话,那你还是需要做很多,即使说一个开源软件放在这儿,如果一个企业想把开源软件用过去的话,为了得到比较好的效果的话,他还是需要比较资深的AI科学家的帮助,但是这样的人才是很难招到的,并且最终和业务人员磨合、打磨优化算法、最终取得好的效果也需要1-2年的时间。
07. 自动化机器学习需要在哪些方面的突破?
夏粉:自动化机器化学习最难的是算法问题。给你个目标函数,我需要找到一个点使目标函数最小,这就有很多研究方法,对目标函数有很多解法,可以求解。自动化机器学习是目标函数不可导,反馈机制不明确,计算复杂度高,数学里的梯度性问题。所以要全部试一遍,成本非常高。把不可导变成可导的机器问题出来,就要求近似。报道说,人工智能打败国际象棋大师是在上世纪80年代,通过暴力搜索,每一步都评估,选取分数最好的一步,但是到围棋就不行,复杂度高搜索不出来,穷搜根本搜不出来,所以要做近似问题,把不可解问题近似成可解的问题,找目标函数,使目标函数以很大的概率覆盖最优解,同时求解的复杂度降低,我们在这一方面创新了很多算法。(人和机器都没有办法找最优解,但是机器范围大、效率高,所以效果比人好)以前机器下象棋每步搜索2亿次,现在只需要做3000万次,因为做了优化。
自动化机器学习的突破最大的是算法设计突破,你要找到A问题近似B问题,比如谷歌AutoML是用强化学习做的,他也是穷值,穷值下面也是有一个产生概率在里面,我有几个候选,这些都有可能是最优解,我把每个最优解都放了一些概率分布在这儿,然后根据概率分布我随机抽一点,抽一点上去试,试的话反馈过来会改变这个概率的分布形式,最终概率分布形式变了,最终最有可能是最优解的概率覆盖到更大的概率。学这种策略,就是用强化学习的方式去做。强化学习是实现自动化的一个方式。
08. 有了AutoML产品以后,还需要数据科学家吗?
夏粉:科学家如果仅仅有机器学习能力的话,他每做一个业务线,他都得去理解这个业务线,然后才能把它做出来。这个就比较费时费力,所以当我们的产品把代价降到更低,数据开发以后只要“one click”就可以了。
开源软件产品化的问题比较大,他没有专人维护,一个是开源软件比较多,如果一个公司需要开源软件的话,他需要找数据科学家,然后数据科学家再把开源软件拿过来打磨,打磨产品化。企业都知道要用AI来提升他的业务能力,而且他的业务场景是每天都要发生的,所以产品还需要人维护升级,如果你用开源的话,你还需要人在不断的跟进升级的。
有了自动化机器学习产品,数据科学家把重复的劳动给去掉,把精力放在更重要的事情上去。比如说问题的定义,这决定了一个问题能不能做,应该把这映射到是分类啊,还是回归啊,还是排序,这个实际上还是要AI科学家做的,就是把一个实际问题给抽象为一个机器学习问题。后面的问题从数据上看就像是从一个函数空间里面搜索一个函数问题。智铀的产品可以把比较优质的建模的路径开放给科学家,当然未来最优的路径我们自己也是不知道的,是机器学出来的。
09. 做自动化机器学习的初心
夏粉:目睹了机器学习工程师辛苦调参的过程,太累了,一定要解放出来,我在百度负责网盟的点击预估模型,我的主要目标是提升广告点击率,那么提升的主要手段就是不断的试,因为问题定义已经很清楚了,主要就是两块工作,一是数据采集,需要采集流量数据、广告数据,这是一方面工作,比较耗时,还有就是加工,当时做的比较多的就是特征选择和特征组合,这两个事情占用了加工主要时间,一开始这个事情好做,大概过了一 个月就能挖到一个比较好的特征,每挖到一个特征大家都非常高兴,模型上线了,业绩提升了,对公司有了贡献,这个本质上是重复的脑力劳动,这个事情要会使用工具,只要会使用工具了谁都能干,效果好不好特别依赖于人的经验,当时我带了30个人做这个事情,投入了巨大的人力和资源,如果机器来做就简化了,当时我就找了一个三个人的小团队,专门研究算法,研究怎么把这个东西自动化,3到4年之后,我们做了一套系统出来,当时那个系统出来,我们做挖特征的时候把网盟最后一批特征全挖光了,后面加特征就再也没效果了,我们一下子挖了30几个特征,我们当时还把人试了没用的特征用机器再挖,结果把效果挖出来了,又有提升。
之后我想做更加通用的平台,让公司更多的部门来用,后来去了百度研究院,带团队开发了大规模机器学习平台Pulsar,结果试了我们成功了,Pulsar在公司所有机器学习平台中排第一的,在效率和效果上面,人工效率没我们快,效果没我们好。
而且我发现一个事情,一般BAT的技术都是领先业界2-3年的,当百度可以用人工智能提升CTR变现的时候,外面的企业3年后也开始逐渐用起来了,而我们现在想把这个技术推向更多的企业,更快的应用人工智能,创造更大的社会价值。
10. 从科学家到企业家有什么挑战?
夏粉:喜欢这种挑战,做研究的话挑战是在问题的难度,你怎么解决这个问题,解决了的话很有成就感,现在变成一个企业家,我觉得责任更大了,他不是解决一个比较简单的问题了,他现在是一个比较复杂的问题,原来的目标比较简单,但做企业的过程更复杂,他也有一个目标,目标是你的使命,做的事情也有一个输入一个输出,输入的比如说资金、人才、你要不停的采集数据,获取资本、获取人才,然后还要定一个方向,你使命出来之后你怎么实现这个路径,其实也是个机器学习问题,目标定在这儿你怎么传导的你也不清楚的,这里面你要目标函数过来怎么近似也不清楚,还有公司管理,你怎么让钱、人各个环节高效运转起来。如果用机器学习的思想放到企业管理,是有助于企业和个人成长,就是不停的探索,反馈和总结,目标在这儿,分解成子目标,再有可执行的一个路径。