GPT时代,一位数据产业创业者的“生存法则”
“Data is the new oil. (数据是新型石油)”,这句如今听起来颇有些陈词滥调的话却是关于“数据”广为流传得较早隐喻,17年前这个论调被英国数学家Clive Humby提出时,大家或许还没有意识到,数据和石油其实一样,都是要经过提炼、加工才能变为更有价值的产物。
而究其本质,对石油的再加工,需要一个全新的“化学工程”行业,并引发了一些产业变革。比如20世纪初如果没有高辛烷值汽油出现,就没有之后的汽车普及。今天,当人们开始对数据再加工,同样需要一个全新的“数据工程”行业。
众所周知,人工智能的三驾马车,是算法、算力和数据。而一份来自UBS Global的报告却显示,现如今AI工程师70%—90%的时间都花费在训练数据上。所以本质上,机器学习作为AI的大脑,是一种被数据投喂长大的算法技术,伴随着建模门槛的降低,数据的门槛却越来越高,使得数据工程变成了机器学习的瓶颈。
所以,我们可以说:AI正在改变世界,而数据工程则在改变AI。
在这个过程中,一批批技术为王的训练数据服务商突出重围。于是,倍赛科技和它的创始人兼CEO杜霖就出现在了我们的视野当中。
说起来,杜霖和数据打交道将近20年。早在大二期间,他就曾创办过一家数据挖掘公司,最后以400万美金卖掉。甚至在高中,他就自学了计算机视觉相关技术,并在核心期刊发表论文。
而倍赛公司的创立,也源于杜霖发现了机器学习进一步发展面临的痛点。
创业雏形: 数据才是那只木桶的短板
作为AI如今最辉煌的分支,机器学习曾经多年来却一直进展缓慢,直到2012年的ImageNet图像分类竞赛中,深度卷积神经网络模型AlexNet取得了惊人的成绩,将错误率降低了近一半,使得深度学习开始受到广泛关注和应用。
除了算力的叠加、算法的优化之外,高质量数据集就是不可逾越的一环。举例来说,人脸是千变万化的,但若没有包括不同年龄、性别、种族、角度和光照条件下的人脸图像数据集,可能就不会有AI识别模型的性能和准确率。
也是那时候,杜霖敏锐地嗅到了数据的前景,深感里面有很多事可做。于是,他火速拉了交大的两位同学入伙,开发了一个完整的AI应用场景:一款能识别食材的冰箱,冰箱能识别出120种食材,综合识别率达89.9%。虽然还不够完美,但商用也是没问题的。
在那个年代,这款冰箱开了图像识别冰箱的先河。杜霖回忆:“我们试着卖给海尔、美的等家电公司,大家都很感兴趣,但是谁也付不起费用,因为白电的利润空间非常薄,这套识别系统软硬件成本至少1000块,而一台冰箱也就卖一两千块钱。”“如果不是太过前卫,倍赛现在可能就是一家智能冰箱解决方案公司了。”
表面上看,是技术太过前卫、成本太过高昂,但经过仔细反思复盘,杜霖意识到背后有更通用的痛点:机器学习中,训练数据工程占据了绝大部分研发时间。
算下来,这5个半月的时间里,他们花了3个半月做数据标注,真正训练模型也就1个多月时间,其中数据标注用了将近30人,而数据训练只有一位AI工程师。
杜霖从中总结出两条颇有远见的观点:第一,所有行业都会有被机器学习渗透的那一天,因为它真的能提效,所以它会随着数据的丰富和建模门槛的降低,变得越来越普及。第二,正因为机器学习会普及,围绕在训练数据的工程化一定有巨大潜力。
“解决数据问题更重要”,杜霖说。于是,倍赛科技公司就在这样的背景下诞生了。
公司虽然落成了,但这也只是一个开端。倍赛从2015年便开始研发自己的数据标注系统Origin1,直到2017年底才开始接业务。蛰伏了三年,只为让系统足够稳定成熟。到2018年反哺也联袂而至,倍赛科技的营收同比增长了五六倍,达千万规模。“当时我们每天都会收到大量的需求。”杜霖说。
战略转型: 黎明之前的至暗时刻
创业路上有无数的暗礁,都源于各种第一次,第一次组队伍,第一次找融资,第一次商业化……对于倍赛来说,潜伏最深的那块险地,是第一次技术化转型。
转型,对于任何一家公司包括创业公司而言,它的考验程度甚至堪比一场再创业,因为那意味着对旧事物的推翻、对新事物的创建,就势必会有一个否定自己再证明自己的过程。
在倍赛的发展历程中,杜霖曾写过一封全员信,说公司最难的时候,不是账上的钱只够维持两个月工资,也不是拿着的一个大客户订单突然就丢了,最难就是那一场技术平台大转型。
那一年,倍赛的核心产品Origin1已经稳定发展了4年,但团队遇到了一些反复出现的问题——公司的AI项目经理和公司的客户经常会花大量时间去磨某一个数据该怎么标。
拿一个很简单的自动驾驶场景举例,下雨时摄像头会变脏,这时候就要加一个标签“摄像头是否洁净”,因为它会影响建模。但就是这种常见场景,却是要求数据标注方案迭代很多次。
诸如此类的问题,极大影响了数据处理的效率。杜霖进一步发现,这些问题已经无法在既有产品上修修补补来解决了,必须做一次重构,全部推倒重来。
思索再三,杜霖及同事们最终决定对核心产品下手。而且,既然要改,就要改得彻底。作为一款企服的产品,它需要“商业化友好”,它的底层性能要强大完备;而作为一款国际化视野的平台,它需要“开发者友好”,所以用户体验也要跟上步伐。
用一句话总结目标:倍赛需要将公司原来的“数据标注”产品Origin1,转型为一个“训练数据工程化”开源平台Xtreme1。
这项重大的产品升级,同时面向N个目标诉求,操作起来必然是牵一发而动全身。那阵子,这边Origin1还在不断商业化,那边Xtreme1只是襁褓婴儿。需要用老产品的“回报”东墙,补新产品的“开发”西墙。
更难的是,公司上下包括杜霖自己在内,大家并不知道新产品能否做得出来,何时才能做出来,唯独只是坚定要持续投入。那段时间里,整个团队的士气进入了一种又迷茫又激进的拧巴状态。
作为公司主心骨,杜霖眼前的难处也有一箩筐,包括怎么保持新旧两边产品部门的目标协同一致;怎么做好两个产品的平稳过渡;怎么匹配新战略,向VC介绍新的商业逻辑;以及,Origin1做了4年的闭源,突然要从Xtreme1转为开源,虽然迎合了大趋势,但到底是福是祸?
在前后1年多的时间里,杜霖做了无数适配,来掌舵这次转型。他在成都创立了研发中心,从零开始招募第一位员工。而整个团队,也频繁往返北京成都两地,进入高强度工作状态。
幸好,倍赛最终有惊无险地闯过了难关。
经过无数次测试,新一代支持多模态数据的AI训练数据平台Xtreme1横空出世,并在2021年12月30日加入Linux基金会并实现开源。
回看这次转型,杜霖也感慨万千,他说:“这不光是一次产品的升级,更是一次能力的升级,因为公司因此实现了从技术投入、团队升级、战略调整的一系列蜕变。”
他在那封全员信的最后写道:所谓的至暗时刻,不是午夜12点,而是黎明没来、深夜未走的凌晨四五点。
消除误解: 谁说数据标注没有含金量
业界有一种误区认为,数据工程的核心就是“数据标注”,而数据标注只是“处理多少数据,就有多少人工”的蓝领流水线。
杜霖以产品举例称,“Xtreme1成为了Linux基金会关于MLOps版图中全球首个填补“Annotation&Visualization”空白的产品。”所谓MLOps,是指将DevOps(开发运营)中的最佳实践应用于机器学习的运营。
随着数据的复杂性增加,以及新算法的不断涌现,机器学习模型的部署和运营变得越来越困难。而MLOps通过采用自动化流程和工具,使机器学习模型的部署、监测和维护变得更容易、高效和可靠。
Xtreme1正是围绕Data-Centric MLOps的应用策略展开,从而更便捷、高效地帮助客户实现AI应用交付。某种程度上,这可以理解为是一种用“人工智能”提升“人工智能开发”的工作方法。
在产品细节上,Xtreme1从功能层面由五大板块构成:Ontology Center、Annotation Suite、Dataset Curation、SOTA Models和BasicBot。比如Ontology Center这一功能,当中关于车的属性就有很多种,SUV、轿车、卡车、自行车等等,客户可以基于属性,去生成一个想要的标准方案。或者结合业务场景,去定制一个方案。“我们在X1里开发了一系列自动化工具,去帮助客户实现数据标注方案。”
如今,Xtreme1已经成为倍赛科技的拳头产品,并得到招商银行、英特尔、南方电网、京东、Bosch、科大讯飞、商汤等近千家头部企业客户的青睐。去年,倍赛科技还拿到英特尔AI百佳创新激励计划的“芯锐奖”生态拓展奖,使用英特尔处理器 IntelXeon®Processor、Intel®OpenvINo™等技术对产品开展模型训练。
跨物种联手: 人工智能离不开人类老师
不过,要把AI转化为生产力,不仅要懂AI,更要懂场景。数据工程的门槛,不仅在于技术研发上,更在于各个行业的Know-How上。
杜霖说,我们的产品经历了数万项目的打磨,当一接手某种类型的项目,在系统层面,我们就知道它可能会涉及哪些数据标注的规则,这在内部称之为Data Driven(数据驱动),我们会去理解客户为什么做这个数据、想解决什么问题。
比如同样都是道路场景,自动配送车、无人驾驶车、配送机器人这三种车辆,标注方案却是完全不同的。
对于自动驾驶,需要大量补充类似“道路临时施工的锥子”Corner case数据;而对于酒店配送机器人,就要去找“电梯上下口特征”的数据。“不同的场景有不同的数据要求,我们是理解的,因为我们做了太多案例。”
甚至,在杜霖看来,ChatGPT之所以这么惊艳,也是有人类Know-How参与的原因。
也就是说,ChatGPT的背后功臣,除了有实现更大级别模型的“预训练”,此外把Human in the Loop(或被称之为RLHF)这件事情做好也是关键。
HITL(Human in the Loop,人机协同),可以简单理解为用“人类智能”结合“机器智能”来创建机器学习模型。实际做法就是用“言传身教”的方法,给机器这个“学生”配个优秀的“人类老师”,把机器学习原本的“填鸭式教学”升级到“答疑式教学”,来迅速提升它的学习成绩。
也就是,当生成式AI创造出内容后,人类根据自身Know-How来给结果打分,帮助机器对齐人类思维。
“当下的机器学习大部分是依赖于HITP。”杜霖指出,ChatGPT通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的数据标注是大模型应用成功的基础。
反观回来,作为一家全栈AI数据及模型解决方案供应商,杜霖所创立的倍赛科技的核心宗旨,就是用更好用的工具更好地达到Human in the Loop,把客户的建模成本进一步降低,建模效率进一步提升。
杜霖把倍赛的这项业务总结为“Training Data Engineering(训练数据工程化)”,其中涉及的环节就包括了:数据采集、数据清洗、数据标注、数据集管理、模型建立、模型部署、应用程序构造等。
所以,无论是从哪个角度看,数据工程不仅是个技术密集型产业,更是一个要求责任感很重的产业。好的数据集,就是AI的优质教科书,赋予AI灵魂的存在。
不过在杜霖看来,国内的这个行业其实被一些新涌入者搞得有些混乱。很多同行一味实施低价策略,甚至是亏钱接活,拼体力抢单,抢到之后再去讲融资的故事。“这是一个不健康的业态和模式。”
相较而言,在国际市场上,数据工程行业也是高度竞争的,但是大家的竞标价格基本都是八九不离十的,客户最后研判的标准会上升到技术实力、交付能力、业务贴合度等指标,不会一味地只看价格。
最终的结果是,国际数据处理公司的估值动辄几十亿,中国可能只有十分之一,这也让数据工程被误解甚至边缘化。
也正因如此,杜霖坚定地将把“更强的技术能力”和“国际化”作为公司核心方向。“倍赛一直把自己标杆成一个世界级的产品,所以我一直要求产品经理去看世界最好的工具,眼光还是要放高。”目前,倍赛全线产品都是中英文双语,在成都的研发部门60%以上在英文环境中工作,非研发部门90%以上实现英文工作环境。
他强调说:“整个数据行业里,未来能走出来的一定是工具能力非常强、且有全球化基因的公司”,因为AI的通用属性意味着,你的产品总有一天会被放到全球商业舞台上去卷。
数据猎手: 业务出海,产品说话
回望整个创业之旅,杜霖最有成就感的过程,就是带动全员统一目标,做出有潜力的产品,从而实现从0到1、从1到100的增长过程。
“我一直在试图把自己所学的工程能力,转化到现实世界去解决实际问题。我是一个非常典型的喜欢去解决问题的人。”杜霖相信,能解决实际问题的产品就是好产品。
但由于技术是一个相对抽象的概念,技术的发展是个漫漫长路,创业者如何更好地普及技术?杜霖顿了顿说道,“我相信倍赛是以产品驱动增长的公司,就让产品自己说话吧。”比如前阵子,产品受到了不知名用户的好评,是来自瑞士理工大学的某个用户被挪威某个大学的校友推荐用了产品,“这让我很有成就感。”
谈及未来发展,摆在公司面前依然有两条路可走,是做一个小而精的垂类公司,还是做一个大而美的平台公司?杜霖说,还是回到最初的定位,就是围绕多模态数据做好一套训练数据工程化(Training Data Engineering)和训练数据生命周期管理(Training Data Lifecycle Management),因为这是未来一切可能的地基。
如何看待AI未来?杜霖说,“AI的终极方向,一定是在可控的范围内,进一步提升全世界的效率”,如果类比的话,AI只是一次工业革命,是对生产力的又一次解放,它的跨时代意义跟蒸汽机时代是一样的。
蒸汽机刚出现时也很笨拙,但是某一天,大家发现它可以取代马车、人力,然后被取代的人慢慢就反向变成AI的操作者,比如司机操作方向盘,工人操作机械。
所以,AI所取代的工作,未来依然会有更多的人反向去操作这样的AI,也就是我们之前所谈的Human in the Loop。也正因如此,训练数据工程化的工作现在重要,随着AI在不同行业的深入,还会变得更加重要。“人类要教AI好的东西和对的东西。”
在连续创业的间隙,杜霖还因为爱好,而当过几年的海上猎手,甚至后来还因此孵化了一家海钓渔具公司。他说自己喜欢出最远的海、去钓很大的鱼,享受与未知世界斗智斗勇的感觉:“我钓过最大的鱼是在西沙的一条接近300多斤大鲨鱼,我用手摇杆摇上来的。”
不过,只要了解钓鱼这项运动的爱好者都清楚,其中取胜的关键,并不是收杆那一刻的拼体能,而是在整个过程的运筹帷幄。
从这个角度看,海上猎手如此,数据猎手也如此。
(文章来源:科技行者techwalker)