编者按:本文来自微信公众号“脑极体”(ID:unity007),作者脑极体,。
一般来看,一场成功的、胜利的AI行业大会,往往是这样的:主持人大谈AI技术是多么神奇、智能转型多么重要、产业价值多么庞大。然后一群专家(最好有外国人,配上同声传译)相互讨论,取代人类、奇点临近、智能时代、技术伦理等等畅谈一番,台下观众不明觉厉地送出掌声,然后各个AI企业上台,以一波跑分、广告结束了此次大会。
不知大家发现没有,在每一个这样规模庞大、议题恢弘的行业大会中,那些真正信赖AI、运用AI的开发者们,似乎总是面目模糊,只能作为“人肉鼓掌机”出现在图片一角。
那些秒杀人类的AI究竟是怎么发明出来的?转型AI,企业和开发者需要做好哪些准备?AI应用还有哪些新的可能性?
显而易见,想要真正让大众和无数企业、技术人员去了解、信任和触碰AI,上述问题才是关键。
所以,我们在以AI开发者为主角的“百度AI开发者大会”现场,抓住了几个AI项目的负责人,来尝试还原一下这波“探路者”的日常,以及他们给AI世界带来的无数奇思妙想。
“生物记”,用AI认识万千生命
AI开发者都是群什么人?相信大多数人脑海中会立刻闪出一些画面:在科技公司高大上办公楼里游走的潮酷极客;面前摆放着八块显示屏的超级宅男;亦或是像钢铁侠一样挥舞几下就造出个机器人来回跑。
实际上,AI近几年的快速发展,以及众多算法的模块化,已经使得深度学习方法得到了特别广泛的应用,开发者群体也格外丰富多样。比如我们遇到的第一位AI开发者,就是来自中国科学院动物研究所的生物学家。
该团队研发的产品,是一个名为“生物记”的人工智能平台,能够自动识别出图像中的动植物。
之所以有此创意,源于研究者林聪田的切身工作体会。在他看来,大数据时代,生物多样性研究的难题主要来自三个方面:
大量的生物数据积累还只能依靠人工来收集和分类,常常需要背着长焦相机行走在深山野外,小心翼翼地拍摄和分辨野生动植物,再对照资料逐一记录。工作辛苦不说,效率也难以满足科研需求;第二个问题是,具备专业知识的分类学专家越来越少,大量生物标本、照片等研究材料的难以得到专业鉴定,影响数据标注的准确性和可靠性,最终会影响研究的结果;另外,公民科学逐步兴起,大众对动植物的兴趣却与日俱增,不仅学生们需要科普教育,大人们也很爱凑热闹,遇到稀奇古怪的生物就上社交网络求专家鉴定,还捧红了“博物君”“水族馆男”等不少网红。通过公民科学产生的大量数据也被应用于科学研究,迫切需要能够自动识别生物的公共平台,保证公民科学数据的可用性。
在这种大环境下,一直关注技术进展的林聪田,在2017年开始通过百度大脑开放平台,将定制化训练和服务平台EasyDL,引入到了生态学研究当中。
目前,已经能识别鸟类、蝴蝶等生物类群。尤其是在鸟类识别上,“生物记”的top5准确率可以达到95%以上,能够识别一千二百多种鸟类。
专业的研究员们,野外作业时带上“生物记”,直接拍摄记录就能够完成野外观测工作,不需要再繁琐地手动记录各种信息。而普通的个人爱好者也可以随时随地上传自己拍摄到的神奇物种,获取相关知识。值得一提的是,“生物记”会给出物种匹配程度,还能直接在线向专业的生物学家求助。
人类认识自然的方式,正在变得“智慧”起来。AI让生命更美好,或许正是如此。
从2D到3D,人脸识别的还有哪些可能?
提到计算机视觉,可能大部分人最为熟悉高频的应用,都集中在拍照购物、一键搜图、刷脸支付等领域。这也可以说是受深度学习光环加持最为显著的AI能力之一。
那么,已经如此普及的成熟场景中,还能掀出什么水花吗?开发者们的创造力并没有让我们失望。在大会现场,我们就邂逅了一个来自以色列的AI开发者。
来自以色列的MANTIS VISION,是一家在3D结构光技术上钻研了14年的科技企业。2018年9月进入中国市场以后,MV的子公司螳螂慧视很快与百度大脑一碰即合,共同开启了3D视觉的AI算法研究。
很多朋友可能会好奇,3D视觉对我们有何意义?简单来说,过去的人脸识别都是在2D基础上完成的算法在平面彩色图像上基于生物特征的提取实现个体的区分,比如提取眉毛高度、嘴角等,再通过特征对比返回结果。
说实话容易导致两个问题:一是别人拿你的一张照片或者面具就能轻易骗过算法,造成安全隐患;二是精准度低,一旦对方整了容,或是突然变胖变瘦了,亦或是系统中的照片受到角度、光线的影响,都会造成对比准确率下降。
而高精度3D结构光数据的引入,有可能带来哪些惊喜呢?
首先,数据维度里增加了位置向量,能够更精准地识别人脸的立体特征。因此,在一些光线比较暗,或是安防系数比较高的地方,3D人脸识别的表现将带来前所未有的惊喜!
另一个可能带来的变革,大概率将出现在VR/AR领域。众所周知,这两大交互技术长期受限于内容生产的匮乏。而3D数据与AI算法的结合,将直接改变三维内容的生产模式。来自MV的工程师为我们展示了他们的AR动态人像,逼真的画风和实时交互,在智能算法的处理下,只需要不到半个小时就能处理完毕并上线。
毫无疑问,在越来越AI的机场、高铁、零售等人场景中,3D算法的出现将会彻底颠覆我们对人脸识别的最初想象。
当语音无法哄骗AI,声音才能真正展开羽翼
基于语音识别的各种语音助手、商业应用,也在悄然描画着智慧生活的未来。在去年的百度AI开发者大会中,我们就见到了百度CTO王海峰跟小度“讲RAP”的“极限操作”。可以说,听觉方面的技术突破,这两年大家伙儿都没少见。
不过,今年我们看到了AI给语音的另一种赋能:防录音攻击。
我们知道,声音之所以能够在门禁、银行、公安等领域中成为判定人身份的重要依据,就在于说话人声纹的不同。
在车载语音系统中,也可以通过声纹识别来判定车内不同乘客的身份,提供个性化的服务。万一别人将你的声音录下来播放给汽车听,岂不是可以“为所欲为”了?声音的合成处理也能达到以假乱真的效果,比如百度AI客服给大量开发者打电话,很多人一开始压根没有发现对面居然是个AI。
显然,如果不具备防攻击能力,单纯的声纹识别仍难以打消大家的安全顾虑。不过魔道总是此消彼长,今年,一个能够让系统不被录音/模拟音骗到的应用就向我们展示出了神奇的疗效。
得意音通的技术团队,在百度深度学习开发平台飞桨上,开发出一个性能很强悍的防录音攻击功能。当用户说出对应的字符时,系统会自动识别并通过,这没有什么稀奇的。神奇之处在于,当用户录下通关密令,再给系统播放时,它会立马判断出这不是本人亲口说的,并直接对通关请求say NO!
据开发人员透露,该技术在国际自动说话人识别欺骗攻击与防御对策挑战赛(ASVspoof 2019)中,获得了全球第一的成绩。在中国建设银行手机银行的数亿次验证中,能做到“零事故”和“零投诉”通过。
这个创意听起来只是一个小小的功能点创新,却在这个AI狂飙突破的关键时期,提醒了我们,让AI会说话、说好话是不够的,懂得拒绝的AI挑战更大,也更值得人类信赖。
从港口到养鸡场:AI也可以很硬核
说了这么多与现实生活息息相关的AI创新,是时候来点“硬菜”了。
其实,企业的生产更离不开视觉技术的辅助。比如摄像头监控到工业生产流程,如何识别这些特殊场景的内容就成了难题。
举个例子,港口装配的摄像头偶尔才能捕捉到为数不多的几个人像,在若干遮挡物的干扰下,可能根本无法识别出特殊人员的出现。如果机器不能及时预警,监控员很可能就会忽略掉,所谓的安保也就成了漏洞百出的“筛子”。
再比如,运用计算机视觉算法来识别火灾等灾害的特征,难以“防患于未然”。当摄像头监测到大量烟雾的时候,很可能灾情已经难以控制了。只有在烟雾刚刚似有若无的时候就发现它,AI才有可能真正发挥价值。
大家可能已经发现了,工业场景对AI的要求经常是“巧妇要为无米之炊”。需要在数据匮乏的情况下,起到技术支撑体的作用,成为人类操作员的“最佳辅助”。这可能吗?
我们与开发者们聊了聊,发现这样的“送水人”还是真实存在的,米文动力就是其中的一个。
有过AI开发经验的朋友会知道,场景定制化的AI功能开发,往往需要有适合自己开发任务的主板。没有强健的体魄支撑,再聪慧的大脑也带不动啊。而米文动力所做的是,就是在“飞桨”等深度学习开发框架上,定向开发出多种离线深度学习算法,加上英伟达的GPU硬件,打造出适合工业场景的计算平台。
一方面,针对工业场景中数据稀疏的问题,进行了针对性的算法开发。比如针对我们前面提到的火焰烟雾的及时识别,米文一方面四处“点火”,主动创造训练数据;另一方面则通过运动检测来增强数据,把深度学习无法正常工作的场景中的数据进行扩容,从而让系统能够进一步分析和训练算法。
另外,结合工业场景数据采集难、终端实时计算的特殊需求,打造了边缘计算+云端的计算平台。像是在轮船、吊车等一系列大型工业设施上,米文对硬件部分做了针对性调整,让视觉终端可以在高温高湿有震感的环境下长时间工作;软件部分则借助GPU的强大算力,远程完成模型更新与数据获取,降低了工作人员到现场取数据的频率。
这一系列工作的最终目的,都是让AI能够真正变成人类操作员的“眼睛”,从高强度、高风险作业中解放出来。
看到这里,是不是很惊叹于开发者们的创造力?普通人眼里一样的“AI”俩字(母),在他们手中却能变幻出这么多奇思妙想。
除了上述几个代表型创新,我们在百度AI开发者大会现场,还看到了帮助京东方植物工厂育苗的AI,浦发银行的首位AI员工,以及帮助基层医生看CT的AI……
在这些创造力的迸发背后,或许可以探讨这样一个问题:过去,我们总觉得AI距离普通人很远,那些真实可用疗效好的AI,到底去哪儿领?
也许最核心的关键词应该是——AI开发者。
他们带给AI的并不仅仅是一两个爆款应用,随着AI的持续深化,开始指向更为复杂精细的行业需求,能够连接原始产业与AI能力的角色,唯有这些胸有丘壑的开发者才能触达。
AI开发的难与不难
浮在实验室与测试数据中的AI技术急于走向台前,国家和产业对实用化AI的需求同样也十分迫切。你是不是也蠢蠢欲动,想要在AI江湖中一展身手?别急,我们也在现场帮大家向上面的优秀“课代表”们取了取经——想要打造一个致用型AI,需要具备哪些前提?
1.放弃将AI“神化”的幻想。
用开发者的话来说,AI开发真正注意的东西,都是跟AI开发无关的一些东西。比如一个基本的常识,AI技术只是一个个螺丝刀、老虎钳这样的工具,最后如何解决问题,应该用这个老虎钳还是一个螺丝刀就能搞定,这种对产业问题的基础判断能力,找到AI技术适用的场景和方式,才是开发者应该具备的特质。
2.有多少人工,就有多少智能。
找对了工具(算法),也不意味着能够立竿见影地解决问题。“有多少人工,就有多少智能”,看似是一句笑谈,也是AI世界里的朴素真理。
采访中,就有两个细节特别打动我。
MV的开发者分享了一个自己的亲身经历,高精度3D结构光的数据量相比2D是几何倍数的增加,即使做了成像压缩,一块1T的硬盘也可能装不了两个人的人脸数据。为了保证算法训练的数据量,往往是在丰台的办公室采集完了之后,由开发者自己拿一个啤酒架一样的架子,装满硬盘给百度大脑的技术人员送过去,常常需要往返数十趟。就是在这样的人力工作之下,才诞生了3D人脸识别算法的雏形。
米文未来的延误识别算法,也是在这样不辞辛苦的人工干预下完成的。在不同光线、时间、背景,室内、室外等各种环境条件下,米文的开发者大概花费了几百个小时“点灯放火”,才积累到了几十万张数据,完成了算法的训练。
所以说,AI开发中要面对的真实问题往往比预期和实验室中复杂很多,运用一切办法、动用一切力量去解决问题,这是一条不好走的路,但这才是一个AI开发者的自我修养。
3.不轻技术,更不轻应用。
在AI狂飙突进的过程中,很多开发者把AI算法本身看的很重,日常沉迷跑分与论文。这样做低估了AI产业化的难度,也低估了产业端的价值。很多时候,技术在真实的产业场景里可能会缺位。比如生物识别、火焰识别等等,这可能是科学家们一般不会思考的问题,却是切实存在、富有价值的产业需求。
在采访中,来自中科院的王聪田这样理解自己的定位——应用的人如果掉进技术的坑里,可能就跑不出来了,可以利用百度EsayDL这种人家已经训练好的简单易用的模型,不要深挖技术上的东西。
同样想法的还有很多,例如视派尔科技,作为数字图像处理的技术方案服务商,视派尔的开发者也强调,自己的重点在打磨体验和场景,做好AI所需要的前端图像处理外,还要做更贴合市场的定制化服务,至于平台化的SDK等软件层就就依靠百度这样的合作伙伴。在和百度大脑的合作过程中们也体会到和看到了这一商业模式的潜力。
毕竟,深入应用场景的产品及深度定制化的创新要比重新造轮子紧迫得多,产业化才是让AI普惠更快被大众感知和享有的关键。
总而言之,对AI“致用”的合理认知,才是一切想象力与奇妙故事的起点。
结束语
赋予智能手机价值的,是靠无数移动开发者的奇思妙想所支撑起来的应用生态。但到了AI时代,我们总在强调AI“三剑客”——算力、数据、算法。这三大门槛,似乎一直束缚着开发者的思想,无法撬动AI真实的产业价值。
可喜的是,我们逐渐看到,算力在变得廉价、数据资源日渐充沛,算法能力正在被百度等以简单易用的形式“摆渡”给开发者。
那么下个阶段,AI还能拼什么?答案或许是,开发者的想象力。
当AI开发者们能够从现实中汲取灵感,知道并且拥有工具去实现它们的时候,技术的宝库或许才会真正开启。也唯有如此,AI才不会变成另一个“吹泡泡”游戏。
我们也无比期待着生机盎然的“万众创新”那一天早日到来。