BAT的人工智能之战已经升级,IoT才是真正的下半场
发布网友
发布时间:2022-04-21 20:05
我来回答
共1个回答
热心网友
时间:2023-09-18 19:17
这一年,大家都说AI落地。人工智能究竟是否真正落地了?也许要用实际数字来计算。根据IDC今年7月发布的报告,从2018年到2024年,中国的AI云服务市场将以93.6%的复合年增长率增长。当然,高增长并不一定就是真正的产业繁荣,产业结构的变化更能说明产业走向的倾斜。阿里云最近有一套数字是很有趣的:四年前,云上的训练任务占到了80%以上;而现在,推理任务在算力上的比例已经基本过半。阿里云透露,这背后主要是因为4年以来,AI行业悄然发生的变化:云端进行推理的需求,比训练需求的增长要快得多。占比过半标志推理将是未来更为主流的云上AI计算需求,也说明AI行业已经从创业和从研发和创业为主,真正走向落地。为什么这么说?阿里云异构计算研发总监龙欣解释,训练是更偏后端研发的阶段。而推理更多是把成熟的产品推广到市场上规模化应用,从这个角度来看,算力是处于训练还是处于推理,其实就能判断这个产品在AI上的技术是否开始了大规模落地。而阿里云还透露了一组数字,最初云端GPU上线时,只有少数几家互联网企业和人工智能技术创业公司,租用算力来验证自己的商业模式和业务探索;现在AI用户已覆盖智能智造、医疗、教育等数十个行业。例如,今年的疫情让在线教育等行业迅速增长。阿里云透露,在线教育是过去一年里对异构计算需求增长最迅速的行业,已经增长了近200%。这也侧面反映了这个行业AI应用的快速落地。“实际上,AI已经进入到了下半场。推理业务的多样化也带来了异构场景和器件的多样化,云游戏、5G都是现在非常受关注的赛道。”龙欣表示,云上异构计算也在支撑更多的新兴赛道。AI技术已经到了不是少数人少数企业的“自嗨”,开始走向传统行业,全面开花。总而言之,AI已经从重训练的研发阶段,进入训练推理并重的落地阶段,而且应用面越来越广。从算法到“算法+算力”以深度学习为代表的AI技术飞速发展,对于算力的需求也在暴增。OpenAI的年度报告显示,从AlexNet到AlphaGoZero,短短6年时间里,最先进AI模型算力需求增长了30万倍。算法固然是提升AI技术的核心,但是想要AI快速落地,最“简单粗暴”的办法就是叠加算力。今年出现的超大自然语言模型GPT-3就是典型的例子。另一方面,更偏研发行为的训练阶段,对算力的需求是有天花板的,与具体业务规模不直接关联。而如今AI产品的落地,意味着随着前端用户规模的扩大,对应推理业务模型对算力的需求是会呈现线性甚至爆发式增长的。比如,阿里云曾经在数天内为一款爆款AI产品“弹出”了数万片云上GPU,抓住了涌入的用户。“巧妇难为无米之炊”,掌握算力资源的AI基础设施成为AI从概念到落地的重要支撑。AI已经从以单一的算法为核心逐渐演变为算法、算力双核心。云,无疑是获取算力最便捷与灵活的方式。通过云,企业可以随时获得充足的云端AI算力。作为基础设施提供商的云计算,为满足行业发展,堆硬件是必经之路,但提供AI算力并不等同于单纯堆硬件,如果没有全面的软硬件技术,只会得到1+1<2的效果。如何调度这些资源,解决用户在使用时的性能损失,是云计算厂商必须考虑的问题。云异构计算的三个阶段这就要从云上AI基础设施的发展阶段说起。云上异构计算作为最能发挥AI效率的计算方式,其发展可以分为三个阶段:第一个阶段,是异构计算需求的从0到1。在2013年AlexNet依靠GPU达到80%准确率,展现了GPU在AI算力提供上的能力这给业界开辟了一条新路。淘宝拍立淘、新浪微博等等,就开始尝试利用GPU来开发机器学习产品。2016年,阿里云迈出了第一步:启动异构计算业务,主要是服务了第一批寻求AI创新的客户的需求。在这个阶段,主要解决了企业对异构算力的从有到无。第二个阶段,是规模化。在2016年AlphaGo大放异彩之后,深度学习等AI技术开始从实验室走向工业界。随着大量互联网企业开始对人工智能算法研发进行重点投入,AI算力的瓶颈也日益凸显。大量模型训练的需求,以及对大算力需求的不断增长,推动了规模化、强弹性、高性能的云上计算基础设施的落地。阿里云也开始规模化部署云上异构算力。短短3年时间,阿里云已经拥有超大规模的云上异构计算集群,每秒能支撑100亿亿次的异构运算,相当于在1秒内看懂超过5.3亿张图片、翻译4千万句话、识别9.2万小时长的语音。而正如前文所说,2020年,人工智能行业的拐点已经到来,AI真正从研发和创业,走向了落地实践。这也就驱动着异构计算产品进入了第三阶段。第三阶段的特征,是精细化和多样化。当AI从研发走向落地,训练场景就将面临更为复杂多样的业务,对于企业客户而言,上云的需求也就从大算力,聚焦到了降低推理成本和极速部署等方面,同时场景也更为多样。不难看出,这三个阶段的变化,是技术进步和行业发展共同促进的结果。而第二阶段构建面向大计算的基础设施,可以说是所有云厂商的必经之路,也仍然是目前许多厂商的竞争重点。但在基础设施之上,如何让客户能进一步快速调用资源,在AI落地的过程中进一步降本增效?作为中国云计算市场份额最高的云服务商,阿里云已经率先迈出了这一步,给出的答案是——软硬一体软硬一体,在2017年就已成为头部云服务厂商的共识。为了云计算的一大顽疾——通过虚拟机搭建云的过程中,虚拟化带来的性能损耗问题,2017年9月,阿里云推出第一代神龙架构,在整个行业中首次以软硬结合的设计方式实现了性能的0损耗。而大洋彼岸的AWS也同样在2017年底推出了类似产品AWSNitro架构。在此基础之上,现在,阿里云异构计算针对垂直行业,进一步提供了让云上资源变得更高效、更易用的软件工具。比如针对人工智能行业的神龙AI加速引擎(AIACC)。在大规模深度学习场景中,大规模GPU资源不仅导致了高运维成本,随着机器数的增加,不同机器GPU之间的配合难度也会变大,导致单张GPU卡的利用率反而下降。AIACC则可以通过对通讯、带宽等进行深度优化,提升资源协作效率和利用率在AIACC的加持之下,今年3月,阿里云获得了斯坦福大学DAWNBenchImageNet四个榜单的世界第一。根据已经落地的实际案例,AIACC可以帮助客户在云上训练场景下,提升2倍到14倍的性能;在推理场景下,提升2倍到6倍的性能。AI芯片领域的独角兽地平线,与阿里云AIACC团队紧密合作,将基于阿里云异构计算的分布式训练性能提升4倍,让地平线算法研发效率得以显著的提升,成本得以大幅下降。阿里内部,以阿里云IoT的图像分类业务为例。AIACC团队和IoT智能业务研发团队合作,将大规模图像分类分布式训练性能提升5倍。另一阿里异构独有的软件产品,便是分片cGPU容器技术,能让客户通过容器来调度底层GPU资源,以更细颗粒度调度使用GPU,提高GPU资源利用率,达到降本增效的目的。阿里云异构计算产品负责人潘岳也进一步对量子位解释了“软硬一体”的必要性: