2009年,飞天的第一行代码敲在了阿里云最早的办公室里,也敲在了国内云计算的里程碑上。十几年后的今天,我们仍然能够看到这股创新力量在阿里云不断汇聚,等待某一刻的爆发,而这一刻似乎已经到来。早在今年4月的阿里云峰会上,阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团CEO张勇表示,目前阿里云已形成了全栈的技术服务,搭建了模型即服务(MaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)三层架构。在此之后,阿里云推出了“飞天发布时刻”这一产品技术发布平台,并开始以这一平台高频地对外发布在智能时代云计算创新体系下的一系列新技术和新产品。在刚刚过去的7月31日,飞天发布时刻再次带来了一系列新产品,并引发了业内对智能时代云计算技术体系相关理念的关注。
一直以来,业界对于MaaS存在诸多讨论。那么,MaaS理念之下是否实现了业务场景的适配与落地?被热议的全栈Serverless化做到了哪一步?对企业和开发者又有何价值?云厂商如何才能真正做到“普惠”?什么样的云计算体系架构适合智能时代?本文将针对上述问题进行探讨并寻找答案。
一、MaaS理念下如何实现大模型能力产品化?
AI浪潮下,作为大模型底层基石的云计算发生了新的变化。当前阶段,云厂商已经基本达成共识:AI与云计算互生互融成为必然趋势,应用将大规模建立在大模型上。与此同时,业界在讨论大模型时普遍提到了一个关键词:MaaS。
MaaS是什么?去年11月,阿里云在云栖大会上首次提出了MaaS(Model-as-a-service,模型即服务)概念。阿里云CTO周靖人曾对MaaS做了如下表述“MaaS最底层的含义是要把模型作为重要的生产元素,围绕模型的生命周期设计产品和技术,从模型的开发入手,包括数据处理、特征工程、模型的训练和调优、模型的服务等,提供各种各样的产品和技术。”可以明确的一点是,MaaS并非一个技术层,而是一种理念。
随着“百模大战”日趋白热化,MaaS理念成为越来越多大厂选择的商业路径。MaaS是否能重塑云计算改变云计算的游戏规则,目前定论还尚早。但可以肯定的是,以往的PaaS和SaaS架构都将被置于大模型的底层能力之上,大模型将成为生产要素,在各行业释放力量。
尽管大模型对未来的颠覆性影响已成为共识,但是我们仍然需要面对的现实是,国内对大模型的探索处在早期阶段,多数企业对于大模型仍然持有观望态度,原因在于其在业务场景适配与落地上存在较大难题。当各大厂正在跟随MaaS理念纷纷研发自己的大模型或者寻找大模型落地场景时,阿里云已经实现了大模型能力的产品化。
今年的WAIC大会上,阿里云通义大模型家族揭开了最新成员的面纱,基于自研的组合式生成模型Composer的AI绘画创作大模型——通义万相。其实,在这之前阿里云已先后发布了超大规模的语言模型——“通义千问”和专攻音视频生产力的AI产品“通义听悟”。至此,阿里云在AI的三大主要方向全部打通。
“面向AI时代,所有产品都值得用大模型重新升级。”是阿里云对大模型产业落地的判断。当所有聚光灯都打在两个月内迅速诞生的通义千问和通义万相两个大模型上时,阿里云已经同步实现了诸多产品的智能升级,通义听悟、钉钉都是其中的先行者。
通义听悟是一款面向工作和学习的AI助手,通义听悟强大的理解能力背后除了以自研的通义千问大模型为基座,更重要的是内置了阿里云新一代工业级语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍。最新数据显示,通义听悟在发布首月累计访问用户数49.1w。
除此之外,通义大模型能力也足以赋能其他企业级产品。在钉钉宣布全面接入通义千问大模型的3个月之后,我们看到了大模型对企业级产品智能化升级的真正实力。知识库、Teambition、白板等加入AI能力,钉钉12条产品线、40多项场景接入大模型。用户通过斜杠“/”输入自然语言,即可生成PPT、思维导图、数据分析图表、项目看板等。在智能化升级中,钉钉将大模型深度融入到工作流程的各个环节,用户可以在钉钉上完成从沟通到协作、从创意到实现、从管理到决策的全流程并能充分感受到大模型交互与理解能力所带来的新功能、新体验。
在开发者生态层面,为进一步降低大模型使用门槛,阿里云推出国内首款大模型调用工具魔搭GPT(ModelScopeGPT),它能接收用户指令,通过“中枢模型”一键调用魔搭社区其他的AI模型,大小模型协同完成复杂任务。魔搭GPT现已能够调用魔搭社区十多个核心AI模型的API,未来随着更多模型API的加入,魔搭GPT的能力也将不断增强。构建这一模型调用工具的数据集和训练方案将会对外开放,供开发者自行使用,开发者可以根据需要对不同的大模型和小模型进行组合。值得一提的是,就在昨天,阿里云通义千问开源。AI模型社区魔搭ModelScope上架两款开源模型Qwen-7B和Qwen-7B-Chat,阿里云确认其为通义千问70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。在多个权威测评中,通义千问7B模型取得了远超国内外同等尺寸模型的效果,成为当下业界最强的中英文7B开源模型。
从通义听悟到钉钉再到魔搭GPT,我们看到阿里云在用户层面、企业层面、开发者层面实现了大模型产品化的全面布局。这也意味着,阿里云最先实现了在MaaS理念之下大模型与业务场景的创新落地。然而,大厂的理念再先进、产品落地再好,普通企业和开发者要想玩转AI,尤其是在云上玩转AI,依旧难度不小,降低AI开发甚至应用开发的门槛,是开发者们提出的诉求,也是云厂商最重要的功课之一。
二、降低AI开发门槛,全栈Serverless化,做高质量的PaaS层
大模型浪潮,率先将算力推至风口浪尖。据OpenAI测算,全球AI训练所用的计算量呈现指数级增长,平均每3.43个月便会增长一倍,目前计算量已扩大30万倍,远超算力增长速度。国家信息中心发布的《智能计算中心创新发展指南》显示,当前我国超过30个城市正在建设或提出建设智算中心,但仍然无法满足相关需求。
打造一个AI大模型究竟需要多少算力?据公开数据显示,ChatGPT初始所需的算力就是1万块英伟达A100,价格超过7亿元。后续的调优训练每天消耗算力大概是3640PFLOPS,需要7至8个算力达500PFLOPS的数据中心支持,建设成本约为三、四十亿元。
然而,提供算力的所有GPU不能只是简单堆砌,更需要让所有算力联合起来为模型训练服务。大模型的训练和推理过程需要海量数据资源,相比于传统中央处理器CPU,GPU拥有上千个小型处理核心,能够同时处理大规模数据的并行计算任务,运算速度更快。凭借这些优势成为了智能计算的理想选择。但是,算力的构成并不仅仅只是GPU加速芯片,还需要构建包括网络互联、操作系统、深度学习框架以及相应SDK、算法与应用程序等,形成一个完整的计算生态系统,通过体系化的技术支撑汇聚AI算力。
而智算服务PAI-灵骏恰恰就能将这一体系整合。智算服务PAI-灵骏包含的基础设施层的RDMA网络和融合算力集群、智算工程平台和智算资产管理以及强大的Serverless化的调度能力和运维管控能力等,都助力开发者摆脱堆砌算力的老路。
同时,智算服务PAI-灵骏面向大规模深度学习及融合计算场景,一站式地提供覆盖Al开发全流程的工程平台和深度优化的融合算力,支撑了10万亿参数规模的大型模型训练。基于PAI-灵骏智算服务,单训练任务可达万卡级别规模,训练性能可提高近10倍,千卡规模的线性扩展效率达92%,极大降低AI开发门槛。
智算服务PAI-灵骏本质上是一个Serverless化的产品,为AI开发新范式提供了Serverless化的平台支持。而在AI开发之外,Serverless也已经是大家普遍认同的应用开发的范式。根据Gartner预测,到2025年将会有50%以上的全球企业采用Serverless化架构。为什么越来越多企业会使用Serverless?
Serverless的核心目的是在云计算的基础上,彻底“包揽”所有的环境工作,直接提供计算服务。在Serverless架构下,开发者只需编写代码并上传,云平台就会自动准备好相应的计算资源,完成运算并输出结果,从而大幅简化开发运维过程。随着企业数字化进程加快,Serverless的全托管服务、自适性弹性、按实际用量计费等特点越来越满足企业的业务需求。
Serverless的价值不言自明,但是要想让用户用好Serverless,单纯在应用运行时层面进行Serverless化是远远不够的,应用依赖的下游数据库等系统,如果没有良好的弹性,就会成为系统整体的“短板”。
全面实现Serverless化取决于整个研发链路上有多少云产品提供了这样的形态。阿里云是国内对Serverless探索最早的厂商之一,其于2017年推出了函数计算产品FC,2018年推出了Serverless应用引擎SAE和Serverless容器服务ASK,2020年开源了ServerlessDevs,2022年Serverless应用中心发布……在去年的云栖大会上,阿里云宣布全栈Serverless化之后,业内都在期待相关成果。
“让云计算从资源真正变成一种能力”,阿里云一直坚定地推进全栈Serverless化并通过多年的Serverless产品创新积淀等待新的突破。
在本周一的飞天发布时刻上,阿里云陆续带来了Serverless领域的最新进展:函数计算FC与AIGC的创新融合、容器服务Serverless版(ACKServerless)以及Serverless应用引擎SAE2.0。这意味着,阿里云在全栈Serverless化又前进了一步。
在权威咨询机构Forrester发布的最新全球FaaS能力报告中,阿里云函数计算凭借产品能力在40个严苛的评分项目中拿下24个最高分,综合稳居领导者象限,成为国内两度进入该象限的科技公司。函数计算的产品实力加速了与AIGC的创新落地。
面对应用开发的高门槛,阿里云函数计算整合了AIGC应用开发,集结经典的AIGC模版,5分钟就可以完成AIGC应用部署,使模型托管的难度降低、效率提高。
阿里云的容器服务Serverless版,则是将ACK和ASK两款产品融合,在弹性能力和调度能力上实现了更大提升。例如,升级了智能弹性预测AHPA,相比人工配置,弹性准确率提升80%;基于库存感知调度和可用区打散调度,提高了弹性的确定性以及应用的高可用性。
全托管、免运维、高弹性是SAE的主要特点,本次升级的SAE2.0将研发运维提效50%、应用成本下降40%以上并实现百毫秒级弹性伸缩,应用冷启动提效,支持缩容到0,这对于新兴业务以及一些创新创业的公司更加友好。
我们看到,从智算服务PAI-灵骏到全栈Serverless化的最新进展,都是在降低AI开发门槛和应用开发门槛,背后的本质是云计算技术的不断创新与发展,而云计算技术创新和发展的终极目标则是降低算力成本,让每个企业甚至每个人都能用得起、用得好算力,让计算真正成为公共服务。
三、创新与规模效应加持下,将“普惠”进行到底
目前,国内大部分算力掌握在少数厂商手里,而云厂商占了很大比重。算力,在很多情况下成为了想法落地的最关键一环,是很多机构和企业迈不过去的坎。
普惠在任何行业都是具有巨大价值的事情,算力普惠更是如此。但做这件事情是有门槛的,首先就是技术创新。阿里云掌握着国内云计算核心技术体系,拥有自研软硬件一体研发系统,例如,自研CPU倚天710、云数据中心处理器CIPU以及飞天操作系统,构建了从芯片、板卡、服务器、操作系统和上层云原生应用软件、数据库等核心云基础设施。阿里云对软硬件一体技术整合的持续大力投入所推动的算力提升、资源调度能力增强、以及细颗粒度的运营,是阿里云能够降本让利的底气所在。
让更多企业和开发者享受到云计算的红利,是阿里云的初心。
降低开发者的获取门槛是阿里云“普惠”的重要一步。今年4月中旬,阿里云推出了“飞天免费试用计划”,面向1000万云上开发者,提供核心云产品的免费试用,最长达三个月,可支持开发者构建包括业务在线、大数据类、AI等不同类型应用,并且支持Serverless的开发模式。
目前该计划也推出了国际版,涵盖50多款产品,包括ECSt5 实例的一年期免费试用、PolarDB数据库永久免费试用,以及指定规格试用期满折扣续费等多种产品优惠。据悉,阿里云还将进一步扩大免费试用范围,针对学生、中小企业的专属免费试用计划也在筹备中。
成本是云计算发展的命门,在降低用户成本上,阿里云展现了最大的决心和诚意。今年的4月阿里云宣布核心产品价格全线下调15%-50%,存储产品最高降价50%。例如,弹性计算7代实例和倚天实例降价最高20%,存储OSS深度冷归档降价50%,网络负载均衡SLB降价15%,数据库RDS倚天版降价最高40%。被外界称为“阿里云有史以来规模最大的降价”。
然而,降本并不等于降价也不是价格战,而是通过产品优化和规模效应带来IT总成本的降低。
作为国际领先的云计算厂商,阿里云在过去的十年里持续降低云计算的“使用门槛”。其提供的算力成本下降了80%,存储成本下降了近90%。在不断降价的过程中,阿里云所期待的是联合更多分销商和集成商一起,扩大云的用户基数和规模,推动更多产业进一步从传统IT向云计算转移,提高计算资源的利用率,带动算力成本不断下降。利用技术改进、规模效应释放让利空间,价格下降又为技术改进、规模增长带来更多推力的正循环。
即便降低用户成本,但是阿里云在安全层面并不打折扣。特别是在降低企业确保业务安全稳定运行的成本上。例如,云安全中心的多云统管能力和办公安全平台的轻量版。尤其是办公安全平台的轻量版,适合中小企业使用的同时,核心功能和标准版基本一致且价格只有标准版的不到10%。可以看出,阿里云对中小企业的关注与支持印证了其普惠理念。
四、写在最后
从MaaS理念下的大模型能力的产品化,到PaaS层技术迭代与积淀迸发,再到IaaS层创新与规模效应下的成本降低。在这些产品和理念的背后,我们看到阿里云是“一家云计算产品公司”的核心定位,并坚定走向“产品被集成”。大模型时代,企业都在探索新的商业模式和生存之道,对于企业而言,找到靠谱的合作伙伴是未来发展的重要一步,阿里云趟出了一条可能路径并走在了最前面。我们需要给先行者们更多的时间,来共同建立适合智能时代的云计算体系。