发新帖

智算中心的困境:有卡不代表有算力 行业新闻

威尔德编辑 2月前 9288

“如果让你重回2018年,你会做什么?”

“先囤一大批英伟达的卡。”

这段对话虽然是网络段子,但也同样反映了厂商在全球囤卡找卡的疯狂。众所周知,这两年GPU一直处于供应紧张的状态,但我们却遇到了这样一个真实案例:一家传统IDC厂商手上囤了很多GPU卡,却处于闲置状态。

这反映当下的一种现状:智算虽火热,但市场上还存在很多用卡效率不高的情况,换而言之,有卡也不一定有算力。

智算火热,用卡效率不高被关注

进一步追问,为何会用卡效率不高?

因为智算不仅仅是卡的问题,而是一个软硬件协调的系统,涉及算、存、网等多个核心能力,当软件能力不够的时候,卡自身的发挥也会受限,腾讯云副总裁,云计算资深技术专家沙开波对雷峰网表示。

这就像买了一辆顶级跑车,但自己不太懂赛车技术,也没有专业的赛车团队来调试车辆和规划最佳行驶路线,那就只能在普通道路上行驶。

这是所有IDC厂商不愿意看到的,因为这不仅是一个资源闲置问题,更是一个转型机遇问题,用好这些卡,IDC厂商也可顺势转型到AIDC(智算中心)厂商,开拓新业务。

当然,并非仅IDC厂商面临用卡效率不高,对于很多大模型公司而言,眼下他们也亟待算力效率的提升,尤其是在今年,模型训练参数量是越来越大,去年可能大家都还在用十亿、百亿的参数规模,今年这一规模数字已经“卷”到了千亿,如腾讯混元大模型就扩展为万亿参数规模。

如此庞大的参数量,也让底层的算力集群规模越来越大,有业内从业者称,今年起,所有智算集群万卡是最低标配,万卡以上的智算集群才有价值。

集群规模的不断扩大,无疑对底层AI基础设施的处理效率提出更高的挑战,比如如何让超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具等等。这恰似你分别想提升一千个人的协作效率,和一万个人协作的协作效率,二者难度不可同日而语。

大模型计算效率不高带来更直接的问题就是,模型训练成本进一步增加,而训练成本,又是眼下国内大模型公司的敏感点。

一方面,大模型训练烧钱是众所皆知,另一方面,今年资本市场对国内大模型公司投资也在趋于理性,去年拿到投资的大模型公司有两百多家,而今年上半年,只有像月之暗面、智谱等一些头部大模型公司拿了融资。

烧钱不能永无止境,提升用卡效率迫在眉睫。作为头部云厂商之一,腾讯云已悄然落子。

9月5日,腾讯云在腾讯全球数字生态大会上发布 AI Infra品牌—— 腾讯云智算 ,将旗下高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等单项产品能力整合,帮助产业突破技术瓶颈,加速释放AI生产力。

智算启幕,破客户难题坚冰

事实上,在此次发布腾讯云智算品牌之前,腾讯云早已经在迭代和对外输出智算技术与产品,来提升智算性能,降低使用成本。

去年4月,腾讯云正式发布面向大模型训练的新一代HCC高性能计算集群;去年6月,腾讯云首次对外完整披露自研星脉高性能计算网络,后来,腾讯云又发布了AIGC云存储解决方案;推出了源于公有云的成熟实践的专有云智算套件,支撑企业基于自有硬件搭建高性能的专有智算云。

而眼下这一节点,之所以要成立腾讯云智算品牌,沙开波对雷峰网(公众号:雷峰网)表示,其一是AI大模型的兴起,需求端对整个云基础设施提出更高级的要求;其二是腾讯云在AI 大模型的驱动下,也对云基础设施很多能力做了进化。成立腾讯云智算品牌,就是为让更多客户了解腾讯云智算的能力,同时将这些能力输出,更好地支持客户的业务发展。

客户在大模型训练过程中往往会遇到这几个问题:

第一是如何提升训练效率,减少故障率?

训练效率不高,可能源于几个环节,第一是在训练启动时间长。由于软硬件等多种因素等原因,目前业内许多训练启动时间长达一个月之久。

第二是在训练过程中,经常发生故障。大模型训练的故障率是个不容小觑的问题,据统计,GPU故障率是CPU的120倍以上。前不久,Meta发布了其最新的Llama 3 405B大语言模型,并公布了一项研究成果,405B模型通过由16384张英伟达H100 80G GPU组成的服务器集群,训练运行持续了54天。在这54天中,集群遭遇了419次意外组件故障,平均每3小时就发生一次故障。

而腾讯云通过整合软硬件技术能力,腾讯云智算集群从机器上架到开始训练可以做到只需1天,而在故障数上,腾讯云的集群千卡单日故障数已经刷新到0.16,是行业水平的1/3。

之所以能有此成果,这与其网络、存储产品,加速框架、向量数据库以及智算套件等有关。据沙开波介绍,腾讯云自研的星脉网络通过流量和拓扑自动感知进行调度,提升网络吞吐,故障时定位问题链路并处理,减少训练中断。在万卡集群下,网络故障可实现 1 分钟发现,3 分钟定位,5 分钟解决。而在千卡集群的通信时间缩短到6%,是业界一半。而腾讯云高性能并行文件存储CFS Turbo支持千卡并发读写。

此外,在加速框架上,腾讯云的TACO也为云端计算效率提速,据腾讯云相关人士介绍,在同样的硬件环境下,原本每秒只能处理100个tokens的系统,在使用TACO后可以提升至每秒处理200甚至300个tokens,并且处理的tokens增多,并没有带来太多延迟。

第二是训练如何更加兼容、部署更为灵活?

以前模型训练任务往往是单一厂商芯片服务于单一任务,当前芯片供给紧俏的背景下,各大芯片厂商持续加大在 GPU 方面的投入与布局,在越来越多的智算中心里,不同型号、不同厂商的卡进行异构组网的情况愈发普遍。与此同时,当下众多行业对数据安全合规有着极高的要求,不少训练和推理只能在本地数据中心进行。

为了解决多类型卡的训练问题,腾讯云目前采用的“一云多芯”架构,可以适配、管理、调度多种CPU和GPU芯片,能够有效降低供应链风险,同时满足不同业务对于不同算力的需求。

而针对部署问题,腾讯云推出专有云智算套件,支撑企业基于自有硬件搭建高性能专有智算云,满足企业在私有算力环境下训练大模型的诉求。这一套件跟公有云有一样的配置,星脉网络、AIGC云存储、Taco都在这套打包的方案内。

如今,据沙开波透露,腾讯云智算已经服务了90%以上的大模型企业,而且这些公司也都实现了大模型训练成本下降,某大模型客户在采用腾讯云的整套算力解决后,一年的成本下降了2000万。

除了大模型客户外,一些做AI应用的客户也在使用这套方案。去年下半年,某社区电商企业在做AI应用时,把将海外芯片更换为腾讯云在公有云上提供的国产芯片。在保持主要业务指标不变的前提下,该公司实现了21天内完成芯片替换,两周左右完成模型适配,一周左右完成物理框架改造。此外,开头提到的IDC公司,也在与腾讯云的合作下,在半年内将GPU资源几乎全部售出。

智算开拓,寻云市场增量方向

从客户角度来看,其希望云厂商能够提供更多的高性能AI基础设施,为其业务提质增效。而站在云厂商的角度来看,加速提升智算能力,也是为了抓住新的云增长点。

此前云厂商锁定的几个增量方向——出海、下沉市场、以及传统行业的数字化转型。出海目前面临着极大的不确定性,去发达国家市场,如欧美等地,面临着信任问题,长期用量规模上不去,机房运营成本高昂,海外基本都还在流血。

而去到下沉市场,最主要的问题是没钱。这些市场客户对云的需求量并不强,1000元/年的客户比比皆是。传统行业数字化转型,最大的困难是如何洞察行业需求,以及了解每一个行业的know-how。毕竟,传统企业做数字化转型的核心目的,是看到业务的提质、增效。

这些增量方向的拓展就像是在密林中开辟新路,每一步都充满挑战与不确定性。

与此同时,所有的云从业者长久以来深陷存量竞争的泥沼,业绩增长乏力带来的迷茫,拼命争夺友商客户的无奈,都促使云厂商急切地寻找更多的增量市场。大模型的出现为云厂商带来新的增量曙光。

在今年不少云厂商的财报中,AI对云业务的收入贡献都十分亮眼。今年二季度,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长;腾讯方面也表示,受益于包括云服务业务收入增长在内的因素,企业服务业务收入实现双位数增长率。

不少人预测,AI大模型将成为未来云市场增长的最大动力,也是公有云服务重回高增长时代的唯一机会。而在这种预判下,所以腾讯云成立智算品牌,其他云厂商也在紧锣密鼓布局。

大模型能否真正驱动云用量,仍存在争议。国内 AI 公有云服务市场规模虽有增长,但在各家云厂商的激烈竞争下,分到的份额似乎难以满足云厂商的巨大胃口。

就拿IDC刚发布的《AI Cloud 2023》报告数据来看,国内AI公有云服务市场2023年规模为126亿,相比前一年增长58.2%。增速是喜人的,但仔细一算,126亿的规模被各家云厂商瓜分下来,到手也不过几亿到几十亿不等,这个数字对云厂商营收拉动力确实是有,但似乎不那么大。

大模型究竟能为云带来多大的增长,时间自会给出答案。但眼下,从各家云厂商紧锣密鼓的布局来看,一场激烈的智算实力比拼赛已然无声地拉开帷幕,未来的云市场究竟走向何方,我们拭目以待。

雷峰网原创文章,未经授权禁止转载。

注:本文转载自雷锋网,如需转载请至雷锋网官网申请授权,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权行为,请联系我们,我们会及时删除。

成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加- 版权声明 1、本主题所有言论和图片纯属会员个人意见,与成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加立场无关。
2、本站所有主题由该帖子作者发表,该帖子作者威尔德编辑成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加享有帖子相关版权。
3、成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加管理员和版主有权不事先通知发贴者而删除本文。
4、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者威尔德编辑成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加的同意。

这家伙太懒了,什么也没留下。
最新回复 (0)
只看楼主
全部楼主
    • 成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加
      2
        立即登录 立即注册 QQ登录
返回
免责声明:本站部分资源来源于网络,如有侵权请发邮件(673011635@qq.com)告知我们,我们将会在24小时内处理。