过去一年多里,人工智能(AI)浪潮席卷全球,主要的科技公司都在大举投资数据中心GPU,这使得市场上最大的数据中心GPU英伟达赚得盆满钵满。虽然高性能的数据中心GPU定价很高,但是使用寿命却不太长,这是由于平常承受着AI推理训练的繁重工作负载,往往比其他组件老化得更快。
据报道,最近有报告称,云服务提供商(CSP)运营的数据中心里,这些GPU在AI工作负载中的利用率约为60%至70%。按照这个利用率,GPU通常只能使用1到2年,即便较为理想的状态,最多也就3年。需要强调的是,现在用于AI和HPC应用的数据中心GPU功耗很高,可达到700W或以上,这对于芯片来说是一个很大的压力,一定程度上也减少了寿命。
如果想要延长数据中心GPU的使用寿命,其中一种方法是降低利用率,然而这也意味着其以更缓慢的速度贬值,并且需要更长的时间才能回本,这对于付出高昂成本的企业来说是不利的。因此大部分云服务提供商衡量了收益以后,最常见的做法仍然是以高利用率运行。
此外,报告还根据数据统计结果指出,数据中心GPU的年化故障率约为9%,3年后大概在27%,一般使用一年后更可能频繁地出现故障。
🗒 标签: #数据中心 #GPU
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
via Yummy 😋 - Telegram Channel