腾讯加入AI大战首发国内最强显卡性能提升3倍

2023-04-15

  最近国内 AI 圈像下过了一场雨,各种 AI 模型如同春笋一样冒了出来。

  根据金十数据的统计整理,目前国内至少有 15 个大大小小的 AI 大模型正在研发。其中,百度的文心一言和阿里的通义千问最受人们关注。

  BAT 其中两家 AI 大模型已经进入试用阶段,这下压力来到了腾讯这边。

  在今天,腾讯也公布了它在 AI 模型和云计算上面的动态。从公布的内容来看,腾讯似乎不仅仅是想赶这场「AI 淘金热」——它想「给淘金者卖水」。

  腾讯云近日推出了新一代高性能计算集群 HCC,旨在满足不断增长的人工智能、科学研究和工程领域的计算需求。

  众所周知,训练 AI 大模型需要大量的计算资源和数据进行训练。普通个人或小型公司可能无法承担这样的资源消耗,因为购买和维护这些计算资源的成本非常高。

  腾讯推出 HCC 高性能计算集群,便是面向大规模 AI 训练,以专用集群方式售卖算力,这就像是给前来 AI 金矿淘金的淘金者们卖水。

  新一代 HCC 集群提供了诸多创新技术和架构,包括星星海自研服务器、星脉自研网络、高性能文件存储和对象存储架构以及国内首发的英伟达 H800 Tensor Core GPU。

  经过实测,腾讯云新一代集群的算力性能较前代提升高达3倍,是国内性能最强的大模型计算集群。

  先来说说显卡,HCC 计算集群采用的英伟达 H800 Tensor Core GPU 是英伟达新一代基于 Hopper 架构的图形处理器,专为深度学习、大型AI语言模型、基因组学和复杂数字孪生等任务而设计,性能较前一代 A800 提高了3倍。

  星星海自研服务器则采用 6U 超高密度设计,上架密度提高了 30%。通过利用并行计算理念、一体化的 CPU 和 GPU 节点设计,单点算力性能得到显著提升。

  星脉自研网络还提供了业界最高的 3.2T 超高互联带宽,配合高性能文件存储和对象存储架构,具备 TB 级吞吐能力和千万级 IOPS。

  这一架构能有效解决 AI 训练过程中计算、存储、网络的「木桶效应」,确保运算速度不会因瓶颈而受限。星脉网络还采用了 1.6T ETH RDMA 高性能网络,为每个计算节点提供 1.6T 的超高通信带宽,带来 10 倍以上的通信性能提升。

  让我们从直观计算的表现来看。去年 10 月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于HCC 计算集群,训练时间将进一步缩短至4天。

  HCC 高性能计算集群应用广泛,包括自动驾驶训练、自然语言处理、AI生成创造(AIGC)大模型训练以及科研计算。

  为了进一步降低训练大型AI模型的成本,腾讯推出了AngelPTM 训练框架。现在,AngelPTM 已经加入了 TACO Train加速组件,助力大模型训练显存上限和性能大幅提升。这就像为机器人安装了一套强大的学习系统,让其能够更快地掌握各种技能。

  此外,腾讯多款自研芯片已经量产。其中,用于 AI 推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。

  紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与 CPU 握手等待时间。

  目前,紫霄已经在腾讯头部业务规模部署,提供高达 3 倍的计算加速性能,和超过 45% 的整体成本节省。

  腾讯云的新一代 HCC 高性能计算集群结合了先进的硬件和软件技术,提供了强大的计算能力和高度优化的系统性能。这些创新将有助于推动 AI、科研和工程领域的快速发展,满足各种行业在大数据和复杂计算任务方面的需求。

  通过自研硬件、网络、存储和软件优化等各个方面的突破,腾讯将高性能计算的能力提升到了一个新的高度。正 如科幻电影中的智能机器 人,新一代HCC集群将不断学习、进化,为各行各业提供强大的计算支持,推动国内人工智能领域的进步。

Axial Fans