热点:

    北电数智优化算力资源配置,提升算力中心利用率

      [  中关村在线 原创  ]   作者:新闻快讯

    近年来,全国范围的算力基础设施建设如火如荼地进行中,除了北京、上海、深圳等一线城市,各个县域级地区也在积极加速布局。但由于性能不足、无法满足AI大模型时代的特点场景算力需求、数据中心和当地产业需求不匹配等问题,算力中心的整体利用率仅有50%左右、闲置率较高,仅以算力规模、集群规模来衡量算力性能,显然已无法适应数字经济快速发展的需求。

    北京电子数智科技有限责任公司(以下简称“北电数智”)提出了“算力最优解”理念,并基于人工智能行业的发展与算力需求的迭代,进一步细化算力评价标准。北电数智认为“算力最优解”需要做到“三加一保障”,即加速单芯片算力,加强混元异构集群性能,加大通信能力,保障智算集群训练安全、稳定运行。

    北电数智是?家专注于原创性、颠覆性、引领性科技创新的人工智能科技企业,在算力、算法和数据等方面实现了全栈产品和解决方案布局,并于2024年5月,获得甲子光年“AI算力层创新企业奖”。

    北电数智优化算力资源配置,提升算力中心利用率

    加速单芯片计算能力,真正实现“好用”

    目前国产GPU的算力性能并不低,但大部分客户反馈国产芯片仍然不够“好用”。这是因为目前国内已生产和应用的GPU产品主要是针对上一代算法而设计,在满足AI大模型相关算子的需求层面仍需进一步提升,需要通过丰富算子库、编译器等软件方式,对单芯片的算力进行加速。北电数智前进·AI异构计算平台具有多重优化功能,能够通过模型量化加速、模型超参数调优、稀疏化推理等模型优化能力,算子融合加速、计算图优化、硬件访存优化等编译优化方式,加速单芯片的计算能力,增加国产算力芯片的自适应能力。

    多芯片混元异构或成主流,让合适的芯片做合适的事

    现阶段,智算中心多以单一芯片厂商为算力主要供应,算力供给不足的问题不可避免。混元异构能解决单一芯片厂商产能供给不足的困境,同时能提供更高性价比的算力解决方案。不同芯片由于架构设计不同,天然适用于不同的训练推理任务,如果可以针对不同的任务配置对应芯片,整体算力解决方案的性价比将大大提升。然而,异构合池训练会存在精度误差、同步等问题。系统需要在算力不均匀情况下,根据模型特征、负载实时状态、集群硬件特点对任务进行均匀或非均匀的切分。

    北电数智前进·AI异构计算平台可通过算子级模型拆分方法优化模型性能;通过基于自动机器学习算法的硬件感知自动调优的方式,自动调整模型的配置和参数,找到在特定芯片下的最佳性能和效果;其框架可支持AI大模型分布到多GPU上进行计算,提高模型的训练和推理效率,确保每种芯片都能承担与其算力相匹配的任务。

    北电数智优化算力资源配置,提升算力中心利用率

    打通集合通信库解决通信问题,提升AI大模型训练性能

    在万卡集群时代,通信能力直接制约着AI大模型训练时的数据传输效率。高效、稳定、低延迟的网络对于智算中心的建设和运行意义重大。在硬件层面,NVLink、HCCS互联等方式可以有效提高卡间互联通信能力;在协议层面,通过RDMA降低多机端到端的通信时延,提高节点间传输速率,有效改善智算集群的通信效率。此外,在软件层面,集合通信库控制着各GPU、各服务器之间的数据通信,异构卡的通信库差异会为异构卡之间带来通信难题。北电数智通过打通各厂家的集合通信库来解决不同GPU芯片之间的通信问题,对通信库进行深度适配和优化,通过标准化的分布式通信接口确保异构集群内的信息交换;并且通过时间重叠等策略,将计算过程和通信过程互相重叠,减少通信延迟对整体训练性能的影响。

    广泛纳管,保证算力集群稳定运行

    万卡集群有较多的硬件种类和数量,每一颗元器件都有硬件失效率,每个硬件的失效都会影响到整体智算集群训练。想要实现算力最优解,就需要一个高效可靠的智能云管平台,提供实时智能监控来实现分钟级的软硬件故障定位,并实现故障的自动检测和修复。北电数智前进·AI异构计算平台支持多款国产芯片的广泛纳管,帮助用户实现对不同品牌、类型AI加速卡的统一管理,以确保各类AI芯片的无缝集成和优化利用。广泛的纳管能力也让用户能够根据具体需求,灵活地调整资源配置,优化算力供给满足各类训练推理任务。

    “三加一保障”是北电数智在AI大模型渗透千行百业的当下提出的算力最优解方案,不仅可以优化算力的配置、提升算力资源的利用率,还为企业走向智能化、AI化提供了实现路径。值得一提的是,2024年8月21日,“前进·AI异构计算平台”还入选了北京首批“人工智能+”应用场景案例,标志着项目在应用落地方面又迈出了坚实的一步。未来,北电数智也将继续为各行业提供成本低、高性能、稳定的算力供应,为数字中国的建设贡献力量。

    本文属于原创文章,如若转载,请注明来源:北电数智优化算力资源配置,提升算力中心利用率https://news.zol.com.cn/947/9479685.html

    news.zol.com.cn true https://news.zol.com.cn/947/9479685.html report 3606 近年来,全国范围的算力基础设施建设如火如荼地进行中,除了北京、上海、深圳等一线城市,各个县域级地区也在积极加速布局。但由于性能不足、无法满足AI大模型时代的特点场景算力需求、数据中心和当地产业需求不匹配等问题,算力中心的整体利用率仅有50%左右、闲置率较高...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错