您现在的位置是:深圳市东方朗云科技有限公司 > 公司新闻

阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求

深圳市东方朗云科技有限公司26-05-10【公司新闻】4人已围观

简介阿里云吴结生提出高性能计算需持续创新,以应对“数据+AI”时代多元化负载需求,通过技术架构升级、弹性资源调度及CIPU 2.0等核心能力,为多行业提供高效、稳定的算力支持。一、多元化负载驱动高性能计算创新负载类型与挑战当前高性能计算(HPC)面临基础模型训练、自动驾驶、生命科学、工业制造等领域的多元化负载需求,负载特性...

阿里云吴结生提出高性能计算需持续创新,以应对“数据+AI”时代多元化负载需求,通过技术架构升级、弹性资源调度及CIPU 2.0等核心能力,为多行业提供高效、稳定的算力支持。

一、多元化负载驱动高性能计算创新
  • 负载类型与挑战当前高性能计算(HPC)面临基础模型训练、自动驾驶、生命科学、工业制造等领域的多元化负载需求,负载特性复杂,对计算能力、存储性能、网络带宽等提出差异化需求。

    负载分类:吴结生根据算力耦合度和数据密集度,将HPC负载分为三类:

    极致耦合型:如大模型训练,需超大规模集群协同计算。

    紧耦合型:如科学计算仿真,依赖低延迟、高带宽网络。

    松耦合型:如批量数据处理,对资源弹性要求较高。

  • 阿里云解决方案阿里云构建完整HPC基础设施,推出针对性产品:

    灵骏智算服务:支持极致紧耦合负载,满足大模型训练需求。

    E-HPC高性能计算:支持紧耦合负载,提供全流程仿真计算能力。

    E-HPC Instant计算服务:支持松耦合负载,实现资源快速弹性伸缩。

二、弹性能力与CIPU架构引领“数据+AI”时代
  • Cloud HPC的核心优势吴结生强调,云上HPC(Cloud HPC)与传统HPC的核心差异在于弹性能力

    资源池化与弹性调度:通过云上资源池和动态调度技术,按需分配计算资源,提升利用率并降低成本。

    异构计算兼容性:支持GPU、FPGA等异构资源,结合一键部署、自动化管理,满足AI训练对多样化算力的需求。

    端到端解决方案:通过弹性高性能计算平台E-HPC整合计算、存储、网络和安全能力,优化业务流程。

  • CIPU 2.0的技术突破阿里云自研的云基础设施处理器(CIPU)通过整合CPU、GPU和加速卡能力,形成差异化竞争力:

    性能升级:CIPU 2.0在安全、稳定性、性能等方面全面升级,支持更高性能的弹性RDMA(远程直接内存访问),强化HPC负载的网络传输效率。

    应用场景:覆盖大数据处理、AI训练、科学计算等领域,例如在大模型训练中实现节点间低延迟通信,减少训练中断风险。

三、阿里云智算平台赋能多行业创新
  • 大模型训练:稳定性与效率并重

    挑战:大模型预训练依赖万卡级集群,单个节点故障可能导致整个训练中断。

    解决方案:阿里云与头部客户合作,通过集群同步优化技术确保所有GPU卡以相同“步伐”运行,提升训练效率。

    案例:为月之暗面提供大规模、高性能智算平台,支持其Kimi智能助手APP的快速迭代,同时通过资源优化降低计算成本。

  • 汽车制造:仿真计算提速研发

    挑战:车企需在续航、驾驶体验等方面持续创新,对研发效率要求极高。

    解决方案:阿里云E-HPC服务提供全流程仿真计算,结合高性能网络与存储技术,将仿真效率提升25%,缩短研发周期并节省费用。

  • 生命科学:算力弹性降低新药研发成本

    挑战:药物计算波峰算力需求大,平均算力与波峰差距悬殊,资源利用率低。

    解决方案:阿里云E-HPC Instant产品智能调度全局资源,支持望石智慧灵活申请算力,将药物计算效率提升3倍,成本降至原来的三分之一。

四、面向未来的算力底座与产业协同
  • 算力作为新质生产力在AIGC新时代,算力是人工智能、云计算、大数据等技术的核心支撑。阿里云通过高性能计算技术,推动算力从“可用”向“高效、稳定、弹性”升级,为产业变革提供底层动力。

  • 生态合作与行业应用阿里云与基础模型、智能驾驶、生命科学、能源、制造等行业深度合作,例如:

    为智能驾驶企业提供超低延迟的仿真测试环境。

    为能源行业优化风电场功率预测模型,提升可再生能源利用率。

吴结生总结称,阿里云将持续以智算为基础,通过技术创新降低算力使用门槛,助力全球企业抓住“数据+AI”时代的机遇,实现生产力跃升与结构优化。

很赞哦!(59155)