提出人:民盟广东省委员会
内容:
2024年国务院政府工作报告指出:适度超前建设数字基础设施,培育算力产业生态。广东省也在今年提出“发挥我省算力设施、产业规模、数据要素、应用场景等优势;打造通用人工智能产业创新引领地,开辟新赛道、抢占制高点”的工作部署。当前,省内如广州、深圳等地正加快建设琶洲算谷·沙溪智算中心、鹏城云脑III超级智算平台等一批核心算力枢纽,促进算力光网互联、算力协同调度、算力绿色节能等核心关键技术快速发展,以推动算力共享与统筹配置。然而,在算力总量快速建设,算力共享技术稳步推进的同时,我省依然存在算力供需的“错配”问题:
1.算力资源仍以超算形态为主,智算资源紧缺。目前我省仍有超过一半的算力占比为基于传统CPU图像处理器的超算资源,其软件生态和应用开发语言欠缺对于智能计算任务的适配,无法满足日益复杂的生成式人工智能训练和推理对于算力资源的需求。同时,早期建成的数据中心存在着设备老化、通信带宽受限、运维效率低下等问题,进一步制约了已有算力资源的高效供给。因此,亟需在加快建设智算中心的同时,对现有基于超算资源的数据中心进行智算化升级,调整运维模式。
2.国产智算资源性能发展差异大,资源利用率低。中美博弈大背景下,智算中心建设过程中国产智算资源的占比逐步增加,且大多采用了多种国产算力资源混合异构的形式。然而,由于国产替代化过程仍处于起步阶段,芯片算法适配、训练加速等重要技术开发较为欠缺,同时相关国内算力芯片厂商技术路径、发展水平以及供货能力参差不齐,导致了同等智算任务需求下国产智算资源利用率低下,算力需求侧用户对于国产智算资源形成了“不会用、不好用”的印象。
3.平台共享算力供应管理粗放,供需存在结构性矛盾。一是共享算力供应管理粗放。目前大多算力提供方采用裸金属租赁的技术方式实现供给,因此即使需求侧运行低负载任务也无法将空闲资源进行共享。同时,管理平台缺乏精细化运营,造成忙时用户使用等待时间长,闲时算力闲置,导致用户体验差。二是供需存在结构性矛盾。珠三角地区以人工智能训练、金融计算为主,算力需求时间段集中,算力资源要求高,粤东西北以工业互联网、智慧农业为主,算力需求时间段分散,算力资源要求较低,不同地域间存在着较大的算力需求模式差异,但缺乏高效精细化的资源调度策略和动态分配机制,难以根据用户个性化的需求和负载变化灵活调整资源分配,影响了用户对平台的信任和满意度。
为此,建议:
1.加大超算/智算融合生态建设,推动大规模融合计算范式升级
一是借助硬件升级、空间改造以及供电制冷优化等举措,加速推进超算中心实现智算化升级,从硬件层面适应智算任务新需求,为应对复杂智能计算任务提供有力的硬件支撑。二是着重发展异构计算技术的研究与应用,自动化、智能化精准识别算力需求侧不同类型计算任务的差异,实现不同类型算力单元科学合理的组合配置,从而有效提升计算密度、性能和整体算力资源运行效率。
2.加快完善国产算力软硬件适配技术体系,提升国产算力资源使用率
一是加大对国产算力芯片研发投入,重点攻克软硬件协同的算法适配与训练加速技术,构建内容丰富的软件库,打造成熟完备的开发工具集,培育规模庞大的开发者群体,推动国产算力生态体系加速构建,逐步缩小与国外的差距,增强用户对国产算力资源信心,为其广泛应用奠定坚实基础。二是构建国产智算资源能力统一服务与测评标准体系,整合不同类型的国产算力资源,形成统一调度的资源池,配合精细化调度算法,依据任务需求与资源特性进行精准匹配与智能调度,提升国产算力资源利用率。
3.健全算力精细化运营与调度机制,优化共享算力经济模式
一是实施算力分区域建设布局规划,推动粤东西北地区灵活部署低时延的小型数据中心和边缘数据中心,对接粤港澳大湾区算力需求,打造省内/省际协同算力调度体系。综合考虑算力用户来源、算力申请的领域分类与应用定位等因素,制定共享算力发放优先级评估标准,统筹重点产业算力需求,通过提升调度优先级实施算力优先保障机制。二是构建满足市场化应用需求的长效共享供给机制。例如探索共享算力的时长分段计费机制,引导用户释放闲置的共享算力;鼓励用户通过开源用户数据或者模型算法给共享平台的方式,抵扣相应的算力使用费用。针对算力需求企业,实施差异化支持政策,如对重点园区给予用地用能优惠,对创新企业提供算力券补贴,而对传统产业企业设立数字化转型专项资金等。