数字经济时代,算力就是生产力,是大国博弈的核心竞争力。吧哒科技作为华为长江鲲鹏生态创新中心的合作伙伴,不仅在大数据、云计算等领域具备专业的技术能力,也在超算领域创新绽放。
项目背景
2022年年底,吧哒科技成功中标武汉理工大学融合智算科教平台项目,打通吧哒科技超算领域的开端,该项目主要包含人工智能平台和高性能计算平台。
·人工智能平台:面向AI科学家和开发者的一站式开发平台,基于业界先进的算法和快速训练能力,支撑武汉理工大学计算机学院师生从数据到AI应用的全流程开发过程,包含数据处理、算法开发、模型训练、模型部署等操作,可降低业务开发门槛,提升AI科研的开发效率。
·高性能计算平台:由高性能计算硬件,高性能计算集群软件平台及配套基础设施组成。主要提供硬件算力,是超级计算中心的核心子系统,依次包含计算节点、GPU节点和胖节点、管理登录节点、运维节点及高性能海量存储组成。
两套平台将为武汉理工大学襄阳示范区的68个专业科研实验室,80多个团队、4000多名师生以及 2500多台科研设备提供强大的算力支撑,切实提升学院的科研效率。
项目难点
1、项目变更:客户在项目周期内变更需求,使得工作经常需要做出相应的调整,有时甚至需要重新设计和开发,工作量增加的同时也出现了如何在变化中保证项目进度、保障交付质量等问题。
2、技术难度大:超算系统涉及很多前沿技术,如大数据、神经网络、高性能存储等,对技术能力提出了更高的要求。我们通过不断学习新技术,多次组织公司二线专家召开方案评审会,最终攻克这些难题。
3、跨部门协作:项目涉及多个部门,如甲方、厂商、研发等,我们需要确保内外部之间的顺畅协作和信息共享,避免出现信息误差和沟通障碍。
4、项目延期:由于需求变更和技术难度大等问题,项目可能面临延期的情况。我们需要有效管理时间,合理分工,以确保项目按时完成。
5、资源不足:在项目执行过程中,因交付地点在异地,可能会出现资源匹配不足的情况,如人力、物力、时间等。这种情况下,我们需要及时因地制宜协调资源,确保项目顺利进行。
6、风险管理:在项目执行过程中可能会出现各种风险,如技术风险、市场风险、人员风险等,因此有效地识别和管理这些风险,也是项目管理中的关键一环。
项目实施
· 融合智算科教平台项目自2023年3月开工,2023年5月完成交付。数据中心采用国内领先的RDMA组网,网络设计分区、分层、分平面,东西向流量实现100G的高带宽、低时延等高性能指标。所有的服务器基于国产操作系统,均配置鲲鹏920CPU芯片,人工智能平台基于华为昇腾910处理训练和推理任务,可提供6.72P FLOPS训练算力和2240TOPS INT8推理算力。· 高性能计算平台硬件中包含3台GPU计算节点,每台配置2块TeslaA100显卡芯片。平台软件通过集群管理软件和集群调度软件、编译开发工具并行通信环境、高效数学库、高速I/O库、操作系统等基础软件模块,为上层的应用开发和系统的运维管理提供必要的软件支撑。整个系统实现11.98TFlops双精度CPU算力以及117TFlops双精度GPU算力规模设计。
******