北京正阳恒卓科技有限公司

课程名称	课程简介	课程内容	授课方式	课时	报名咨询
AI 历史与发展	本章节回顾人工智能的发展历程，从早期的理论提出到现代AI技术的快速发展，帮助学员了解AI技术发展的背景与未来趋势。	1. AI的发展历程与重要里程碑 2. AI技术的关键阶段与突破点 3. AI的未来趋势与发展方向	线上	1	点击咨询
AI系统全栈架构	学习AI系统的全栈架构设计，从硬件到软件栈的全景视角，理解智算集群在AI应用中的全栈支撑能力。	1. AI全栈架构的组成与设计思路 2. 硬件层：GPU、存储与网络的协同设计 3. 软件层：框架、工具链与平台优化 4. 全栈架构优化的典型案例	线上	1	点击咨询
智算集群基础概述	本章节主要介绍智算集群的基本概念、发展背景、以及在AI计算、大数据处理中的应用场景，帮助学员了解智算集群的重要性和组成结构。	1. 智算集群的定义与特点 2. 智算集群的应用场景 3. 国内外智算集群发展现状及趋势	线上	2	点击咨询

课程名称

课程简介

课程内容

授课方式

课时

报名咨询

AI 历史与发展

本章节回顾人工智能的发展历程，从早期的理论提出到现代AI技术的快速发展，帮助学员了解AI技术发展的背景与未来趋势。

1. AI的发展历程与重要里程碑

2. AI技术的关键阶段与突破点

3. AI的未来趋势与发展方向

线上

1

点击咨询

AI系统全栈架构

学习AI系统的全栈架构设计，从硬件到软件栈的全景视角，理解智算集群在AI应用中的全栈支撑能力。

1. AI全栈架构的组成与设计思路

2. 硬件层：GPU、存储与网络的协同设计

3. 软件层：框架、工具链与平台优化

4. 全栈架构优化的典型案例

线上

1

点击咨询

智算集群基础概述

本章节主要介绍智算集群的基本概念、发展背景、以及在AI计算、大数据处理中的应用场景，帮助学员了解智算集群的重要性和组成结构。

1. 智算集群的定义与特点

2. 智算集群的应用场景

3. 国内外智算集群发展现状及趋势

线上

2

点击咨询

课程名称	课程简介	课程内容	授课方式	课时	报名咨询
GPU服务器概述	详细讲解GPU服务器的结构、型号及其在AI任务中的优势，帮助学员了解GPU服务器的选择与配置。	1. GPU服务器的组成与工作原理 2. NVIDIA GPU架构概述 3. GPU服务器在智算集群中的应用场景	线上	2	点击咨询
InfiniBand(IB)网络基础	介绍IB网络技术的基本原理及其在智算集群中的作用，学习IB网络的优势、协议及主要组件。	1. IB网络技术基础 2. IB交换机和网络接口卡 (NIC) 3. IB网络与以太网的对比	线上	2	点击咨询
存储技术概述	学习全闪存和混闪存储的原理、优势以及在智算集群中的存储策略设计。	1. 全闪存与混闪存储的基本原理 2. 存储IO性能优化方法 3. 存储在集群中的部署与应用案例	线上	2	点击咨询

课程名称

课程简介

课程内容

授课方式

课时

报名咨询

GPU服务器概述

详细讲解GPU服务器的结构、型号及其在AI任务中的优势，帮助学员了解GPU服务器的选择与配置。

1. GPU服务器的组成与工作原理

2. NVIDIA GPU架构概述

3. GPU服务器在智算集群中的应用场景

线上

2

点击咨询

InfiniBand(IB)网络基础

介绍IB网络技术的基本原理及其在智算集群中的作用，学习IB网络的优势、协议及主要组件。

1. IB网络技术基础

2. IB交换机和网络接口卡 (NIC)

3. IB网络与以太网的对比

线上

2

点击咨询

存储技术概述

学习全闪存和混闪存储的原理、优势以及在智算集群中的存储策略设计。

1. 全闪存与混闪存储的基本原理

2. 存储IO性能优化方法

3. 存储在集群中的部署与应用案例

线上

2

点击咨询

课程名称	课程简介	课程内容	授课方式	课时	报名咨询
智算集群的设计	本章节重点讲解智算集群硬件基础设施设计的关键要素，包括机柜、电力、动环和桥架等，为后续的安装和部署提供指导。	1. 智算集群机柜设计规范与布局 2. 电力供应与冗余设计 3. 桥架与线缆布放的设计与优化	线上	2	点击咨询
网络设计与组网	本章节聚焦智算集群网络设计的关键技术，涵盖交换机、光纤与模块的选型和组网方法。	1. 网络拓扑设计原则 2. 交换机与光模块的选型与配置 3. 高性能组网的优化方法	线上	2	点击咨询
主要网络优化	本章节深入讲解智算集群网络优化的关键技术，包括流量调优、延迟优化及吞吐量提升，帮助学员掌握提升网络性能的实用方法和工具。	1. 网络性能指标与优化目标 2. 关键优化技术 3. 网络硬件调优 4. 工具与方法 5. 典型案例分析	线下	2	点击咨询
GPU服务器软件生态	探索GPU服务器的软件生态，包括CUDA、NCCL、深度学习框架优化等内容。	1. GPU服务器常用软件与驱动 2. CUDA与NCCL基础 3. 深度学习框架的GPU优化	线下	2	点击咨询
GPU服务器单机优化	讲解GPU服务器单机性能优化的方法，包括显存利用率优化、计算效率提升等。	1. GPU服务器性能监控与分析 2. 单机计算性能优化技巧 3. 常见单机性能问题及解决方案	线下	4	点击咨询
GPU服务器集群优化	学习如何优化GPU服务器集群性能，提升整体计算效率。	1. 集群任务调度与负载均衡 2. 集群通信优化与NCCL调优 3. 集群资源管理与优化案例	线下	4	点击咨询
智算集群运维管理	掌握智算集群的日常运维管理方法，包括硬件、网络与软件的监控与维护。	1. 集群监控与故障预警 2. 日常运维流程与实践 3. 集群生命周期管理	线下	2	点击咨询
GPU集群运维管理	资源监控与性能分析，故障诊断与恢复，自动化运维。	1. GPU资源监控工具（NVIDIA DCGM、Prometheus+Grafana） 2. 节点健康状态检测（GPU温度、功耗、显存占用） 3. 日志分析（ELK Stack、集群日志聚合） 4. 常见GPU故障排查（驱动崩溃、显存溢出、硬件故障） 5. 网络问题定位（延迟、带宽瓶颈、RDMA配置错误） 6. 自动化告警与应急响应流程 7. 使用Ansible/SaltStack进行批量配置管理 8. 集群扩容与缩容	线下	4	点击咨询

您的姓名:
联系电话:
联系邮箱:
留言内容: