为客户提供专业、前沿的深度学习技术培训,涵盖生成式 AI、深度学习、加速计算、图形和仿真,以及数据科学等前沿技术领域的应用开发实战培训。
首页-AI培训-AI培训
课程名称课程简介课程内容授课方式课时报名咨询
AI 历史与发展 本章节回顾人工智能的发展历程,从早期的理论提出到现代AI技术的快速发展,帮助学员了解AI技术发展的背景与未来趋势。

1. AI的发展历程与重要里程碑

2. AI技术的关键阶段与突破点

3. AI的未来趋势与发展方向

线上 1
AI系统全栈架构 学习AI系统的全栈架构设计,从硬件到软件栈的全景视角,理解智算集群在AI应用中的全栈支撑能力。

1. AI全栈架构的组成与设计思路

2. 硬件层:GPU、存储与网络的协同设计

3. 软件层:框架、工具链与平台优化

4. 全栈架构优化的典型案例

线上 1
智算集群基础概述 本章节主要介绍智算集群的基本概念、发展背景、以及在AI计算、大数据处理中的应用场景,帮助学员了解智算集群的重要性和组成结构。

1. 智算集群的定义与特点

2. 智算集群的应用场景

3. 国内外智算集群发展现状及趋势

线上 2
课程名称课程简介课程内容授课方式课时报名咨询
GPU服务器概述 详细讲解GPU服务器的结构、型号及其在AI任务中的优势,帮助学员了解GPU服务器的选择与配置。

1. GPU服务器的组成与工作原理

2. NVIDIA GPU架构概述

3. GPU服务器在智算集群中的应用场景

线上 2
InfiniBand(IB)网络基础 介绍IB网络技术的基本原理及其在智算集群中的作用,学习IB网络的优势、协议及主要组件。

1. IB网络技术基础

2. IB交换机和网络接口卡 (NIC)

3. IB网络与以太网的对比

线上 2
存储技术概述 学习全闪存和混闪存储的原理、优势以及在智算集群中的存储策略设计。

1. 全闪存与混闪存储的基本原理

2. 存储IO性能优化方法

3. 存储在集群中的部署与应用案例

线上 2
课程名称课程简介课程内容授课方式课时报名咨询
智算集群的设计 本章节重点讲解智算集群硬件基础设施设计的关键要素,包括机柜、电力、动环和桥架等,为后续的安装和部署提供指导。

1. 智算集群机柜设计规范与布局

2. 电力供应与冗余设计

3. 桥架与线缆布放的设计与优化

线上 2
网络设计与组网 本章节聚焦智算集群网络设计的关键技术,涵盖交换机、光纤与模块的选型和组网方法。

1. 网络拓扑设计原则

2. 交换机与光模块的选型与配置

3. 高性能组网的优化方法

线上 2
主要网络优化 本章节深入讲解智算集群网络优化的关键技术,包括流量调优、延迟优化及吞吐量提升,帮助学员掌握提升网络性能的实用方法和工具。

1. 网络性能指标与优化目标

2. 关键优化技术

3. 网络硬件调优

4. 工具与方法

5. 典型案例分析

线下 2
GPU服务器软件生态 探索GPU服务器的软件生态,包括CUDA、NCCL、深度学习框架优化等内容。

1. GPU服务器常用软件与驱动

2. CUDA与NCCL基础

3. 深度学习框架的GPU优化

线下 2
GPU服务器单机优化 讲解GPU服务器单机性能优化的方法,包括显存利用率优化、计算效率提升等。

1. GPU服务器性能监控与分析

2. 单机计算性能优化技巧

3. 常见单机性能问题及解决方案

线下 4
GPU服务器集群优化 学习如何优化GPU服务器集群性能,提升整体计算效率。

1. 集群任务调度与负载均衡

2. 集群通信优化与NCCL调优

3. 集群资源管理与优化案例

线下 4
智算集群运维管理 掌握智算集群的日常运维管理方法,包括硬件、网络与软件的监控与维护。

1. 集群监控与故障预警

2. 日常运维流程与实践

3. 集群生命周期管理

线下 2
GPU集群运维管理 资源监控与性能分析,故障诊断与恢复,自动化运维。

1. GPU资源监控工具(NVIDIA DCGM、Prometheus+Grafana)

2. 节点健康状态检测(GPU温度、功耗、显存占用)

3. 日志分析(ELK Stack、集群日志聚合)

4. 常见GPU故障排查(驱动崩溃、显存溢出、硬件故障)

5. 网络问题定位(延迟、带宽瓶颈、RDMA配置错误)

6. 自动化告警与应急响应流程

7. 使用Ansible/SaltStack进行批量配置管理

8. 集群扩容与缩容


线下 4

课程:AI历史与发展

您的姓名:
联系电话:
联系邮箱:
留言内容: