为客户提供专业、前沿的深度学习技术培训,涵盖生成式 AI、深度学习、加速计算、图形和仿真,以及数据科学等前沿技术领域的应用开发实战培训。
首页-AI培训-AI培训
课程主题 课程类别 预备知识 学习目标 课程大纲 课时 课程模式 证书 报名咨询
利用提示工程构建大语言模型 (LLM) 应用 中级进阶

具备 Python 编程经验

· 理解如何应用迭代式提示工程最佳实践,以创建基于LLM的应用程序,用于各种与语言相关的任务

· 熟练使用 LangChain 来组织和编排 LLM 工作流

· 编写应用代码,利用 LLM 执行生成任务,比如文档分析、聊天机器人等

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. 提示工程(45分钟)

· 了解为什么提示工程是与大语言模型(LLM)交互的核心;讨论如何使用提示工程来开发多种基于 LLM 的应用;了解 NVIDIA LLM NIM,它被用于部署本课程中使用的 Llama 3.1 LLM

3. 提示词入门(60分钟)

· 熟悉课程环境;使用 OpenAI API 和 LangChain 创建并查看你的第一个提示响应;学习如何流式传输 LLM 响应,以及批量发送 LLM 提示,比较性能差异;练习迭代式提示开发的过程;创建并使用你的第一个提示模板;完成一个小项目,在一批输入上执行分析和生成任务

4. LangChain表达式语言(LCEL、80分钟)

· 了解 LangChain 运行时,以及用 LangChain 表达式语言(LCEL)将它们组合成链的能力;编写自定义函数并将其转换为运行时,以包含进 LangChain 链中;将多个 LCEL 链组合成一个更大的应用链;通过组合并行 LCEL 链来发挥并行工作的能力;完成一个小项目,借助 LCEL 和并行执行,对一批输入执行分析和生成任务

5. 带消息的提示词(45分钟)

· 了解两种核心聊天消息类型:人类消息和 AI 消息,以及如何在应用代码中明确地使用它们;通过一种被称为少样本提示的技术,为聊天模型提供指导性示例;明确使用系统消息,这将允许您为聊天模型定义一个总体的角色和职责;使用思维链提示来增强 LLM 执行复杂推理任务的能力;管理消息以保留对话历史,构建聊天机器人;完成一个小项目,构建一个简单但灵活的聊天机器人应用,能够担任各种角色

6. 结构化输出(60分钟)

· 探索一些基本方法,使用 LLM 批量生成结构化数据以供下游使用;结合 Pydantic 类和 LangChain 的 `JsonOutputParser` 生成结构化输出;学习如何从长篇文本中提取数据和进行标记;完成一个小项目,使用结构化数据生成技术对非结构化文本文档执行数据提取和文档标记

7. 使用工具、构建智能体(75分钟)

· 创建一个能够推理何时适合使用工具,并将工具使用结果整合到其响应中的智能体;完成一个小项目,创建一个 LLM 智能体,能够利用外部 API 调用来增强其响应,提供实时数据

8. 评估测试和总结(30分钟)

· 回顾所学要点并回答问题;完成评估并获得证书;填写培训调查表;获得进一步学习的建议


8 小时,课后 6 个月内可以继续访问课件和实验 (实验资源用量有限额) 讲师实时授课,每位学员可使用完全配置的云端实验环境进行练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
构建基于扩散模型的生成式 AI 应用 中级进阶

· 熟悉 PyTorch

· 熟悉深度学习

· 构建 U-Net 模型从纯噪声出发生成图像

· 使用去噪扩散过程提高生成图像的质量

· 使用上下文的嵌入向量控制图像的输出

· 使用对比语言-图像预训练 (CLIP) 神经网络按照英文文本提示生成图像

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. 从U-Net到扩散模型(60分钟)

· 构建一个U-Net,即一种图像自编码器;学习转置卷积来放大图像;学习非序列化的神经网络和残差连接;尝试向 U-Net 注入噪声来生成新图像

3. 扩散过程(90分钟)

· 了解如何使用前向扩散过程 (DDPM) 创建一系列噪声越来越大的图像;了解如何在噪声生成序列中向前跳过以加快网络训练 (DDIM);使用贝叶斯定理去除图像中的噪声以进行反向扩散过程

4. 通过上下文进行控制(60分钟)

· 了解如何通过添加上下文嵌入来更改扩散过程的输出;添加额外的模型优化,例如:正弦位置嵌入、高斯误差线性单元(GELU) 激活函数、注意力机制

5. 使用CLIP将文本转换为图像(60分钟)

· 循序解析 CLIP 架构,了解它如何将图像嵌入与文本嵌入关联起来;使用 CLIP 来训练文本到图像的扩散模型

6. 当下领先的模型(60分钟)

· 了解多种目前最先进的生成式 AI 模型,并将它们与课上所学的概念关联起来;讨论提示工程以及如何更好地影响生成式 AI 模型的输出

7. 值得信赖的人工智能和总结(60分钟)

· 了解内容真实性以及如何构建值得信赖的模型;回顾所学要点并解答问题;完成评估并获得证书;填写培训调查表


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用云端完全配置的加速工作站实验练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
构建大语言模型 RAG 智能体 中级进阶 · 熟悉深度学习基础原理,特别需要掌握 PyTorch 和迁移学习;如《深度学习新手入门》或《深度学习基础——理论与实践入门》课程涵盖的内容,或拥有类似经验 > 如《构建基于大语言模型 (LLM) 的应用》课程涵盖的内容,或拥有类似经验

· 具备中级 Python 编程经验,包括面向对象编程和库的使用。参加过 Python Tutorial 或拥有类似经验

· 构建 LLM 系统,利用内部和外部推理组件实现与用户的可预测交互

· 设计对话管理和文档推理系统,用于维护状态并将信息强制转换为结构化格式

· 利用嵌入模型进行高效的内容检索的相似性查询和生成对话护栏

· 开发、模块化和评估检索增强生成 (RAG) 模型,无需任何微调即可回答有关研究论文数据集的问题

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. LLM推理接口和微服务(60分钟)

· 熟悉课程环境,并了解用于软件模块化和资源交付的微服务;讨论推理用例的 LLM 服务选项,包括本地部署和可扩展部署策略及价值主张;熟悉 GPT4 和 NGC 托管的 NVIDIA AI Foundation 模型端的远程接入点

3. 使用LangChain, Gradio 和 LangServe 设计大语言模型训练数据集(120分钟)

· 学习如何使用 LangChain,通过功能性 LangChain Express Language (LCEL) 语法将多个 LLM 模块链接起来;将内部和外部推理规范化,并将它们模块化为可运行单元;使用 LangServe 通过接口发送 LLM 链,与 Gradio 前端交互

4. 维护对话状态和集成知识提取(75分钟)

· 了解运行状态逻辑,以便在链运行时保持该状态;利用槽位填充进行知识提取,维护智能知识库;集成一个对话管理聊天机器人,强制用户输入凭据、从数据库接口检索信息,并维护对话状态

5. 长篇文档处理策略(45分钟)

· 了解文档分块、精简和重构策略;使用相同的 LLM 链接技能构建一个总结研究论文的系统,通过导出 while-loop 运行文件来实现

6. 语义相似性和护栏的嵌入(60分钟)

· 理解编码器与解码器的优势和嵌入的工作方式;使用向量表示来推理段落的含义和相似性;设计一个通过定制化输入通道来回答问题或礼貌拒绝的护栏系统

7. 实施高效文档检索的向量存储(60分钟)

· 将向量存储转为有助于自动化向量推理的结构;将向量存储纳入检索增强生成工作流中,根据对话历史和预处理的文档池进行推理

8. 评估测试和总结(60分钟)

· 回顾所学要点;在前端部署检索组件并运行评估,完成评估并获得证书;填写培训调查表


8 小时,课后 6 个月内可以继续访问课件和实验 (实验资源用量有限额) 讲师实时授课,每位学员可使用云端完全配置的加速工作站实验练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
模型并行 —— 构建和部署大型 神经网络 通用基础

· 熟悉 PyTorch

· 熟悉深度学习和数据并行训练概念

· 先学习过《数据并行 —— 用多 GPU 训练神经网络》 和《构建基于 Transformer 的自然语言处理应用》课程会很有帮助(可选)

· 跨多个服务器训练神经网络

· 使用激活检查点、梯度累积和各种形式的模型并行等技术,来克服与大型模型内存占用相关的挑战

· 捕获并了解训练性能特征以优化模型架构

· 使用 NVIDIA TensorRT-LLM 将超大型多 GPU 模型部署到生产环境

1. 课程介绍(15分钟)

· 讲师介绍;登陆 DLI 学习平台

2. 训练大模型(120分钟)

· 了解训练大型模型的需求和主要挑战;了解训练大规模所需的基本技术和工具;了解分布式训练和 Slurm 作业调度程序;使用数据并行训练 GPT 模型;分析训练过程并理解执行的性能

3. 模型并行高级技能(120分钟)

· 使用一系列节省内存的技术来增加模型规模;了解 tensor 和并行工作流;超越自然语言处理,了解 DeepSpeed;自动调整模型性能;了解混合专家(MoE)模型

4. 大模型推理(120分钟)

· 理解与大型模型相关的部署挑战;探索模型缩减技术;学习使用 TensorRT-LLM;学习使用 Triton 推理服务器;理解将 GPT 检查点部署到生产环境的过程;查看提示工程的示例

5. 总结(30分钟)

· 回顾今日所学;完成评估测试和获取证书;填写反馈表;了解如何设置您自己的 AI 应用开发环境


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用云端完全配置的加速工作站实验练习 成功完成本课程和测试后,将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
为大语言模型添加新知识 中级进阶

· 熟悉 Python 编程与 Jupyter notebook

· 了解大语言模型及其应用

· 具备深度学习与神经网络的基本概念



· 使用 NVIDIA NeMo Curator 筛选高质量数据集并生成合成数据

· 结合基准测试(如 MMLU)、LLM-as-a-judge 和 NeMo Evaluator 严格评估模型性能

· 通过持续预训练(CPT)为 LLM 注入特定领域的新知识

· 通过监督微调(SFT)让 LLM 学习新技能并完成特定任务

· 使用直接偏好优化(DPO)使模型在风格、语气和安全性方面更贴近人类偏好

· 通过 TensorRT-LLM 和 NeMo 进行量化、剪枝与知识蒸馏,压缩并优化 LLM 以实现高效部署

· 掌握端到端的模型定制工作流,用于解决真实世界的问题

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. 数据筛选与合成数据生成(60分钟)

· 使用 NVIDIA NeMo Curator 构建大规模高质量数据集;执行关键数据筛选任务:文本清洗、过滤和 PII 去除;生成高质量的问答对数据,用于构建稳健的 SFT 数据集;理解数据质量在 LLM 开发生命周期中的重要性

3. 大语言模型评估(75分钟)

· 从简单的“目测”到系统的量化方法,全面了解多种评估技术;使用 MMLU 等行业标准基准测试评估模型;实现 LLM-as-a-judge 进行更细致的自动化评估;使用 NeMo Evaluator 微服务比较 zero-shot 与 few-shot(上下文学习)表现;使用 MLflow 跟踪与可视化评估实验

4. LLM定制(120分钟)

· 深入三大定制技术:CPT、SFT 和 DPO;通过 CPT 教会模型一个特定领域的新知识;使用 SFT 教会模型新技能,比如用另一种语言解数学题;利用 DPO 将模型对话风格调整为人类偏好(如正式与非正式语气、特定方言等);通过 NeMo 框架动手实践完成定制任务

5. 为部署优化LLM(120分钟)

· 学习如何压缩和加速 LLM,以实现高效推理;使用 TensorRT-LLM 应用后训练量化(PTQ),减少模型尺寸与内存占用,重点使用 FP8 格式;通过层级剪枝(Depth Pruning)删除整个层以减小模型规模;使用知识蒸馏技术,训练小型“学生”模型模仿大型“教师”模型,以恢复剪枝带来的性能损失;权衡每种优化技术在性能与准确率上的利弊

6. 互动式评估(30分钟)

· 在实践编程任务中运用所学知识;使用 DPO 将 Llama 3.1 8B 模型调整为特定对话风格(如莎士比亚式英文);展示您准备偏好数据集、使用 NeMo-RL 运行对齐任务并评估最终模型的能力;成功完成评估后可获得 NVIDIA 培训证书


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用完全配置的云端实验环境进行练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
使用 NVIDIA NIM 大规模部署 RAG 工作流 通用基础

· 熟悉 LLM 应用

· 熟悉 RAG 工作流

· 熟悉 Kubernetes

· 熟悉 Helm


· 使用 API 入口构建简单的 RAG 工作流,并使用 Docker Compose 在本地部署

· 使用 NIM Operator 在 Kubernetes 集群中部署各种 NIM 微服务

· 将 NIM 组合成一个完整的生产级 RAG 工作流,并集成高级数据提取工作流

· 使用 NIM Operator 扩展 NIM 以处理流量高峰

· 为各种智能体工作流(包括PDF提取)创建、部署和扩展 RAG 工作流

1. 课程大纲(15分钟)

· 讲师介绍;登录DLI学习平台

2. 生成式AI应用的生产部署(45分钟)

· 调查当前生成式AI应用的各种能力;回顾企业级生成式AI应用的众多组成部分,包括RAG工作流;了解企业在从简单到企业级生成式AI应用转型时面临的挑战;学习NIM在部署LLM和其它生成式AI应用组件方面的能力;讨论用于大规模提高LLM应用推理性能的技巧和技术

3. 企业级生成式AI DevOps的核心概念(45分钟)

· 调查当前可用于企业级容器化应用部署的DevOps工具;了解Kubernetes容器编排平台的价值

4. 部署简单的RAG应用(45分钟)

· 学习如何通过API调用访问远程LLM和RAG服务;回顾在开发RAG应用时使用的核心LangChain编程模式;使用API托管服务构建一个简单的RAG应用,并使用Docker Compose进行部署

5. Kubernetes核心概念(60分钟)

· 学习使用Kubernetes集群所需的核心概念和技术;熟悉本课程为您提供的多节点Kubernetes集群编程环境;交互式地使用kubecti在集群中部署、管理和监控基于容器的应用程序

6. 部署自托管RAG应用(60分钟)

· 在集群中部署和协调各种容器微服务,以支持基于集群的RAG应用;了解并使用NIM操作符来管理和扩展各种RAG服务;为集群上的各种模型缓存配置存储;在集群上部署LLM、文本嵌入和文本检索服务

7. 监控GPU利用率(45分钟)

· 使用 NVIDIA Data Center GPU Manager (DCGM)在 Kubernetes 集群中监控和管理 GPU 资源;在集群上部署 Prometheus 和 Grafana 以更好地监控和可视化集群资源;使用 DCGM Exporter 导出 GPU 利用率指标给 Prometheus ,这些指标可以通过 Grafana 进行可视化

8. 自动扩展NIM(45分钟)

· 使用 Prometheus 服务监控器从集群上运行的 NIM中提取自定义指标;创建 HorizontalPodAutoscalers 以根据自定义指标自动扩展集群的服务;使用 Locust 执行负载测试,测试并观察自动水平自动扩展

9. 构建多模态RAG流水线(45分钟)

· 学习如何从多模态 PDF 文档中分离不同的模态,如文本、图形和表格;练习各种提取文本的分块策略;从 PDF 文档中提取表格;从 PDF 文档中提取图像/表格;使用 NV-YOLOX 模型识别 PDF 页面元素;对 ChipNemo 技术论文执行端到端的多模态数据提取

10. 使用生成式AI表示提取的模态(30分钟)

· 为提取的元素(如文本、图形、图表和表格)创建详细的、有上下文的描述;使用 VLM 执行图像转换;使用最先进的上下文感知图表元素检测(CHART)模型来检测图表基本元素的类别,包括绘图元素;在 ChipNemo 技术论文的端到端示例中结合使用 LLM 和 VLM

11. 多模态嵌入、存储和检索(30分钟)

· 将所有提取的模态转换为通用格式,以便在通用 RAG 流水线中使用;构建端到端的多模态 RAG 流水线

12. 评估测试和总结(60分钟)

· 回顾所学要点;通过映射将预训练模型转换为能够接收不同的数据类型,完成评估并获得证书;填写培训调查表


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用完全配置的云端实验环境进行练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
使用大语言模型构建代理式 AI 通用基础

· 深度学习基础知识(包括注意力机制和 Transformer)。建议具备 DLI 的《深度学习新手入门》或《深度学习基础 —— 理论与实践入门》课程经验。

· 中级 Python 熟练度(包括面向对象编程及机器学习库的使用)。W3Schools 的 Python 教程或同等实践经验即可满足要求。



· 理解 LLM 的优势和局限性,以及为什么基于智能体的范式能在现代软件生态中增强其能力

· 学习如何生成结构化输出,以支持机器可解析的函数调用或 API 集成

· 探索检索机制和知识图谱,以获取领域知识

· 使用 LangGraph 等框架,尝试多智能体协作调度

· 实现具有弹性的系统和数据飞轮(flywheels),以支持面向生产环境的部署


1. 课程介绍(15分钟)

· 讲师介绍;登录DLI学习平台

2. 智能体抽象与LLM基础(45分钟)

· 讨论LLN的能力与局限性;引入智能体作为任务分解的抽象方式;演示最小化智能体,结合自由文本LLM调用

3. 结构化输出与基本执行机制(45分钟)

· 通过基于JSON或任务的输出对LLM进行瓶颈管理;确保领域对齐与稳定的执行模式;介绍认知架构

4. 检索机制与环境工具(45分钟)

· 规范化智能体访问环境的策略,使其能够与其它系统交互;为外部数据存储(DBs,APIs)开发工具接口;使用向量RAG编码,实现基于文档集的语义检索

5. 知识图谱与文档图谱(60分钟)

· 规划从原始文档到规范化形式的数据演进;设定阈值/平衡目标,以驱动事件循环;构建状态池/本体(ontologies),以实现稳健的领域覆盖

6. 多智能体系统与框架(60分钟)

· 在不同的智能体之间分解任务;规范化通信缓冲区与进程分布方案;区分不同框架及其独特的方法

7. 数据飞轮与系统加固(60分钟)

· 捕获使用日志,优化领域约束或子模型;通过人机协作进行纠错;采用真实/合成数据进行迭代改进以及工作流简化

8. 扩展与生产部署(60分钟)

· 讨论生产环境相关考虑,如资源管理、并发处理、资源利用率及多租户(multi-tenancy)架构;介绍与框架无关的模块化部署(元框架)及其选择标准;采用真实/合成数据进行迭代改进以及工作流简化

9. 实时智能体(可选)

· 讨论多模态交互及与物理世界交互的智能体应用场景;探索机器人、音频系统、世界模型等最新技术进展

10. 负责任的智能体(可选)

· 讨论软件设计中的常见失败模式,包括不公平性、法律责任和糟糕的软件体验;研究智能体设计中的制衡系统、标准创建及评估需求

11. 总结(15分钟)

· 回顾所学要点;通过映射将预训练模型转换为能够接收不同的数据类型,完成评估并获得证书;填写培训调查表


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用完全配置的云端实验环境进行练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
使用多模态模型构建 AI 智能体 通用基础

· 对深度学习概念有基本的理解

· 熟悉至少一个深度学习框架,比如 TensorFlow, PyTorch 或者 Keras,本课程使用的是 PyTorch


· 不同的数据类型及如何使其适用于神经网络

· 模型融合,以及早期融合、晚期融合和中期融合的区别

· 使用 OCR 进行 PDF 提取

· 模态和智能体编排的区别

· 使用视频搜索和摘要(VSS)定制 NVIDIA AI Blueprints

1. 课程介绍(15分钟)

· 讲师介绍、登陆DLI学习平台

2. 早期和晚期融合(60分钟)

· 使用相机和LiDAR数据预测物体位置;转换各种数据类型,使其适用于神经网络

3. 中间融合(60分钟)

· 探索有效多模态模型架构背后的理论;训练对比预训练模型;创建向量数据库

4. 模型映射(projection,120分钟)

· 将LIama 2转换为视觉语言模型(VLM);使用光学字符识别(OCR)工具处理PDF

5. 模型编排(120分钟)

· 使用Cosmos Nemotron分析视频;使用VSS回答用户关于视频内容的查询;使用NVIDIA AI Blueprints进行编排

6. 评估测试和总结(60分钟)

· 回顾所学要点;通过映射将预训练模型转换为能够接收不同的数据类型,完成评估并获得证书;填写培训调查表

8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用完全配置的云端实验环境进行练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
课程主题 课程类别 预备知识 学习目标 课程大纲 课时 课程模式 证书 报名咨询
使用 NVIDIA Isaac 加速机器人开发 中级进阶

· 具备 Python 编程和 ROS 2(机器人操作系统)经验

· 熟悉机器人领域常用的 3D 工作流或 CAD 工具

· 接触过仿真与机器人工作流程

· 使用 OpenUSD 构建模块化机器人资产并导入 CAD/URDF 模型

· 在 Isaac Sim 中将机器人集成进虚拟环境

· 连接 ROS 2 实现实时机器人控制与软件在环 (SIL) 测试

· 利用 NVIDIA GPU 加速库提升感知与 AI 工作负载性能

· 生成物理真实的合成数据,用于构建稳健的机器人训练流程

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台,熟悉实验环境

2. 用于机器人开发的OpenUSD(105分钟)

· OpenUSD 中机器人的构建模块;将机器人导入 OpenUSD;组装机器人与环境

3. 机器人软件在环(SIL)测试(120分钟)

· 将 ROS 与 Isaac Sim 集成;为机器人配置 ROS 图;创建占用图;使用 Nav2 实现自主导航;使用 MoveIt2 进行操作控制

4. 加速ROS 2工作负载(75分钟)

· Isaac ROS 概览;抓取动作创建;拣放模拟

5. 合成数据生成(105分钟)

· Physical AI 与仿真概览;使用 GR00T-Teleop 采集数据;使用 GR00T-Mimic 增强数据;使用 Isaac Lab 训练机器人;Cosmos World Foundation Models (WFMs) 概览

6. 互动式评估(30分钟)

· 回顾关键内容并解答问题;完成测评以获得 NVIDIA 培训证书;填写课程调查问卷


8 小时,课后 6 个月内可以继续访问课件和实验(实验资源用量有限额) 讲师实时授课,每位学员可使用完全配置的云端实验环境进行练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
课程主题 课程类别 预备知识 学习目标 课程大纲 课时 课程模式 证书 报名咨询
构建基于深度学习的工业检测应用 中级进阶

· 使用 Python 的经验,推荐学习 Python tutorial

· 了解数据处理和深度学习,推荐学习《深度学习基础——理论与实践入门》

· 使用 Pandas DataFrame 从数据集中提取有意义的见解

· 运用迁移学习于深度学习分类模型

· 微调深度学习模型并设置评估指标

· 部署和衡量模型性能

· 试验各种推理配置以优化模型性能

1. 课程介绍(15分钟)

· 讲师介绍;登录课程

2. 数据探索和使用DALI预处理(120分钟)

· 使用 Pandas 探索数据集;使用 DALI 预处理数据;评估可行性测试的范围

3. 使用TAO工具包高效训练模型(120分钟)

· 使用 TAO 工具包训练深度学习模型;评估模型准确性;迭代模型训练以提高准确性

4. 模型推理和部署(120分钟)

· 使用 TensorRT 优化深度学习模型;使用 Triton 推理服务器部署模型;探索和评估各种推理配置的影响

5. 总结(30分钟)

· 回顾所学关键内容;完成测试,获取证书;填写调查表


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用云端完全配置的 GPU 加速工作站实验练习 成功完成本课程和测试后,将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
构建基于 Transformer 的自然语言处理应用 通用基础

· 具备 Python 编码和使用库函数与参数的经验

· 具备对深度学习框架(如 TensorFlow、PyTorch 或 Keras)的基本理解

· 具备对神经网络的基本了解

· 了解 NLP 文本嵌入任务的快速演进,如 Word2Vec、基于递归神经网络 (RNN) 的嵌入和 Transformer 。

· 在不使用 RNN 的情况下,如何利用 Transformer 架构特点(尤其是自注意力机制)创建语言模型。

· 使用自监督机制优化 BERT、Megatron 和其他变体中的 Transformer 架构,以取得更好的 NLP 结果。

· 利用经过预训练的现代 NLP 模型来完成多个任务,如文本分类、NER 和问答系统。

· 管理推理挑战,以及为实时应用部署经过优化的模型。

1. 介绍(15分钟)

· 讲师介绍;创建账户,登录课程

2. Transformer 入门(120分钟)

· 在PyTorch中构建Transformer架构;计算自注意力矩阵;使用Transformer预训练模型将英语翻译成德语

3. 自监督、BERT及更多(120分钟)

· 构建文本分类项目,对摘要内容进行分类;构建命名实体识别 (NER) 项目,以识别文本中的疾病名称;使用特定领域的模型提高项目的精准度

4. NLP推理和部署(120分钟)

· 学习如何在NVIDIA Triton上部署NLP项目以进行实时推理;为部署准备模型;使用 NVIDIA® TensorRT优化模型;部署模型和测试

5. 总结(15分钟)

· 回顾所学关键内容;完成测试并获取证书;填写调查表;了解如何设置您自有的深度学习环境,以及讨论其他资源和培训

8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。
数据并行 —— 用多 GPU 训练神经网络 中级进阶

使用 Python 进行深度学习训练的经验

· 了解如何运用多个 GPU 进行数据并行深度学习训练

· 在训练时实现更大吞吐量,以充分利用多个 GPU

· 使用 Pytorch 分布式数据并行将训练分发到多个 GPU

· 了解并运用关于多 GPU 训练性能和准确性的算法的注意事项

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. 随机梯度下降和批量大小的影响(120分钟)

· 了解单一线程顺序数据处理的问题,以及通过并行处理加速应用的原理;理解损失函数、梯度下降和随机梯度下降 (SGD);了解批量大小对准确性和训练时间的影响,并着眼于其对多 GPU 系统的运用

3. 使用PyTorch分布式数据并行(DDP)在多个GPU上进行训练(120分钟)

· 学习 DDP 如何协调在多个 GPU 之间的训练;重构单 GPU 训练的程序,以便使用 DDP 在多个 GPU 上运行

4. 在扩展到多个GPU时保持模型准确性(90分钟)

· 了解在多个 GPU 上并行训练时,哪些情况可能会导致准确性降低;学习将训练扩展到多个 GPU 时保持准确性的技巧

5. 评估测试(30分钟)

· 运用课上所学,完成本课程的测验题目,以获得培训证书

6. 总结(15分钟)

· 回顾今日所学;填写反馈表

8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额 讲师实时授课,每位学员可使用云端完全配置的 GPU 加速工作站实验练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
深度学习基础——理论与实践入门 通用基础

·  了解 Python 3 中的编程基本概念,如函数、循环、字典和数组

· 熟悉 Pandas 数据结构

· 了解如何计算线性回归

· 学到训练深度学习模型所需的基础技能和工具

· 了解常见的深度学习数据类型和模型架构 

· 通过数据增强优化数据集,提高模型精准度 

· 通过模型间的迁移学习,用较少的数据和计算量获得高效的结果 

· 利用先进的深度学习框架自信地运作自己的项目

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. 深度学习机制(180分钟)

· 通过训练一个计算机视觉模型,来学习深度学习训练的过程;利用卷积神经网络来提高视觉应用中的预测精度;应用数据增强来增强数据集,并改进模型泛化能力

3. 预训练模型和大语言模型(120分钟)

· 集成一个预先训练好的图像分类模型,以创建一个自动狗门;利用迁移学习创建定制化的狗门,只让自家的狗进入;使用大语言模型 (LLM) 根据提供的文本回答问题

4. 目标分类(80分钟)

· 创建并训练一个能够分析彩色图像的模型;构建一个能够最大限度利用小数据集的数据生成器;结合迁移学习和特征提取提升训练速度;探讨可以进一步提升技能的先进神经网络架构和当下研究领域

5. 总结(30分钟)

· 回顾所学关键内容;完成测试并获取证书;填写培训调查表;了解如何设置您自有的 AI 应用开发环境


8 小时,课后 6 个月内可以继续访问课件和实验 (实验资源用量有限额) 讲师实时授课,每位学员可使用云端完全配置的加速工作站实验练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
模型并行 —— 构建和部署大型 神经网络 通用基础

· 熟悉 PyTorch

· 熟悉深度学习和数据并行训练概念

· 先学习过《数据并行 —— 用多 GPU 训练神经网络》 和《构建基于 Transformer 的自然语言处理应用》课程会很有帮助(可选)

· 跨多个服务器训练神经网络

· 使用激活检查点、梯度累积和各种形式的模型并行等技术,来克服与大型模型内存占用相关的挑战

· 捕获并了解训练性能特征以优化模型架构

· 使用 NVIDIA TensorRT-LLM 将超大型多 GPU 模型部署到生产环境

1. 课程介绍(15分钟)

· 讲师介绍;登陆 DLI 学习平台

2. 训练大模型(120分钟)

· 了解训练大型模型的需求和主要挑战;了解训练大规模所需的基本技术和工具;了解分布式训练和 Slurm 作业调度程序;使用数据并行训练 GPT 模型;分析训练过程并理解执行的性能

3. 模型并行高级技能(120分钟)

· 使用一系列节省内存的技术来增加模型规模;了解 tensor 和并行工作流;超越自然语言处理,了解 DeepSpeed;自动调整模型性能;了解混合专家(MoE)模型

4. 大模型推理(120分钟)

· 理解与大型模型相关的部署挑战;探索模型缩减技术;学习使用 TensorRT-LLM;学习使用 Triton 推理服务器;理解将 GPT 检查点部署到生产环境的过程;查看提示工程的示例

5. 总结(30分钟)

· 回顾今日所学;完成评估测试和获取证书;填写反馈表;了解如何设置您自己的 AI 应用开发环境


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用云端完全配置的加速工作站实验练习 成功完成本课程和测试后,将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
构建基于深度学习的反欺诈应用 中级进阶

· 基础 Python 编程经验

· 基本了解深度学习框架(比如 TensorFlow、PyTorch 或 Keras)

· 基本了解神经网络

· 如何使用 RAPIDS 和 CuPy 加速数据清洗和特征工程

· 如何使用 GPU 加速 XGBoost 模型调参和训练过程

· 如何使用全连接网络构建反欺诈模型

· 如何使用NVIDIA NeMo完成金融数据仿真

· 如何使用基于 DGL 训练的图神经网络搭建反欺诈模型

· 如何使用 NVIDIA Triton™ 完成模型部署上线

1. 课程介绍(15分钟)

· 讲师介绍;登录课件平台

2. 金融反欺诈系统介绍(120分钟)

· 通过一组人工合成转账数据来建立混沌矩阵;通过设定某个阈值的方式来计算分类器的欺诈率;通过设定一组阈值来计算衡量分类器表现的 ROC 和 PR 曲线

3. 金融数据仿真以及反欺诈模型训练(180分钟)

· 针对反欺诈数据集进行数据清洗和特征工程;在 GPU 上训练并加速 XGBoost 和随机森林模型的训练和调参过程;自定义搭建前馈神经网络和图神经网络;使用 GPT 完成金融数据仿真

4. 模型推理和部署(60分钟)

· 了解推理部署流程;使用 Triton 完成反欺诈模型的业务部署 ;分析和优化如何提升部署效率

5. 总结和评估(30分钟)

· 回顾所学要点并解答问题;完成评估并获得证书 ;填写培训调查表


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师实时授课,每位学员可使用云端完全配置的 GPU 加速工作站实验练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
课程主题 课程类别 预备知识 学习目标 课程大纲 课时 课程模式 证书 报名咨询
构建基于 DOCA 的拥塞控制 算法优化 AI 工作负载 中级进阶

· 熟练掌握 C 语言

· 学习《拥塞控制入门》视频课程(免费课程)

· 了解 DOCA和 PCC,可以参考以下文档

· RDMA 基本实现

· 流量控制和拥塞控制的基础知识

· 掌握 NVIDIA DOCA PCC SDK 开发平台,能够快速开发自己的拥塞算法

· 掌握拥塞算法调试和 debug 方法

1. 课程介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. 拥塞算法原理及实现(60分钟)

· 了解流量控制和拥塞控制的理论基础;学习基于 ECN 的 DCQCN 实现原理;学习基于 RTT 的 Timely 实现原理

3. BlueField-3和DOCA介绍(60分钟)

· 介绍 NVIDIA BlueField-3 DPU 产品特点;介绍 DOCA 的软件框架和组件

4. DOCA PCC介绍(80分钟)

· 介绍 DOC PCC SDK 的组件以及实现;了解 DOCA PCC 的 APIs 以及特性;了解如何安装 DOCA PCC;学习如何编译和运行 DOCA PCC

5. PCC实现原理和算法实现(120分钟)

· 探讨 PCC 实现原理;学习 DOCA PCC CC event APIs,以及关键数据结构;学习算法初始化和事件处理函数;学员实现部分算法逻辑,并在 DPU 环境上打流并调试

6. Debug技术介绍,算法可调参数介绍(30分钟)

· 介绍 Debug tracer 的使用方法;介绍 core-dump 的使用步骤;介绍硬件相关的 counter 查询;学习如何获取和更改算法可调参数;学习如何获取算法的 debug counter

7. 总结(30分钟)

· 回顾所学关键内容;完成测试并获取证书;填写调查表


8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 讲师授课,及每位学员使用一张 BlueFiled-3 卡实践练习 成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明
加速计算基础——CUDA Python 通用基础

· 基本的 Python 编程能力,包括熟悉变量类型、循环、条件语句、函数和数组操作

· 使用 NumPy 的能力,包括使用 ndarrays 和 ufuncs

· 无需具备前期 CUDA 编程知识

· 只需使用几行代码即可实现 GPU 加速的 NumPy ufuncs 。

· 利用CUDA线程层次结构配置代码并行化。

· 编写自定义 CUDA 核函数实现最大性能和灵活性。

· 使用内存合并和设备上共享内存来增加CUDA核函数的带宽。

1. 简介(15分钟)

· 讲师介绍;创建账户和登录课程

2. 使用Numba和CUDA Python入门(120分钟)

· 在 Python 中用 Numba 编译器和 CUDA 编程;使用 Numba 装饰器加速数值 Python 函数;优化主机到设备、设备到主机的内存传输

3. 在支持Numba的Python中自定义CUDA核函数(120分钟)

· 学习 CUDA 的并行线程层次结构,以及如何扩展并行程序;在GPU上启动大规模并行自定义CUDA核函数;利用CUDA原子操作避免并行执行期间的竞争状况

4. 有效使用内存子系统(120分钟)

· 学习创建多维网格以及如何在2D 矩阵上并行工作;在重塑2D矩阵时,利用GPU设备上的共享内存来促进内存合并

5. 总结(15分钟)

· 回顾所学关键内容;完成测试,获取证书;填写调查表

8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。
加速计算基础——CUDA C++ 前沿技术 通用基础

· 基本的 C/C++ 编程能力,包括熟悉 lambda 表达式、循环、条件语句、函数、标准算法和容器

· 无需预先了解 CUDA 编程

· 编写和编译在 GPU 上运行的代码

· 优化 CPU 和 GPU 之间的内存迁移

· 利用强大的并行算法来简化向代码添加 GPU 加速

· 直接使用 CUDA 内核编程 GPU 来实现自己的并行算法

· 利用并发 CUDA 流来重叠内存传输和计算

· 了解在何处、何时以及如何最好地向现有的仅 CPU 应用程序添加 CUDA 加速

1. 介绍(15分钟)

· 讲师介绍;登录 DLI 学习平台

2. CUDA简易入门:使用并行算法加速应用(120分钟)

· 编写、编译和运行 GPU 代码;重构标准算法以在 GPU 上执行;扩展标准算法以适应您的独特场景

3. 释放GPU的全部潜力:利用CUDA流实现异步(120分钟)

· 使用 CUDA 流来重叠执行和内存传输;使用 CUDA 事件进行异步依赖管理;使用 NVIDIA Nsight Systems 对 CUDA 代码进行性能分析

4. 使用CUDA内核实现新算法(120分钟)

· 编写和启动自定义 CUDA 内核;控制线程层次结构;利用共享内存;使用协作算法

5. 评估测试和总结(60分钟)

· 回顾所学关键内容了;完成测试,获取证书;填写培训调查表

8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额) 成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。
课程主题 课程类别 预备知识 学习目标 课程大纲 课时 课程模式 证书 报名咨询
加速数据科学基础 中级进阶

· 为获得pandas经验,我们建议学习kaggle上的pandas课程

· 为获得使用python的数据科学经验,我们建议学习kaggle上的机器学习课程

· 使用cuDF和Apache Arrow数据帧进行GPU加速的数据准备和特征提取

· 使用XGBoost和其它多种cuML里的算法实现由GPU加速的多领域的机器学习任务

· 使用cuGraph执行由GPU加速的数据图形可视化,在较短的时间内实现大规模的数据分析

· 使用cuGraph例程快速实现大规模的图形分析

1. 介绍(15分钟)
· 讲师介绍;登录课程
2. GPU加速的数据处理(120分钟)
· 使用cuDF和Dask cuDF直接将数据读取到单个和多个GPU;使用cuDF和GPU上为机器学习任务准备有关人口、道路网络和诊所的信息
3. GPU加速的机器学习(120分钟)
· 基于cuML算法,应用有监督的和无监督的GPU加速算法;在多个GPU上,用Dask训练XGBoost模型;使用cuGraph在GPU上创建和分析图形数据
4. 项目实践:数据分析以拯救英国(120分钟)
· 使用RAPIDS集成多个大型数据集,并对真实世界进行分析;根据模拟的流行病的每日数据,以已有的分析为基础进行迭代处理
5. 总结(15分钟)
· 回顾所学关键内容;完成测试,获取证书;填写调查表

8小时(课后可以继续访问和使用课件和实验资源) 讲师授课,及每位学员使用云端完全配置的GPU加速工作站实验练习 成功完成本课程和测试后,将获得NVIDIA DLI培训证书,证明在相关领域的技能,为职业发展提供证明。
通过高效工作流提升数据科学成果 中级进阶

Basic knowledge of a standard data science workflow on tabular data. To gain an adequate understanding, we recommend this article.

Knowledge of distributed computing using Dask. To gain an adequate understanding, we recommend the “Get Started” guide from Dask.

Completion of the DLI’s Fundamentals of Accelerated Data Science course or an ability to manipulate data using cuDF and some experience building machine learning models using cuML.

· Develop and deploy an accelerated end-to-end data processing pipeline for large datasets

· Scale data science workflows using distributed computing

· Perform DataFrame transformations that take advantage of hardware acceleration and avoid hidden slowdowns

· Enhance machine learning solutions through feature engineering and rapid experimentation

· Improve data processing pipeline performance by optimizing memory management and hardware utilization



1. Intriduction

· Meet the instructor;Create an account at courses.nvidia.com/join

2. Advanced Extract,Transform,and Load(ETL)

· Discuss current challenges of growing data sizes;Perform ETL efficiently on large datasets;Discuss hidden slowdowns and perform DataFrame transformations properly;Discuss diagnostic tools to monitor and optimize hardware utilization;Persist data in a way that’s conducive for downstream analytics.

3. Training on Multiple GPUs With PyTorch Distributed Data Parallel (DDP)

· Build and compare classification models;Perform feature selection based on predictive power of new and existing features;Perform hyperparameter tuning;Create embeddings using deep learning and clustering on embeddings.

4. Deployment

· Deploy a data processing pipeline with Triton Inference Server;Discuss various tuning parameters to optimize performance.

8 hours Upon successful completion of the assessment, participants will receive an NVIDIA DLI certificate to recognize their subject matter competency and support professional career growth..

课程:AI历史与发展

您的姓名:
联系电话:
联系邮箱:
留言内容: