跳到主要内容

一文梳理清楚生成式 AI 与大模型的相关知识和概念

阅读对象:有一点“生成式 AI / 大模型 / AI 模型”概念的初学者,以及想理解 ChatGPT、Claude、GLM、OpenRouter、阿里云百炼、腾讯云 TokenHub、Ollama 本地模型、AI Agent、多模态和视频生成工具等服务区别的普通用户。
资料时间:截至 2026 年 6 月 25 日。生成式 AI 模型、芯片和云服务变化很快,具体模型规格、价格和可用地区应以官方页面为准。


0. 先给结论

这里说的“生成式 AI 与大模型”,主要指 ChatGPT、Claude、Gemini、GLM、Qwen、DeepSeek、Sora、Seedance、AI Agent 等这一代以基础模型为核心、能生成文字 / 图片 / 语音 / 视频 / 代码并调用工具的 AI 体系。它不同于更早的传统 AI 应用,比如单一分类、识别、推荐、搜索排序或规则系统。

日常使用的大多数生成式 AI / 大模型服务,本质上可以拆成三层;如果扩展到多模态和 AI Agent,还要分别关注“模型处理什么模态”和“谁负责把任务持续推进下去”:

第一层:模型从哪里来
也就是训练:谁训练了 GPT、Claude、GLM、Qwen、DeepSeek、Llama 等模型。

第二层:模型在哪里运行
也就是推理:你的问题发到哪里,由哪台机器、哪些芯片把答案算出来。

第三层:你通过什么产品或系统使用它
例如 ChatGPT、Claude、智谱开放平台、OpenRouter、阿里云百炼、腾讯云 TokenHub、Ollama、本地网页 UI、企业私有部署等。

多模态层:模型处理哪些输入和输出
例如文字、图片、语音、视频、音频、代码、PDF、屏幕截图等。

Agent 编排层:谁来规划步骤、调用工具、读写记忆、处理失败、等待人工确认
例如代码 Agent、客服 Agent、办公自动化 Agent、企业流程 Agent、研究助理 Agent 等。

所以,OpenAI、Claude、GLM、Qwen、DeepSeek 这些名字,很多时候指的是“模型或模型厂商”;而 OpenRouter、阿里云百炼、腾讯云 TokenHub、AWS Bedrock、Google Vertex AI 这类平台,更多时候是“模型服务平台 / 云端推理入口 / 模型聚合与托管平台”;Ollama、llama.cpp、LM Studio 则更偏“本地推理运行器”。AI Agent 不是和这些并列的新模型,而是把模型、工具、数据、权限和执行流程组织起来的一种应用形态。

一句话概括:

训练是把模型造出来;推理是把已经造好的模型拿来回答问题;多模态只是把文字扩展到图片、语音、视频等输入输出;Agent 是把一次次推理和工具调用组织成可持续推进的任务流程。


1. 一个普通问题背后发生了什么?

假设你在 ChatGPT、Claude、GLM 或一个接入 OpenRouter 的代码助手里输入:

帮我分析这段代码哪里可能有 bug。

背后大致发生的是:

用户输入

客户端 / 网页 / App / 插件

API 网关:鉴权、计费、限流、安全检查

模型服务层:选择模型、调度 GPU/NPU、加载上下文

推理引擎:把文字切成 token,运行模型前向计算

逐 token 生成答案

返回给用户

这个过程通常不会重新训练模型。它是在调用已经训练好的模型权重,做一次或多次 inference / 推理

如果这个服务接了网页搜索、数据库、代码执行器、文件检索、企业知识库,那么中间还会多出一层:

模型判断需要工具

系统调用搜索 / 数据库 / 代码执行 / 文件检索

把工具结果再交给模型

模型综合结果生成回答

这也是为什么现在的生成式 AI 服务看起来不只是“聊天模型”,而更像“模型 + 工具 + 数据 + 权限 + 云端调度系统”的组合。

如果产品进一步做成 AI Agent,流程会变成循环,而不只是一次问答:

用户给出目标

Agent 理解任务、拆解步骤、判断风险

模型生成计划或下一步动作

系统按权限调用工具:搜索、数据库、代码仓库、浏览器、邮件、工单、终端等

Agent 观察工具结果,更新上下文或记忆

继续下一轮推理和工具调用

完成任务,或在高风险步骤前请求人工确认

因此,Agent 的关键不只是“模型更聪明”,而是系统能否稳定地管理 目标、状态、工具、权限、记忆、错误恢复和人工介入。同一个模型,放在普通聊天框里、代码编辑器里、企业工单系统里,能完成的任务会很不一样。


2. 大模型从哪里来:训练阶段

2.1 训练的含义

训练就是把模型参数学出来。

LLM 可以粗略理解为一个巨大函数。输入一串 token,它输出下一个 token 的概率。这个函数内部有大量参数。训练阶段就是让模型看海量数据,通过不断预测、比较误差、反向传播、更新参数,让它逐步学会语言、代码、知识结构、推理模式和任务习惯。

可以类比:

训练 = 培养一个学生
推理 = 让这个学生回答问题或完成任务

训练阶段通常包括:

阶段含义结果
预训练 Pretraining用海量通用文本、代码、多模态数据学习基础能力得到基础模型
后训练 Post-training用指令、对话、偏好、强化学习等方式让模型更会听指令得到可聊天、可执行任务的模型
微调 Fine-tuning针对某类行业或任务继续训练得到领域模型或企业模型
对齐 Alignment让模型更符合人类偏好、安全规范和产品要求得到更稳定的服务模型
蒸馏 Distillation让小模型学习大模型输出得到更便宜、更快的小模型

2.2 谁在训练模型?

主要有几类:

类型例子特点
闭源模型厂商OpenAI、Anthropic、Google DeepMind、xAI 等模型能力强,权重通常不公开,通过 API 或产品提供服务
中国大模型厂商智谱 / Z.ai、DeepSeek、月之暗面、MiniMax 等有自研模型,也可能开放部分权重或 API
云厂商自研模型阿里 Qwen / 通义千问、腾讯混元、火山豆包等既有模型能力,也有云基础设施和企业服务入口
开源 / 开放权重模型生态Meta Llama、Qwen 开源系列、Mistral、DeepSeek 开源模型等用户可以下载权重,在本地或私有服务器部署

模型厂商真正的核心资产通常包括:

  1. 训练数据和数据清洗体系;
  2. 模型结构和训练方法;
  3. 大规模算力集群;
  4. 训练稳定性工程;
  5. 后训练和对齐方法;
  6. 模型评测体系;
  7. 推理优化和产品化能力。

2.3 LLM、多模态、语音和视频模型的关系

LLM 是“生成式 AI / 大模型服务”的一种,但不是全部。多模态模型、语音模型、图像生成模型、视频生成模型,本质上仍然离不开训练和推理,只是输入输出不再只限于文字。

类型主要处理什么常见产品形态和 LLM 的关系
LLM文本、代码、结构化文本ChatGPT、Claude、GLM、Qwen、Llama 等语言大模型,是很多 AI 产品的核心底座
VLM / 多模态理解模型文本 + 图片 / 截图 / 视频片段读图、分析 PDF、看图表、理解 UI 截图通常把视觉信息编码后交给语言模型或统一模型处理
语音模型语音识别、语音合成、实时语音对话ASR、TTS、Realtime voice、语音助手可以是“语音识别 + LLM + 语音合成”,也可以是原生语音多模态模型
图像生成模型文生图、图生图、图片编辑DALL-E、Stable Diffusion、Midjourney 等不一定是 LLM,常和语言理解模块配合
视频生成模型文生视频、图生视频、音视频生成Sora、Veo、Runway、Seedance 等通常是视频生成基础模型,也会结合语言和多模态理解能力

统一来看:

训练 = 用文字、图片、语音、视频等数据学习跨模态规律
推理 = 用户输入文字 / 图片 / 语音 / 视频,模型生成当前结果

所以,多模态和视频生成不是训练、推理之外的新阶段,而是把同一套“训练权重 + 在线推理”的服务框架扩展到更多模态。


3. 服务如何提供:推理阶段

3.1 推理的含义

推理就是使用已经训练好的模型来生成结果。

模型收到输入后,会先把文字拆成 token,然后根据已有参数计算下一个 token 的概率,再按照一定策略选出下一个 token。生成一个 token 后,把它接到上下文后面,再继续生成下一个 token。

输入 prompt

切成 token

模型计算下一个 token 的概率

选择一个 token 输出

加入上下文

继续生成,直到结束

所以 LLM 的生成常常是“逐字 / 逐 token”流式输出,而不是一次性把全文吐出来。

3.2 推理的两个关键阶段:Prefill 和 Decode

推理内部常被分成两个阶段:

阶段做什么主要压力
Prefill处理用户输入的整段上下文,建立注意力缓存计算量大,适合并行
Decode一个 token 一个 token 生成输出更容易被显存带宽、KV cache 和延迟限制

这就是为什么“长输入”和“长输出”的成本结构不同:

  • 输入很长时,prefill 成本高;
  • 输出很长时,decode 时间长;
  • 多轮对话很长时,KV cache 占用显存会变大;
  • 多用户并发时,调度和缓存管理会变得很重要。

3.3 KV cache 为什么重要?

Transformer 模型在生成新 token 时,需要关注前文。为了避免每生成一个 token 都重新计算全部前文,推理系统会缓存前文的 Key/Value 张量,这就是 KV cache

KV cache 的好处是让长对话更快;坏处是很吃显存。NVIDIA 的推理优化文章也把模型权重和 KV cache 视为 LLM 推理显存需求的两个主要来源。[1]

因此,长上下文、多人并发和 Agent 工作流都会把推理系统推向一个核心问题:

不是模型文件能不能放进去,而是权重、KV cache、并发请求和延迟要求能不能同时撑住。

3.4 推理服务软件在优化什么?

现代推理服务软件不只是“运行模型”,还要解决很多工程问题:

技术目的
Continuous batching不断把不同用户请求合批,提高 GPU 利用率
PagedAttention / Paged KV cache像操作系统管理内存一样管理 KV cache,减少浪费
Prefix cache多个请求有相同前缀时复用缓存
Speculative decoding用小模型猜、大模型校验,提高生成速度
Quantization用更低精度存储和计算,减少显存和成本
Tensor / pipeline / expert parallelism把大模型拆到多张卡或多台机器上运行
Prefill-decode disaggregation把处理输入和生成输出拆给不同资源池,提高吞吐
Tool calling / structured output让模型可靠调用工具或输出 JSON

vLLM 文档将其定位为高吞吐推理服务系统,支持多种解码算法、分布式并行、流式输出、结构化输出、工具调用和 OpenAI 兼容 API。[2] SGLang 也强调生产级低延迟、高吞吐推理,并支持 RadixAttention、prefill-decode disaggregation、speculative decoding、continuous batching、paged attention 和多种量化格式。[3]

3.5 Agent 为什么会放大推理成本?

普通聊天常常是一轮输入、一轮输出。Agent 工作流通常会把一个任务拆成多次模型调用和多次工具调用:

分析目标 → 生成计划 → 调用工具 → 读取结果 → 修正计划 → 再调用工具 → 汇总交付

这会带来几类额外成本:

成本来源为什么增加
多轮模型调用一个任务可能需要多次推理,而不是一次回答
长上下文Agent 要保留目标、计划、工具结果、文件片段、历史决策
工具等待时间搜索、数据库、浏览器、代码执行、外部 API 都有额外延迟
失败重试工具报错、权限不足、结果不一致时需要重新规划
结构化输出为了可靠调用工具,模型常要输出 JSON、函数参数或计划格式
安全检查高风险动作需要权限校验、审计日志或人工确认

所以,Agent 应用的成本不能只按“这次回答用了多少 token”来估算,还要看:

任务平均轮数 × 每轮上下文长度 × 工具调用延迟 × 失败重试率 × 人工确认点

这也是为什么 Agent 产品比普通聊天产品更依赖工程系统:需要任务状态机、工具注册表、权限控制、沙箱、日志、评测和回放能力。

3.6 多模态、语音和视频生成如何推理?

纯文本 LLM 的输入输出主要是 token。多模态服务会先把图片、音频、视频转成模型可处理的内部表示,再和文字一起推理。

多模态理解服务大致是:

图片 / 截图 / PDF / 视频片段

视觉编码器 / 多模态编码器

图像特征、视觉 token 或语义向量
+ 用户文字问题

多模态模型

文字回答或结构化结果

语音对话常见有两条路线:

路线链路特点
拼接式语音对话语音输入 → ASR → 文本 → LLM → 文本 → TTS → 语音输出容易搭建,但语气、停顿、情绪和打断处理容易损失
原生语音多模态音频输入 → 多模态模型 → 音频输出延迟和自然度更好,但模型和服务系统更复杂

视频生成工具也仍然是推理,只是输出不再是文字 token,而是视频帧、运动、镜头、口型、声音或多轨道媒体:

文字提示词 / 参考图片 / 音频 / 视频片段

语言理解 + 图像/音频/视频条件编码

视频生成模型

生成视频、音频或口型同步结果

这类服务通常比文本推理更吃算力、显存、存储和排队调度。因为它不仅要理解提示词,还要生成高维度的图像帧、时间连续性、镜头运动和音画一致性。


4. 训练和推理对硬件的要求有什么不同?

训练和推理都需要大量矩阵计算,但它们的压力点不同。

4.1 训练更像“建造发动机”

训练要做:

前向传播

计算 loss

反向传播

计算梯度

更新参数

保存 checkpoint

继续下一批数据

训练时显存里不只放模型权重,还要放梯度、优化器状态、中间激活、batch 数据等。因此训练对硬件要求极高:

硬件需求为什么重要
大量 GPU / TPU / NPU训练数据和模型参数太大,需要并行
高 HBM 显存容量放模型、梯度、优化器状态、激活值
高 HBM 带宽大规模矩阵计算要持续读写数据
高速互联多卡 / 多机训练需要频繁同步参数和梯度
高速存储数据集和 checkpoint 非常大
高可靠性训练可能持续数周甚至数月,中断恢复很重要
高效软件栈PyTorch、JAX、FSDP、Megatron、DeepSpeed、XLA、ROCm、CUDA 等

4.2 推理更像“开着发动机接业务”

推理通常不更新参数,主要做前向计算。但服务化推理会面对另一类问题:

硬件 / 系统需求为什么重要
足够显存放模型权重和 KV cache
高显存带宽decode 阶段经常被权重读取和 KV cache 访问限制
低延迟用户希望尽快看到首 token
高吞吐同时服务大量用户
高效调度请求长度不同、输出长度不同,需要动态合批
低精度计算支持FP8、FP4、INT8、INT4 等能降低成本
多卡互联大模型或高并发推理需要跨卡通信
稳定 API 服务鉴权、限流、计费、日志、监控、故障切换
多模态吞吐图片、音频、视频会增加编码、生成、存储和网络传输压力

推理常看的指标包括:

指标含义
TTFTTime To First Token,首 token 延迟
TPOTTime Per Output Token,每个输出 token 的耗时
TPSTokens Per Second,每秒 token 数
Throughput单位时间服务多少请求或生成多少 token
Tail latencyP95 / P99 延迟,影响大规模服务体验
Cost per token每百万 token 成本
GPU utilizationGPU 是否真正被吃满

5. 芯片级别:为什么 AI 芯片竞争这么激烈?

LLM 的核心计算是大规模矩阵乘法和注意力计算。因此 AI 芯片竞争主要围绕几件事展开。

5.1 算力:Tensor Core / Matrix Core / TPU Core / NPU Core

普通 CPU 也能算矩阵,但效率不够。现代 AI 加速器会加入专门的矩阵计算单元,例如 NVIDIA Tensor Core、AMD Matrix Core、Google TPU、华为 Ascend NPU 等。

训练通常更看重 BF16、FP16、FP8 的稳定高吞吐;推理则越来越重视 FP8、FP4、INT8、INT4 等低精度格式,因为推理的目标是用更低成本生成足够好的结果。

5.2 显存容量:模型和 KV cache 能不能放下

显存容量决定了能运行多大的模型、多长上下文、多少并发。

例如,一个 70B 参数模型如果用 FP16/BF16 权重,光权重就可能需要约 140GB 显存;如果量化到 4bit,权重体积会大幅下降,但质量、速度和兼容性要具体评估。

对推理来说,模型权重不是唯一问题。长上下文和多人并发会让 KV cache 快速增长,这也是为什么高端 AI 卡越来越强调 HBM 容量。

5.3 显存带宽:decode 经常卡在“读数据”

LLM decode 生成 token 时,经常需要反复读取模型权重和缓存。很多推理场景不是算力不够,而是显存带宽不够。

这也是 HBM3E、HBM4、HBM 带宽、封装和芯片互联成为竞争焦点的原因。

5.4 互联:大模型不是一张卡就能解决

大模型训练和大规模推理都需要多卡协同。关键互联包括:

类型例子作用
卡间互联NVLink、Infinity Fabric、UB 等多 GPU/NPU 之间高速传输
机间网络InfiniBand、RoCE、Spectrum-X、以太网增强方案多服务器之间同步和通信
交换系统NVSwitch、光互联、CPO 等扩大互联域,降低通信瓶颈

当模型进入 MoE、长上下文和 Agent 时代,互联的重要性进一步上升。因为 token 可能要在不同专家、不同 GPU、不同缓存节点之间移动。

5.5 功耗和散热:AI 工厂的硬约束

现在前沿 AI 计算已经不是“几张显卡”的问题,而是整机柜、整机房、甚至电力基础设施的问题。液冷、供电、机柜密度、网络布线、数据中心选址都会影响 AI 服务成本。


6. 截至 2026 年中的硬件竞争格局

6.1 NVIDIA:从单卡优势走向整柜级 AI 工厂

NVIDIA 仍是主流 AI 训练和推理硬件生态的中心。其优势不只是 GPU 本身,还包括 CUDA、cuDNN、NCCL、TensorRT-LLM、Triton、NVLink、NVSwitch、InfiniBand / Spectrum-X 网络,以及成熟的软件和开发者生态。

NVIDIA GB200 NVL72 是一个典型例子:官方介绍称,它把 36 个 Grace CPU 和 72 个 Blackwell GPU 连接成一个液冷整柜系统,形成 72-GPU NVLink 域,并面向万亿参数 LLM 的实时推理和训练加速;NVIDIA 还强调 Blackwell 的第二代 Transformer Engine、FP4 AI 和第五代 NVLink 对推理性能的提升。[4]

2026 年,NVIDIA 又宣布 Vera Rubin 平台,强调面向 Agentic AI 的整柜级平台、NVFP4 推理、机柜级可信计算和更强的可靠性设计。[5]

这反映出一个趋势:

前沿 AI 竞争已经从“哪张卡更快”,升级到“谁能把芯片、显存、网络、机柜、软件、调度和生态做成一个整体”。

6.2 AMD:以 Instinct + ROCm 追赶 AI 数据中心

AMD 的优势在于大显存 GPU、开放生态和 CPU/GPU 组合。AMD Instinct MI350 系列官方称相对上一代有最高 4 倍 AI 计算改进和最高 35 倍推理性能提升;MI355X 官方规格包括 288GB HBM3E、8TB/s 带宽和 1400W 典型板级功耗。[6][7]

AMD 的挑战主要在软件生态。ROCm 在不断成熟,但在很多生产环境里,CUDA 生态仍然更成熟、更容易找到现成优化。对企业来说,硬件规格只是第一步,能否稳定跑 vLLM、TensorRT 类似能力、MoE 模型、长上下文推理和主流框架,才是最终选择依据。

6.3 Google TPU:从训练走向大规模推理

Google 长期使用自研 TPU 服务内部模型和 Google Cloud 客户。Google 在 2025 年发布 Ironwood,第七代 TPU,并称其是第一款专门为推理时代设计的 TPU,面向大规模 thinking / inferential AI 模型。[8]

Google Cloud 后续资料称 Ironwood 面向大规模训练、强化学习、高吞吐低延迟推理和模型服务,并将进入通用可用阶段。[9]

TPU 的特点是硬件和 Google 软件栈深度绑定,例如 XLA、JAX、TensorFlow、Google Cloud AI Hypercomputer 等。它的优势可能出现在 Google 自身和深度使用 Google Cloud 的企业场景中。

6.4 AWS Trainium:云厂商自研芯片路线

AWS Trainium 是云厂商自研 AI 芯片路线的代表。AWS 官方资料显示,Trainium3 每芯片配备 144GB HBM3e、4.9TB/s 带宽,并支持硬件加速 W4A8 量化;Trainium3 UltraServer 可扩展到 144 个 Trainium3 芯片,用于大模型训练和规模化推理。[10][11]

云厂商自研芯片的目的不是单纯“跑赢 NVIDIA”,而是降低云服务商自己的成本、改善供应链弹性,并把芯片、网络、虚拟化、计费和云产品绑定成整体。

6.5 华为 Ascend:国内算力替代和软硬件协同

在中国市场,华为 Ascend 是重要的国产 AI 算力路线。Reuters 2025 年报道称,华为准备批量出货 Ascend 910C,并称该芯片由两个 910B 处理器组合而成。[12] Reuters 2026 年关于智谱 / Z.ai 的报道也提到,GLM-5/GLM-5.2 等中国模型正在针对国产芯片基础设施进行优化。[13]

这类路线的关键不只是芯片,还包括 CANN、MindSpore、算子库、通信库、模型适配和工程稳定性。国内 AI 厂商如果能把模型结构、推理引擎和国产 NPU 特性深度配合,就可能在特定场景中获得不错的成本和供应链优势。


7. 我们平时用的生成式 AI 服务来源有什么不同?

7.1 模型厂商自营服务

代表:OpenAI、Anthropic Claude、Google Gemini、智谱 / Z.ai、DeepSeek、月之暗面、MiniMax 等。

这类服务的特点是:

维度说明
模型控制权通常最高,模型由自己训练或深度控制
能力更新新模型、新上下文、新工具能力通常最先出现在自家平台
推理优化能针对自家模型做深度优化
产品体验ChatGPT、Claude、GLM Chat、Gemini 等体验完整
缺点可能价格较高、接口风格不同、数据和合规要看厂商政策

例如 OpenAI 官方模型文档列出 GPT-5.5 作为前沿模型,提供 1,050,000 token context window 和 128,000 max output tokens 等规格。[14] Anthropic 也在 Claude API 文档中维护 Claude 模型家族和版本说明。[15]

对于用户来说,模型厂商自营服务通常意味着:

能力强、更新快、省心,但更依赖单一厂商。

7.2 第三方模型路由 / 聚合平台

代表:OpenRouter、LiteLLM 网关、一些企业内部模型网关。

OpenRouter 官方文档称,它通过一个统一 API 访问数百个 AI 模型,并可以自动处理 fallback 和选择更具成本效益的选项。[16] 它也说明不同上游提供商有不同日志和数据保留策略,用户可以配置是否允许路由到可能训练数据的提供商,以及使用 Zero Data Retention 约束。[17][18]

这类平台的价值是:

优点说明
一个 API 接多个模型不用分别接 OpenAI、Anthropic、Google、Meta、DeepSeek 等
方便比较价格和能力同一应用可以切换模型
fallback某个供应商限流或故障时可以换路由
成本控制可以按价格、速度、上下文选择模型
多模型路由根据任务选择更合适的模型

但它也多了一层中间环节:

风险 / 代价说明
隐私链路更复杂数据经过聚合平台,再到上游模型提供商
行为差异同一个模型经不同 provider 可能限流、参数、上下文支持不同
故障归因复杂出错时要判断是应用、OpenRouter、上游 provider 还是模型问题
高级特性未必完整某些原厂工具能力、状态化 API、多模态细节可能不完全一致

适合场景:开发者试模型、AI 编程工具、希望多供应商 fallback 的应用、对成本敏感但能接受中间层的团队。

7.3 云厂商模型平台 / MaaS

代表:阿里云百炼 / Model Studio、腾讯云 TokenHub、火山方舟、AWS Bedrock、Google Vertex AI、Azure AI Foundry 等。

这类平台的核心不是“只训练模型”,而是把模型部署、API、权限、计费、日志、企业网络和云上工具整合起来。

阿里云 Model Studio 官方文档说明其提供 Qwen 和第三方模型,覆盖文本、图像、音频和视频等类型。[19] 腾讯云 TokenHub 文档说明其大型模型服务平台支持 API 调用,服务条款中也提到 AI 模型访问按 token 消耗计量和收费。[20][21]

云厂商平台的强项:

强项说明
云资源GPU/NPU、存储、网络、负载均衡、弹性伸缩
企业账号体系IAM/RAM、组织、权限、审计
数据集成云数据库、对象存储、日志、向量库、搜索、数据湖
合规和地域VPC、私网访问、地域部署、行业合规
模型市场自家模型 + 第三方模型 + 开源模型
私有化能力专属实例、专有云、混合云部署

和模型厂商自营服务相比,云厂商的不同在于:

模型厂商强在模型本体和训练能力;
云厂商强在基础设施、企业集成和规模化运维。

如果云厂商托管的是第三方模型,比如 GLM、DeepSeek、Llama、Mistral,它主要提供的是“在自己云设施上的推理服务”。如果云厂商也有自研模型,比如阿里 Qwen、腾讯混元,那么它同时是模型厂商和云服务商。

7.4 本地自建服务:Ollama、llama.cpp、LM Studio

Ollama、llama.cpp、LM Studio 这类工具让用户把模型权重下载到本地电脑或服务器上运行。

Ollama 官方文档显示,它提供本地 API,并支持 OpenAI Responses API 的非状态化兼容能力;Ollama 隐私页面也明确说本地运行时 Ollama 看不到你的 prompts 或数据。[22][23]

本地推理大致是:

你的应用 / 命令行 / 本地网页 UI

Ollama / llama.cpp / LM Studio

本地模型文件

你的 CPU / GPU / Apple Silicon / NPU

本机生成结果

优点:

优点说明
隐私更可控不主动上传 prompt 和文档
可离线下载模型后弱网或断网也能用
无按 token 计费边际成本主要是电费和硬件折旧
可折腾可换模型、量化、系统提示词、本地 RAG
适合私有资料笔记、代码、企业内部文档、个人文件

缺点:

缺点说明
能力受限本地能跑的模型通常小于云端前沿模型
速度受硬件影响没有好显卡或统一内存,体验会明显下降
长上下文困难KV cache 会吃大量内存 / 显存
工具生态要自己搭搜索、RAG、Agent、权限、日志都要自己配置
安全仍要管理本地服务暴露公网、恶意模型文件、插件上传数据都可能有风险

GGUF 是本地推理常见模型格式之一。Hugging Face 文档说明 GGUF 针对快速加载和保存进行了优化,用于 GGML 及相关执行器,并由 llama.cpp 作者开发。[24]

7.5 AI Agent 平台和代码助手

AI Agent 平台不是单纯卖“一个模型”,而是把模型调用变成可执行任务的系统。它通常包含:

组成作用
模型接口负责理解目标、生成计划、判断下一步动作
工具注册表告诉模型可以调用哪些工具,以及每个工具需要什么参数
状态和记忆保存任务进度、用户偏好、历史结果、长期知识
权限系统限制 Agent 能读什么、写什么、调用什么、是否能联网
执行环境浏览器、代码沙箱、终端、数据库连接、企业 API、办公系统等
审计和回放记录 Agent 做过什么,便于排错、合规和评测
人工确认对发邮件、删文件、付款、改生产数据等动作设置确认点

代码 Agent 是最容易理解的例子。它不只是回答“这段代码怎么写”,而是可能读取仓库、搜索引用、修改文件、运行测试、分析报错、继续修复,再把结果交给人确认。企业流程 Agent 也是类似逻辑:它可能读取工单、查数据库、调用内部系统、生成处理建议,必要时再交给人工审批。

这类系统对模型能力有要求,但更依赖工程边界:

模型能力决定上限;
工具和数据决定能做什么;
权限和审计决定能不能上线;
评测和回放决定能不能持续改进。

如果没有清晰的工具边界和权限设计,Agent 很容易从“自动化助手”变成“不可控脚本”。如果没有评测和日志,也很难判断它到底是在稳定完成任务,还是偶尔碰巧成功。

7.6 多模态和生成媒体工具

多模态和生成媒体工具更像是“模型能力 + 产品工作流”的组合。用户看到的是读图、语音对话、文生图、图生视频、视频剪辑、数字人、配音、口型同步;底层仍然是模型训练和在线推理。

常见形态可以这样看:

工具类型用户看到的能力底层更接近什么
读图 / 读 PDF / 看截图上传图片或文件,让模型解释、提取、比较视觉编码 + LLM / 多模态模型
实时语音对话直接说话,AI 用语音回答ASR + LLM + TTS,或原生语音多模态模型
文生图 / 图像编辑根据提示词生成或修改图片图像生成模型 + 文本理解
文生视频 / 图生视频生成短视频、镜头运动、人物动作视频生成模型 + 文本/图像条件控制
数字人 / 口型同步让头像说话、配音、表情同步音频、视频、人脸和动作生成模型组合

因此,选择这类产品时除了看“模型名”,还要看分辨率、时长、延迟、队列、版权政策、商用许可、水印、隐私、素材上传限制和失败重试成本。


8. 为什么同一个模型,在不同平台体验不同?

你可能会遇到这种情况:同样叫“Claude”“GLM”“DeepSeek”或“Qwen”,在不同平台上速度、价格、上下文、输出风格甚至是否支持工具调用都不一样。

原因通常包括:

  1. 版本不同:同名模型可能有不同日期版本、快慢版本、推理版、思考版。
  2. 量化不同:本地模型可能是 4bit / 5bit / 8bit 量化,云端可能使用 FP8 / FP4 / INT8 或自研格式。
  3. 推理引擎不同:vLLM、TensorRT-LLM、SGLang、TGI、Ollama、llama.cpp 的性能和功能不同。
  4. 上下文限制不同:平台可能限制最大输入、输出或消息数量。
  5. 系统提示词不同:平台可能加入自己的安全、风格和工具提示词。
  6. 工具能力不同:原厂可能支持网页搜索、文件搜索、计算机使用;第三方网关未必完整支持。
  7. 硬件不同:同一模型跑在 H100、B200、MI355X、TPU、Ascend 或普通 PC 上体验会不同。
  8. 并发和限流不同:高峰期速度和稳定性会受平台资源影响。
  9. Agent 编排不同:不同平台的工具协议、记忆策略、计划循环、沙箱权限和人工确认机制不同。
  10. 多模态实现不同:读图、语音、视频生成可能使用不同模型链路,延迟、质量、成本和可控性差异很大。

所以,选择生成式 AI 服务时不能只看模型名字,还要看:

模型版本 + provider + 推理平台 + 上下文限制 + 多模态能力 + 工具能力 + Agent 编排 + 价格 + 数据政策

9. 常见误区

误区 1:我用 ChatGPT,就是在训练 ChatGPT

多数日常使用不是训练,而是推理。你输入的问题通常是作为一次请求被模型处理,不会立刻改变模型参数。

不过,服务商是否把用户数据用于未来模型改进,要看具体产品和隐私设置。OpenAI 官方说明,API 和商业产品默认不使用业务数据训练模型,除非用户明确选择加入数据共享。[25][26]

误区 2:本地模型一定安全

本地模型的隐私上限更高,但不是自动安全。

需要注意:

  • 是否安装了会联网的插件;
  • Ollama 或本地服务是否暴露到局域网 / 公网;
  • 模型文件来源是否可靠;
  • 本地日志、历史记录、缓存是否保存敏感内容;
  • 本地电脑本身是否安全。

误区 3:开源模型一定弱

不准确。开源和开放权重模型在代码、数学、中文、长上下文、Agent 等方向进步很快。智谱 / Z.ai 的 GLM-5 和 GLM-5.2、DeepSeek、Qwen 等模型都推动了开源或开放模型竞争。Reuters 2026 年报道提到 GLM-5.2 在编码和 Agent 任务上接近顶级闭源模型,并具有 1M token 上下文窗口;但这类第三方报道和厂商 benchmark 仍应结合实际任务测试来看。[13]

更准确的说法是:

开源模型的控制权和可部署性更强;
顶级闭源模型通常仍在综合能力、工具生态和产品体验上领先。

误区 4:云厂商提供模型服务,就一定自己训练了模型

不一定。

云厂商可能有自研模型,也可能只是托管第三方模型,还可能二者都有。例如阿里云既有 Qwen / 通义千问,也在 Model Studio 中提供第三方模型。[19]

误区 5:只要显卡显存够,就能获得好体验

显存够只是第一步。还要看:

  • 推理引擎是否优化;
  • 模型是否适配该硬件;
  • 是否支持高效 attention kernel;
  • 是否支持量化和 KV cache 管理;
  • CPU、内存、磁盘和系统调度是否拖后腿;
  • 多卡互联是否足够快。

误区 6:AI Agent 就是更强的聊天机器人

不准确。

Agent 的核心是“围绕目标持续行动”。它通常需要计划、工具、状态、权限、记忆、错误处理和人工确认。强模型能提高 Agent 的理解和规划能力,但不能自动解决工具权限、数据边界、执行风险和结果验证问题。

更准确的说法是:

聊天机器人主要生成回答;
Agent 试图推进任务;
生产级 Agent 是模型能力 + 工具系统 + 权限治理 + 评测闭环。

误区 7:多模态、语音和视频生成不属于训练/推理框架

不准确。

它们仍然是先训练模型,再在用户使用时推理。区别在于输入输出从文字扩展到了图片、语音、视频等模态,服务链路也可能多出编码器、解码器、扩散模型、语音合成、视频生成、内容审核和素材存储等环节。

更准确的说法是:

文本服务:主要生成文字 token;
多模态理解:把图片/音频/视频变成模型可处理的表示,再推理;
生成媒体:根据条件生成图片、音频或视频内容。

10. 如何选择日常生成式 AI 服务?

10.1 普通用户

需求建议
日常问答、写作、翻译、复杂分析用 OpenAI、Claude、Gemini、GLM 等成熟云端产品
代码助手、复杂项目分析优先选强模型云端服务,再考虑本地辅助
读图、读 PDF、语音聊天选多模态和语音体验成熟的官方产品或平台
文生图、图生视频、短视频生成重点看质量、速度、素材政策、商用许可和价格
私密文件、个人笔记、离线使用Ollama / LM Studio / 本地 RAG 更合适
想尝试很多模型OpenRouter 或类似聚合平台方便
自动整理资料、处理重复任务选择有工具调用、文件读写和确认机制的 Agent 产品
不想折腾直接用官方 Chat 产品

10.2 开发者

需求建议
快速接强模型直接接 OpenAI / Anthropic / Gemini / 智谱 / DeepSeek 等 API
多模型 fallbackOpenRouter / LiteLLM / 自建网关
控制成本小模型 + 路由 + 缓存 + 批处理 + 本地推理组合
私有知识库RAG:向量库 + embedding + rerank + LLM
多模态应用明确输入输出模态、文件大小、延迟、存储和审核要求
Agent 应用先定义工具、权限、状态和评测,再选择模型
本地开发测试Ollama / llama.cpp / vLLM 单机部署
生产高并发vLLM / SGLang / TensorRT-LLM + GPU 云或私有集群

10.3 企业

需求建议
快速上线云厂商 MaaS 或模型厂商企业版
数据合规企业版 API、ZDR、私有网络、专属实例或私有化部署
成本优化多模型路由、缓存、评测、分层模型策略
关键业务不只看模型能力,还要看 SLA、审计、权限、可观测性和灾备
内部敏感数据本地 / 私有云 / VPC 部署,配合权限和日志治理
多模态内容生产关注素材版权、商用授权、内容审核、资产管理和生成成本
业务流程 Agent从低风险只读场景开始,逐步加入写操作、审批和回滚机制

11. 一个比较稳妥的混合架构

很多实际系统不会只选一种方式,而会混合使用:

普通问答 / 复杂推理 / 多模态
→ 云端强模型

图片、语音、视频生成
→ 专门的多模态 / 生成媒体模型和素材处理管线

私密文档初筛 / 本地笔记 / 内部代码库检索
→ 本地模型或私有部署

模型选择、成本控制、故障切换
→ OpenRouter / LiteLLM / 企业模型网关

企业数据、权限、审计、向量库、对象存储
→ 阿里云、腾讯云、AWS、Azure、Google Cloud 等云平台

高并发推理
→ vLLM / SGLang / TensorRT-LLM + GPU/NPU 集群

Agent 任务编排
→ 工具注册表 + 权限系统 + 状态存储 + 沙箱 + 人工确认 + 审计日志

这类架构的核心思想是:

不要用最贵、最强的模型处理所有问题;也不要为了隐私把所有任务都硬塞到本地小模型。应该按任务风险、难度、成本和延迟选择合适的模型与部署方式。

如果要加入 Agent,还要多问一个问题:

这件事是否适合自动执行?如果执行错了,是否能发现、阻止、回滚或让人接管?


12. 简明术语表

术语简单解释
LLMLarge Language Model,大语言模型
Token模型处理文本的基本单位,可能是字、词或词片段
参数模型内部学到的权重,决定模型行为
权重参数文件,开源模型通常会发布权重
训练更新模型参数,让模型学会能力
推理使用已有参数生成答案
预训练用海量数据学习基础能力
后训练让模型更会听指令、更安全、更适合产品使用
微调用特定数据继续训练,适配某个场景
RAG检索增强生成,先查资料再让模型回答
多模态模型能处理文字以外的图片、语音、视频等输入或输出的模型
VLMVision-Language Model,视觉语言模型,常用于读图和图文理解
ASRAutomatic Speech Recognition,语音识别,把语音转成文字
TTSText To Speech,语音合成,把文字转成语音
视频生成模型根据文字、图片、音频或视频条件生成视频内容的模型
AI Agent围绕目标持续规划、调用工具、更新状态并推进任务的 AI 应用形态
Tool calling模型按结构化参数请求系统调用外部工具
工具注册表记录 Agent 可用工具、参数、权限和说明的配置
状态 / 记忆Agent 为完成任务保存的短期进度、长期偏好或历史信息
Sandbox沙箱,限制代码、浏览器或文件操作的隔离环境
Human-in-the-loop人在关键步骤中确认、审批或接管
Embedding把文本变成向量,用于相似度检索
KV cache缓存前文注意力结果,加速生成,但占显存
Prefill处理输入上下文阶段
Decode逐 token 生成输出阶段
量化用更低精度表示模型,降低显存和成本
FP16 / BF16常见训练和推理精度
FP8 / FP4新一代低精度 AI 计算格式,常用于降低训练/推理成本
INT8 / INT4整数量化格式,常见于推理部署
HBM高带宽显存,AI 芯片关键资源
TTFT首 token 延迟
TPS每秒生成 token 数
vLLM高吞吐 LLM 推理服务框架
TensorRT-LLMNVIDIA 推理优化框架
SGLang高性能 LLM serving 框架
Ollama本地运行开源模型的工具和本地 API 服务
OpenRouter多模型聚合和路由 API 平台
MaaSModel as a Service,模型即服务

13. 最后总结

理解日常生成式 AI / 大模型服务,最重要的是把三件事分开:

模型是谁训练的?
模型在哪里推理?
用户通过什么服务入口调用?
如果是多模态,它处理哪些输入输出?
如果是 Agent,谁负责工具、状态、权限和人工确认?

OpenAI、Claude、GLM、DeepSeek、Qwen 等代表模型和模型厂商;阿里云百炼、腾讯云 TokenHub、AWS Bedrock、OpenRouter 等代表不同形态的模型服务入口;Ollama、llama.cpp、LM Studio 则让普通用户能在本地运行开放模型。

AI Agent 则是在这些能力之上增加任务编排:它把一次次模型推理、工具调用、状态更新和人工确认串起来,让 AI 从“回答问题”进一步走向“协助完成任务”。

多模态、语音对话和视频生成工具也可以放进同一套框架里理解:它们不是训练和推理之外的新阶段,而是把模型的输入输出从文字扩展到图片、语音、视频和音频。Seedance、Sora、Veo、Runway 这类视频生成产品,用户看到的是生成视频,底层仍然是模型权重、条件输入、推理调度和媒体生成管线。

训练和推理都依赖先进芯片,但要求不同。训练更看重大规模集群、显存容量、互联、稳定性和训练软件栈;推理更看重显存带宽、KV cache、低延迟、高并发、低精度计算、调度系统和服务成本。

截至 2026 年中,AI 硬件竞争已经进入“整柜级 AI 工厂”阶段。NVIDIA 仍凭 Blackwell、Rubin、NVLink 和 CUDA 生态占据强势位置;AMD 以 Instinct 和 ROCm 追赶;Google TPU、AWS Trainium、华为 Ascend 等自研芯片路线则体现了云厂商和国家级算力体系对成本、供应链和生态控制的追求。

对普通用户和开发者来说,最实用的判断不是“本地还是云端”“开源还是闭源”,而是:

这项任务需要多强能力?数据有多敏感?可接受多少成本?是否需要联网工具?是否要求稳定高并发?

如果是 Agent 场景,还要继续问:

它能调用哪些工具?能操作哪些数据?失败后谁负责确认和回滚?日志是否足够追溯?

如果是多模态或生成媒体场景,还要继续问:

输入输出是什么模态?生成质量和延迟是否能接受?素材版权和隐私怎么处理?失败重试和商用成本怎么算?

按这些问题来选模型和服务,才是真正可落地的 AI 使用方式。


参考资料

[1] NVIDIA Developer Blog, Mastering LLM Techniques: Inference Optimization, https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/
[2] vLLM Documentation, https://docs.vllm.ai/
[3] SGLang Documentation / GitHub, https://docs.sglang.ai/ and https://github.com/sgl-project/sglang
[4] NVIDIA GB200 NVL72, https://www.nvidia.com/en-sg/data-center/gb200-nvl72/
[5] NVIDIA Vera Rubin Platform, https://www.nvidia.com/en-sg/data-center/technologies/rubin/
[6] AMD Instinct MI350 Series and Beyond, https://www.amd.com/en/blogs/2025/amd-instinct-mi350-series-and-beyond-accelerating-the-future-of-ai-and-hpc.html
[7] AMD Instinct MI355X GPU specifications, https://www.amd.com/en/products/accelerators/instinct/mi350/mi355x.html
[8] Google Blog, Ironwood: The first Google TPU for the age of inference, https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/ironwood-tpu-age-of-inference/
[9] Google Cloud Blog, Ironwood TPUs and new Axion-based VMs for your AI workloads, https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads
[10] AWS Trainium, https://aws.amazon.com/ai/machine-learning/trainium/
[11] Amazon News, Trainium3 UltraServer delivers faster AI training at lower cost, https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost
[12] Reuters, Huawei readies new AI chip for mass shipment as China seeks Nvidia alternatives, https://www.reuters.com/world/china/huawei-readies-new-ai-chip-mass-shipment-china-seeks-nvidia-alternatives-sources-2025-04-21/
[13] Reuters, After Anthropic shutdown, China's Z.ai closes frontier gap as it plans dual listing, https://www.reuters.com/world/asia-pacific/after-anthropic-shutdown-chinas-zai-closes-frontier-gap-it-plans-dual-listing-2026-06-25/
[14] OpenAI API Docs, GPT-5.5 model, https://developers.openai.com/api/docs/models/gpt-5.5
[15] Anthropic Claude API Docs, Models overview, https://platform.claude.com/docs/en/about-claude/models/overview
[16] OpenRouter Quickstart, https://openrouter.ai/docs/quickstart
[17] OpenRouter Provider Logging, https://openrouter.ai/docs/guides/privacy/provider-logging
[18] OpenRouter Zero Data Retention, https://openrouter.ai/docs/guides/features/zdr
[19] Alibaba Cloud Model Studio recommended models, https://www.alibabacloud.com/help/en/model-studio/models
[20] Tencent Cloud TokenHub Quick Start, https://www.tencentcloud.com/document/product/1300/78939
[21] Tencent Cloud LLM Service TokenHub Terms of Service, https://intl.cloud.tencent.com/document/product/301/78869
[22] Ollama OpenAI compatibility, https://docs.ollama.com/api/openai-compatibility
[23] Ollama Privacy, https://ollama.com/privacy
[24] Hugging Face GGUF documentation, https://huggingface.co/docs/hub/en/gguf
[25] OpenAI Enterprise Privacy, https://openai.com/enterprise-privacy/
[26] OpenAI, How your data is used to improve model performance, https://openai.com/policies/how-your-data-is-used-to-improve-model-performance/