LLM 路由

LLM 路由 可以理解为：系统在收到请求后，决定这次该交给哪个模型来处理。

它解决的不是“模型怎么回答”，而是“这次应该用哪一个模型最合适”。

为什么需要路由

如果系统里只有一个模型，就谈不上路由。
但一旦你同时有多个模型，问题就来了：

哪个模型质量更高
哪个模型更便宜
哪个模型响应更快
哪个模型支持图片、语音或工具调用
某个模型失败时该切到谁

所以，LLM 路由本质上是在做一个平衡：

在质量、成本、速度和能力之间，为这次请求选一个最合适的模型。

常见的路由依据

1. 按能力路由

不同模型擅长的事情不一样。

例如：

文本总结用一个便宜的模型
复杂推理用更强的模型
多模态任务交给支持图像输入的模型
工具调用任务交给函数调用能力更稳定的模型

2. 按成本路由

不是所有请求都值得用最贵的模型。

例如：

简单分类、改写、提取任务走低成本模型
高价值、高风险任务再走高性能模型

3. 按延迟路由

有些场景对速度更敏感，例如实时交互、客服、语音助手。

这时即使某个模型更强，也不一定适合。

4. 按可用性路由

如果某个模型超时、限流、报错，系统需要自动切换到备用模型。

这时候路由不只是“选最好”，也是“保证系统不断”。

一个直观例子

假设你做一个 AI 助手，支持三类任务：

普通问答
复杂分析
图片理解

系统可能这样路由：

普通问答 -> 便宜且快的文本模型
复杂分析 -> 推理能力更强的模型
图片理解 -> 支持视觉输入的多模态模型

如果“复杂分析”那个模型刚好超时，系统再自动切换到备用模型。

这里的关键不是模型本身，而是：

系统在请求进入时，先判断任务类型，再决定把请求送去哪里。

LLM 路由不只是“选模型名”

很多人第一次听到 LLM 路由，会以为只是：

如果任务 A，就调用模型 X
如果任务 B，就调用模型 Y

但在实际系统里，路由往往还会结合：

流量控制
A/B 测试
回退策略
限流与熔断
成本预算
用户等级或场景策略

所以它更像一个策略层，而不只是简单映射表。

和相关概念的区别

和 Agent 的区别

Agent 关注的是：

任务怎么推进
工具怎么调用
中间状态怎么处理

LLM 路由只关注：

这一步应该交给哪个模型

所以可以粗略理解为：

Agent 是任务执行系统
LLM 路由是模型选择机制

和代理编排（Outer Loop）的区别

代理编排（Outer Loop）：关注整个任务流程怎么走
LLM 路由：关注某一步该调用哪个模型

一句话说：

Outer Loop 是任务层调度
LLM 路由 是模型层调度

和 AI原生代理数据平面的关系

AI原生代理数据平面 更像承接这些能力的基础设施层。
而 LLM 路由 是这个基础设施层里的一个关键能力模块。

什么时候需要认真做 LLM 路由

下面这些情况，通常说明系统已经不能只靠“写死模型名”了：

同时接入多个模型提供方
明显要控制推理成本
有高峰期可用性压力
不同任务类型对能力要求差异很大
需要做回退、实验或策略切换

如何记忆

记住一句话：

LLM 路由不负责回答问题，它负责决定谁来回答。

如果再压缩一点：

任务层看编排，模型层看路由。