LLM 路由
LLM 路由 可以理解为:系统在收到请求后,决定这次该交给哪个模型来处理。
它解决的不是“模型怎么回答”,而是“这次应该用哪一个模型最合适”。
为什么需要路由
如果系统里只有一个模型,就谈不上路由。
但一旦你同时有多个模型,问题就来了:
- 哪个模型质量更高
- 哪个模型更便宜
- 哪个模型响应更快
- 哪个模型支持图片、语音或工具调用
- 某个模型失败时该切到谁
所以,LLM 路由本质上是在做一个平衡:
在质量、成本、速度和能力之间,为这次请求选一个最合适的模型。
常见的路由依据
1. 按能力路由
不同模型擅长的事情不一样。
例如:
- 文本总结用一个便宜的模型
- 复杂推理用更强的模型
- 多模态任务交给支持图像输入的模型
- 工具调用任务交给函数调用能力更稳定的模型
2. 按成本路由
不是所有请求都值得用最贵的模型。
例如:
- 简单分类、改写、提取任务走低成本模型
- 高价值、高风险任务再走高性能模型
3. 按延迟路由
有些场景对速度更敏感,例如实时交互、客服、语音助手。
这时即使某个模型更强,也不一定适合。
4. 按可用性路由
如果某个模型超时、限流、报错,系统需要自动切换到备用模型。
这时候路由不只是“选最好”,也是“保证系统不断”。
一个直观例子
假设你做一个 AI 助手,支持三类任务:
普通问答复杂分析图片理解
系统可能这样路由:
- 普通问答 -> 便宜且快的文本模型
- 复杂分析 -> 推理能力更强的模型
- 图片理解 -> 支持视觉输入的多模态模型
如果“复杂分析”那个模型刚好超时,系统再自动切换到备用模型。
这里的关键不是模型本身,而是:
系统在请求进入时,先判断任务类型,再决定把请求送去哪里。
LLM 路由不只是“选模型名”
很多人第一次听到 LLM 路由,会以为只是:
- 如果任务 A,就调用模型 X
- 如果任务 B,就调用模型 Y
但在实际系统里,路由往往还会结合:
- 流量控制
- A/B 测试
- 回退策略
- 限流与熔断
- 成本预算
- 用户等级或场景策略
所以它更像一个策略层,而不只是简单映射表。
和相关概念的区别
和 Agent 的区别
Agent 关注的是:
- 任务怎么推进
- 工具怎么调用
- 中间状态怎么处理
LLM 路由只关注:
- 这一步应该交给哪个模型
所以可以粗略理解为:
- Agent 是任务执行系统
- LLM 路由是模型选择机制
和 代理编排(Outer Loop) 的区别
- 代理编排(Outer Loop):关注整个任务流程怎么走
LLM 路由:关注某一步该调用哪个模型
一句话说:
Outer Loop是任务层调度LLM 路由是模型层调度
和 AI原生代理数据平面 的关系
AI原生代理数据平面 更像承接这些能力的基础设施层。
而 LLM 路由 是这个基础设施层里的一个关键能力模块。
什么时候需要认真做 LLM 路由
下面这些情况,通常说明系统已经不能只靠“写死模型名”了:
- 同时接入多个模型提供方
- 明显要控制推理成本
- 有高峰期可用性压力
- 不同任务类型对能力要求差异很大
- 需要做回退、实验或策略切换
如何记忆
记住一句话:
LLM 路由不负责回答问题,它负责决定谁来回答。
如果再压缩一点:
任务层看编排,模型层看路由。