Workers AI
是什么
Workers AI 在 Cloudflare 自有的 GPU 上运行机器学习模型,你的 Worker 可通过单个 AI 绑定使用它。你用输入调用 env.AI.run("@cf/...model") 即可得到结果——无需单独的推理服务器,无需第三方的 API key,也无需预置 GPU。其模型目录涵盖文本生成、embedding、图像生成、语音和翻译。
优势
- 仅需一个绑定——无需外部 API key 或单独的推理基础设施。
- 运行在 Cloudflare 的 GPU 网络上,靠近你的 Worker 和你的用户。
- 模型目录丰富:LLM、embedding、图像、音频等。
- 按使用量付费;免费额度让原型开发成本低廉。
- 与 Vectorize 天然契合,可用于检索增强生成。
取舍
- 模型选择仅限于 Cloudflare 的目录,并非市面上所有模型。
- 最大的前沿模型可能不可用;不同模型的质量参差不齐。
- 存在推理延迟和速率限制,在较大模型上尤为明显。
- 若要使用特定的专有模型,你仍需调用该提供方的 API。
何时使用
将 Workers AI 用于应用内推理,当你希望它与边缘逻辑共置时:聊天功能、摘要、分类、用于搜索的 embedding,或图像生成——而无需运行自己的 GPU 栈。
与 vibe coding 的契合度
Workers AI 省去了 agent 原本需要脚本化的大部分配置:无需密钥管理,无需提供方 SDK,只需一个绑定和一次 run 调用。告诉 agent 你想要的任务和模型(例如用于喂给 Vectorize 的 embedding 模型),它才能从目录中正确选择。下面的示例绑定 AI 并运行一个文本模型。
# wrangler.toml
[ai]
binding = "AI"
// 在你的 Worker 内部
const out = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
prompt: "Summarize this in one sentence: ...",
});