Workers AI

是什么

把它想象成一台 AI 自动售货机：你投入一个请求，一个训练好的模型就把结果递回给你，而你自己什么机器都不用搭建。Workers AI 在 Cloudflare 自有的 GPU（图形处理器——驱动 AI 的专用芯片）上运行机器学习模型，你的 Worker 可通过单个 AI 绑定（一个现成的连接）使用它。你用输入调用 env.AI.run("@cf/...model") 即可得到结果——无需单独的推理服务器（无需额外的机器来运行模型），无需第三方的 key（外部服务的密码），也无需自行搭建 GPU。其模型目录涵盖文本生成、embedding、图像生成、语音和翻译。

优势

仅需一个绑定——无需外部 API key 或单独的推理基础设施。
运行在 Cloudflare 的 GPU 网络上，靠近你的 Worker 和你的用户。
模型目录丰富：LLM（大型语言模型——聊天和文本背后的 AI）、embedding、图像、音频等。
按使用量付费；免费额度让原型开发成本低廉。
与 Vectorize 天然契合，可用于 RAG（检索增强生成——给 AI 提供它可以引用的相关事实）。

取舍

模型选择仅限于 Cloudflare 的目录，并非市面上所有模型。
最大的前沿模型可能不可用；不同模型的质量参差不齐。
存在推理延迟和速率限制，在较大模型上尤为明显。
若要使用特定的专有模型，你仍需调用该提供方的 API。

何时使用

将 Workers AI 用于应用内推理，当你希望它与边缘逻辑共置时：聊天功能、摘要、分类、用于搜索的 embedding，或图像生成——而无需运行自己的 GPU 栈。

与 vibe coding 的契合度

Workers AI 省去了 agent 原本需要脚本化的大部分配置：无需密钥管理，无需提供方 SDK（软件开发工具包——现成的代码库），只需一个绑定和一次 run 调用。告诉 agent 你想要的任务和模型（例如用于喂给 Vectorize 的 embedding 模型），它才能从目录中正确选择。下面的示例绑定 AI 并运行一个文本模型。

# wrangler.toml
[ai]
binding = "AI"

// 在你的 Worker 内部
const out = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
  prompt: "Summarize this in one sentence: ...",
});