~/VibeHandbook
$39

Cloudflare

developers.cloudflare.com

Workers AI

概要

Workers AI は機械学習モデルを Cloudflare 自身の GPU 上で実行し、単一の AI バインディングを通じて Worker から利用できるようにします。入力とともに env.AI.run("@cf/...model") を呼び出すと結果が返ってきます。別途の推論サーバーも、サードパーティへの API キーも、プロビジョニングする GPU も不要です。カタログにはテキスト生成、埋め込み、画像生成、音声、翻訳まで幅広く揃っています。

強み

  • バインディングが 1 つだけ。外部 API キーも別途の推論インフラも不要。
  • Cloudflare の GPU ネットワーク上で実行され、Worker やユーザーの近くで動く。
  • 幅広いモデルカタログ: LLM、埋め込み、画像、音声などをカバー。
  • 従量課金制で、無料枠があるためプロトタイピングが安く済む。
  • 検索拡張生成(RAG)のために Vectorize と自然に連携する。

トレードオフ

  • モデルの選択肢は Cloudflare のカタログに限られ、市場のあらゆるモデルが揃っているわけではありません。
  • 最大級のフロンティアモデルは利用できないことがあり、品質はモデルによって異なります。
  • 推論レイテンシやレート制限が、特に大きなモデルで適用されます。
  • 特定の独自モデルを使いたい場合は、結局そのプロバイダーの API を呼ぶことになります。

使いどころ

エッジロジックと同じ場所に配置したいアプリ内推論に Workers AI を使いましょう。チャット機能、要約、分類、検索用の埋め込み、画像生成などを、自前の GPU スタックを運用せずに実現できます。

バイブコーディングとの相性

Workers AI は、エージェントが本来スクリプト化しなければならない設定の大部分を取り除きます。キー管理もプロバイダー SDK も不要で、バインディングと run 呼び出しだけで済みます。どのタスクとモデルを使いたいか(例: Vectorize に渡すための埋め込みモデル)をエージェントに伝えれば、カタログから正しく選んでくれます。次の例では AI をバインドしてテキストモデルを実行しています。

# wrangler.toml
[ai]
binding = "AI"
// Worker の内部
const out = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
  prompt: "Summarize this in one sentence: ...",
});