Workers AI

概要

AI の自動販売機だと考えてください。リクエストを入れると、学習済みのモデルが結果を返してくれて、自分で用意する機械は一切ありません。Workers AI は機械学習モデルを Cloudflare 自身の GPU(グラフィックス・プロセッシング・ユニット——AI を動かす専用チップ)上で実行し、単一の AI バインディング(用意済みの接続)を通じて Worker から利用できるようにします。入力とともに env.AI.run("@cf/...model") を呼び出すと結果が返ってきます。別途の推論サーバー(モデルを動かす別の機械)も、サードパーティへのキー(外部サービス用の秘密のパスワード)も、用意する GPU も不要です。カタログにはテキスト生成、埋め込み、画像生成、音声、翻訳まで幅広く揃っています。

強み

バインディングが 1 つだけ。外部 API キーも別途の推論インフラも不要。
Cloudflare の GPU ネットワーク上で実行され、Worker やユーザーの近くで動く。
幅広いモデルカタログ: LLM(ラージ・ランゲージ・モデル——チャットや文章の背後にある AI)、埋め込み、画像、音声などをカバー。
従量課金制で、無料枠があるためプロトタイピングが安く済む。
RAG(検索拡張生成——AI に引用できる関連事実を渡してあげる仕組み)のために Vectorize と自然に連携する。

トレードオフ

モデルの選択肢は Cloudflare のカタログに限られ、市場のあらゆるモデルが揃っているわけではありません。
最大級のフロンティアモデルは利用できないことがあり、品質はモデルによって異なります。
推論レイテンシやレート制限が、特に大きなモデルで適用されます。
特定の独自モデルを使いたい場合は、結局そのプロバイダーの API を呼ぶことになります。

使いどころ

エッジロジックと同じ場所に配置したいアプリ内推論に Workers AI を使いましょう。チャット機能、要約、分類、検索用の埋め込み、画像生成などを、自前の GPU スタックを運用せずに実現できます。

バイブコーディングとの相性

Workers AI は、エージェントが本来スクリプト化しなければならない設定の大部分を取り除きます。キー管理もプロバイダー SDK(ソフトウェア・ディベロップメント・キット——用意済みのコードライブラリ)も不要で、バインディングと run 呼び出しだけで済みます。どのタスクとモデルを使いたいか（例: Vectorize に渡すための埋め込みモデル）をエージェントに伝えれば、カタログから正しく選んでくれます。次の例では AI をバインドしてテキストモデルを実行しています。

# wrangler.toml
[ai]
binding = "AI"

// Worker の内部
const out = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
  prompt: "Summarize this in one sentence: ...",
});