~/VibeHandbook
$39

Cloudflare

developers.cloudflare.com

Workers AI

개요

Workers AI는 Cloudflare 자체 GPU에서 머신러닝 모델을 실행하며, 단일 AI 바인딩을 통해 Worker에서 사용할 수 있습니다. env.AI.run("@cf/...model")에 입력을 전달하면 결과를 받습니다. 별도의 추론 서버도, 서드파티 API 키도, 프로비저닝할 GPU도 필요 없습니다. 카탈로그는 텍스트 생성, 임베딩, 이미지 생성, 음성, 번역에 걸쳐 있습니다.

강점

  • 단일 바인딩 — 외부 API 키나 별도의 추론 인프라가 필요 없음.
  • Cloudflare의 GPU 네트워크에서 실행되어 Worker와 사용자에 가까움.
  • 폭넓은 모델 카탈로그: LLM, 임베딩, 이미지, 오디오 등.
  • 사용량 기반 과금이며, 무료 할당량으로 프로토타이핑이 저렴함.
  • 검색 증강 생성을 위해 Vectorize와 자연스럽게 결합됨.

트레이드오프

  • 모델 선택은 시장의 모든 모델이 아니라 Cloudflare의 카탈로그로 한정됨.
  • 가장 큰 최첨단 모델은 제공되지 않을 수 있고, 모델별로 품질 차이가 있음.
  • 추론 지연 시간과 속도 제한이 적용되며, 특히 큰 모델에서 두드러짐.
  • 특정 독점 모델이 필요하다면 여전히 해당 제공업체의 API를 호출해야 함.

언제 쓰면 좋은가

엣지 로직과 함께 배치하고 싶은 인앱 추론에 Workers AI를 사용하세요. 채팅 기능, 요약, 분류, 검색용 임베딩, 이미지 생성 등을 자체 GPU 스택을 운영하지 않고 처리할 수 있습니다.

바이브 코딩 적합성

Workers AI는 에이전트가 평소에 스크립트로 작성해야 할 설정 대부분을 없애줍니다. 키 관리도, 제공업체 SDK도 없이 바인딩과 run 호출만 있으면 됩니다. 원하는 작업과 모델(예: Vectorize에 공급할 임베딩 모델)을 에이전트에게 알려주면 카탈로그에서 올바르게 선택합니다. 아래 예시는 AI를 바인딩하고 텍스트 모델을 실행합니다.

# wrangler.toml
[ai]
binding = "AI"
// Worker 내부에서
const out = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
  prompt: "Summarize this in one sentence: ...",
});