Workers AI

개요

AI 자판기라고 생각해 보세요. 요청을 넣으면 이미 학습된 모델이 결과를 건네주며, 직접 마련할 기계는 하나도 없습니다. Workers AI는 Cloudflare 자체 GPU(그래픽 처리 장치 — AI를 구동하는 특수 칩)에서 머신러닝 모델을 실행하며, 단일 AI 바인딩(준비된 연결)을 통해 Worker에서 사용할 수 있습니다. env.AI.run("@cf/...model")에 입력을 전달하면 결과를 받습니다. 별도의 추론 서버(모델을 돌리는 별도 기계)도, 서드파티 키(외부 서비스용 비밀번호)도, 따로 마련할 GPU도 필요 없습니다. 카탈로그는 텍스트 생성, 임베딩, 이미지 생성, 음성, 번역에 걸쳐 있습니다.

강점

단일 바인딩 — 외부 API 키나 별도의 추론 인프라가 필요 없음.
Cloudflare의 GPU 네트워크에서 실행되어 Worker와 사용자에 가까움.
폭넓은 모델 카탈로그: LLM(대규모 언어 모델 — 채팅과 텍스트를 만들어내는 AI), 임베딩, 이미지, 오디오 등.
사용량 기반 과금이며, 무료 할당량으로 프로토타이핑이 저렴함.
RAG(검색 증강 생성 — AI에 인용할 수 있는 관련 사실을 함께 제공하는 방식)를 위해 Vectorize와 자연스럽게 결합됨.

트레이드오프

모델 선택은 시장의 모든 모델이 아니라 Cloudflare의 카탈로그로 한정됨.
가장 큰 최첨단 모델은 제공되지 않을 수 있고, 모델별로 품질 차이가 있음.
추론 지연 시간과 속도 제한이 적용되며, 특히 큰 모델에서 두드러짐.
특정 독점 모델이 필요하다면 여전히 해당 제공업체의 API를 호출해야 함.

언제 쓰면 좋은가

엣지 로직과 함께 배치하고 싶은 인앱 추론에 Workers AI를 사용하세요. 채팅 기능, 요약, 분류, 검색용 임베딩, 이미지 생성 등을 자체 GPU 스택을 운영하지 않고 처리할 수 있습니다.

바이브 코딩 적합성

Workers AI는 에이전트가 평소에 스크립트로 작성해야 할 설정 대부분을 없애줍니다. 키 관리도, 제공업체 SDK(소프트웨어 개발 키트 — 준비된 코드 라이브러리)도 없이 바인딩과 run 호출만 있으면 됩니다. 원하는 작업과 모델(예: Vectorize에 공급할 임베딩 모델)을 에이전트에게 알려주면 카탈로그에서 올바르게 선택합니다. 아래 예시는 AI를 바인딩하고 텍스트 모델을 실행합니다.

# wrangler.toml
[ai]
binding = "AI"

// Worker 내부에서
const out = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
  prompt: "Summarize this in one sentence: ...",
});