LLM Dağıtımı 101 - Turkish Technology

DeepSeek, Mistral ve LLaMA gibi Büyük Dil Modelleri (LLM’ler) araştırma laboratuvarlarından gerçek dünyadaki uygulamalara geçti — sohbet botları, arama motorları, kişisel asistanlar ve kurumsal yapay zekâ araçlarını güçlendiriyor.

Ancak bu modelleri üretime almak tak-çalıştır bir işlem değildir. Özellikle LLM dağıtım stratejileri etrafında kritik mimari kararlar içerir.

Bu yazıda en yaygın LLM dağıtım yöntemlerini keşfedecek, yan yana karşılaştıracak ve görseller, gerçek kullanım senaryoları ve performans verileriyle hangisini ne zaman kullanmanız gerektiğine yardımcı olacağız.

Yerinde (On-Premise) ve Bulut Yapay zekâ ile oluşturuldu

1. İlk Soru: Bulut mu, Kendin Sun (Self-Hosted) mı?

Bir dağıtım yöntemi seçmeden önce şu soruyu yanıtlayın:

Barındırılan bir API’yi (bulut) mi kullanmak istiyorsunuz, yoksa modeli kendi altyapınızda mı çalıştıracaksınız (self-hosted)?

Bulut Tabanlı (OpenAI, Gemini, Anthropic vb.)

Artıları:

Kurulum gerektirmez
Güncel, üst düzey modeller (GPT-4, Claude 3, Gemini Pro)
Kolay ölçekleme, yönetilen servisler

Eksileri:

Kullanım başına ödeme (token bazlı fiyatlama)
Veriniz üçüncü taraf sunuculara gider
Sınırlı özelleştirme

En uygunu: MVP’ler, hızlı prototipler, sınırlı altyapıya sahip girişimler veya barındırma derdi olmadan en iyi modelleri kullanmanız gereken durumlar.

Kendin Sun (vLLM, Ollama, TGI)

Modeli kendi GPU sunucunuzda veya yerel makinenizde çalıştırırsınız.

Artıları:

Veri ve modeller üzerinde tam kontrol
Ölçekte potansiyel olarak daha ucuz
Çevrimdışı ve mahrem kullanım

Eksileri:

Güçlü donanım gerektirir (özellikle büyük modeller)
Kurulum, bakım ve güncellemeler sizin sorumluluğunuzdadır

2. Temel Dağıtım Seçenekleri

🧠 vLLM (Virtual Large Language Model Server)

Hugging Face uyumlu
Performans için tasarlanmıştır (PagedAttention kullanır)
GPT uyumlu API’ler (/chat/completions)
Yüzlerce eşzamanlı isteği karşılayabilir

💻 Ollama

Yerelde quantize modelleri çalıştırmak için CLI aracı
GGUF formatını kullanır (CPU/GPU için verimli)
Son derece hafif ve kurulumu çok hızlı

🌐 TGI (Text Generation Inference)

Hugging Face tarafından geliştirilmiştir

REST API üzerinden çalışır (Docker tabanlı)

Quantize modelleri ve GPU ivmesini destekler

vLLM vs Ollama vs TGI Yapay zekâ ile oluşturuldu

3. Uygulamalı Kullanım Örnekleri

Her dağıtım yöntemiyle hızlıca başlamanıza yardımcı olacak gerçek dünya komutları:

▶️ Ollama ile Mistral’ı Yerelde Çalıştırın

ollama run mistral

Ek kurulum gerektirmeden saniyeler içinde quantize bir Mistral modelini yerelde çalıştırır.

⚙️ vLLM ile GPT Uyumlu bir API Sunun

python -m vllm.entrypoints.openai.api_server \
--model facebook/opt-1.3b

vLLM ile yüksek performanslı, OpenAI tarzı bir API uç noktası başlatır (OPT 1.3B). /chat/completions ile uyumludur.

🐳 TGI ile Docker Üzerinden Mistral’ı Dağıtın

docker run -p 8080:80 \
  ghcr.io/huggingface/text-generation-inference \
  --model-id mistralai/Mistral-7B-Instruct-v0.1

Hugging Face’in TGI’si ile Mistral-7B-Instruct modelini servis etmeye hazır tam işlevli bir REST API oluşturur.

4. Performans Karşılaştırması: Saniye Başına Token

Farklı platformlar için ortalama token üretim hızı örneği:

🟢 vLLM aktarım hızında parlıyor 🟠 Ollama yerel kullanım için yeterince hızlı 🔵 OpenAI API ağ/API gecikmesi nedeniyle daha yavaştır ancak kullanım kolaylığı sunar

LLM Dağıtım Yöntemleri Yapay zekâ ile oluşturuldu

5. Bellek Kullanımı

Bu modelleri verimli çalıştırmak için gereken yerel bellek (RAM):

OpenAI: 0 GB (bulutta çalışır)
vLLM: 18 GB (7B+ modeller için uygun)
Ollama: Hafif (7B GGUF için ~8 GB)
TGI: Kuantizasyona bağlı olarak orta-yüksek

6. Maksimum Eşzamanlı İstek

Yoğun trafikli üretim sistemleri için kritiktir:

vLLM sektör seviyesinde ölçeklenebilirlik sunarken, Ollama kişisel uygulamalar veya düşük trafikli iç araçlar için idealdir.

7. Son Söz: Esneklik Anahtar

LLM dağıtımında herkese uyan tek bir yaklaşım yok.

👉 Basit bir uygulama kuruyorsanız, bir API yeterli olabilir. 👉 Trafiği ölçekliyorsanız, vLLM size binlerce dolar tasarruf ettirebilir. 👉 Tam gizlilik veya çevrimdışı kullanım istiyorsanız, Ollama harika bir seçimdir.

Kullanım senaryonuzu bilin. Maliyeti kontrol edin. Performansı optimize edin.

Söz Sizde 🚀

Hangi dağıtım yöntemini kullandınız? Neler işe yaradı, neler yaramadı?

Yorumlara düşüncelerinizi veya sorularınızı bırakın — deneyiminizi duymak isteriz!

Medium sayfası için buraya tıklayın.

Ürünler

LLM Dağıtımı 101: Hangi Yöntemi Ne Zaman Kullanmalısınız?