AI2026-06-28·8 min

Web Uygulamasına LLM Nasıl Entegre Edilir: Adım Adım Geliştirici Rehberi

Web uygulamasına LLM nasıl entegre edileceğini öğrenin: doğru API seçimi, sunucu mimarisi, maliyet yönetimi ve streaming uygulama.

AILLMWeb DevelopmentSaaSIntegration

Web uygulamasına LLM nasıl entegre edileceği, 2025–2026 döneminde kurucu geliştiricilerin en çok sorduğu teknik sorulardan biri haline geldi. Metin özetleme, belge analizi, akıllı arama veya sohbet arayüzü — neredeyse her SaaS ürünü artık bir dil modeli entegrasyonundan faydalanabiliyor. Bu rehberde, müşteri projelerinde uyguladığım adımları gerçek mimari kararlar ve maliyet gerçekleriyle birlikte paylaşıyorum.

##Hangi LLM API'sini Seçmeli?

Üç ana seçenek öne çıkıyor: OpenAI'ın GPT-4o serisi, Anthropic'in Claude serisi ve Google'ın Gemini serisi. Büyük bağlam penceresi ve uzun belge analizine ihtiyaç duyduğunuzda Claude Sonnet 4.6 güçlü bir seçim. Hız ve maliyet öncelikliyse GPT-4o mini veya Gemini 2.0 Flash iyi alternatifler. Üretimde tek bir sağlayıcıya kilitlenmemek için API çağrılarını bir soyutlama katmanının arkasına almak kritik — bunu sonraki bölümde açıklıyorum.

GPT-4o (input)

$2,50 / 1M token

Claude Sonnet 4.6 (input)

$3,00 / 1M token

Gemini 2.0 Flash (input)

$0,10 / 1M token

##Mimari: API Anahtarları Asla İstemci Tarafında Olmamalı

En yaygın hata, LLM API çağrısını doğrudan tarayıcı JavaScript'inden yapmak. Bu, API anahtarınızı herkese açık hale getirir ve sizi faturalama saldırılarına karşı savunmasız bırakır. Doğru mimari her zaman sunucu taraflıdır: kullanıcı isteği → sizin arka ucunuz → LLM API → arka uca yanıt → kullanıcıya yanıt. Next.js API route'ları, FastAPI endpoint'leri veya Express handler'ları — hangisini kullanırsanız kullanın, bu katman şarttır. İstemci tarafındaki kod her zaman kaynak görünümünde okunabilir; API anahtarınız orada bulunmamalı.

##Web Uygulamasına LLM Entegrasyonu: Adım Adım

  • Bir API anahtarı edinin ve ortam değişkenlerine (.env) ekleyin — asla kaynak koduna gömmeyın veya Git'e işlemeyin.
  • Tüm LLM çağrılarını tek bir modüle topladığınız bir API istemci wrapper'ı oluşturun. Bu, sağlayıcıyı ileride değiştirmeyi veya A/B testi yapmayı kolaylaştırır.
  • Promptları kaynak kodundan ayırın: bir config dosyasında, veritabanında veya şablon sisteminde tutun. Prompt mühendisliği zamanla değişir; sürüm kontrolü gerektirir.
  • Streaming yanıtları uygulayın — kullanıcılar yanıtın tamamını beklemek yerine yazma efekti bekler. Next.js'de ReadableStream, FastAPI'de StreamingResponse ile kolayca uygulanabilir.
  • Her çağrıda token sayısını günlüğe alın. Maliyetleri ilk haftada izlemeye başlamazsanız, özellikle yoğun kullanımlı özelliklerde fatura sizi şaşırtabilir.
  • Hata işleme ekleyin: rate limit hataları (HTTP 429) için üstel geri çekilme, model zaman aşımı için kullanıcıya anlamlı bir geri bildirim. LLM API'leri mükemmel değildir; kodunuzun bu durumları zarif biçimde ele alması gerekir.

##Prompt Mühendisliği: Yapıyı Başından Doğru Kurun

Bugün işe yarayan bir prompt, iki hafta sonra tutarsız sonuçlar verebilir — çünkü model güncellendi ya da kullanıcı davranışı değişti. Bu yüzden promptları kodun içine gömmek yerine veritabanında veya ayrı bir şablon dosyasında tutun. Üretimde farklı prompt sürümlerini A/B test edin: 20 karakterlik bir değişiklik çıktı kalitesini ve token maliyetini ciddi ölçüde etkileyebilir. Sistem promptunu, kullanıcı mesajını ve bağlamı (örneğin belge içeriği) her zaman açıkça ayrı tutun.

##Maliyet Yönetimi: LLM Faturanızı Kontrol Altında Tutun

LLM maliyetleri, bağlam penceresi büyüdükçe doğrusal değil katlanarak artar. Gönderdiğiniz her sistem promptu, her konuşma geçmişi turu, her belge parçası token harcar ve faturalanır. Üretimde maliyet kontrolü için üç önlem kritik:

  • Bağlam penceresini budayın: Tüm konuşma geçmişini değil, son N mesajı gönderin. Çoğu sohbet özelliği için son 6–10 mesaj yeterlidir.
  • Sık tekrarlanan sistem promptları için prompt önbellekleme kullanın. Anthropic ve OpenAI ikisi de prompt caching destekliyor; bu, sabit bağlam maliyetini %60–80 oranında düşürebilir.
  • Kullanıcı başına günlük token limiti belirleyin. Freemium veya ücretsiz katmanınız varsa, limitlenmemiş kullanım sizi beklenmedik yüksek faturalarla karşı karşıya bırakır.

##Sık Sorulan Sorular

>LLM entegrasyonu ne kadar sürer?

Basit bir sohbet veya özetleme özelliği için, API entegrasyonu birkaç saatte yapılabilir. Kimlik doğrulama, oran sınırlama, günlükleme ve streaming içeren üretim kalitesinde bir entegrasyon 3–5 gün. Birden fazla modeli destekleyen, izleme panelli ve sağlayıcı değiştirilebilir tam bir AI katmanı 2–4 haftalık bir proje.

>Hangi dil veya çerçeve ile başlamalıyım?

Yeni projeler için Next.js ve TypeScript iyi bir başlangıç noktası: ön yüz ve arka ucu tek projede yönetebilir, Vercel'e kolayca deploy edilebilir ve Anthropic/OpenAI SDK'ları TypeScript ile sorunsuz çalışır. Python tabanlı bir arka uç tercih ediyorsanız FastAPI aynı ölçüde güçlü bir seçim; özellikle belge işleme veya vektör veritabanı entegrasyonu varsa Python ekosistemi daha zengin.

>Birden fazla model sağlayıcısını aynı anda kullanabilir miyim?

Evet, ve bunu tavsiye ediyorum. Farklı özellikler farklı modellere yönlendirilebilir: uzun belge analizi için Claude, hızlı metin tamamlama için Gemini Flash, kod üretimi için GPT-4o gibi. Bunun ön koşulu, API çağrılarınızı başından beri bir soyutlama katmanının arkasında tutmanız.

Web uygulamasına LLM entegre etmek, doğru mimariden başlanırsa karmaşık değildir. API anahtarlarını sunucu tarafında tutun, promptları koddan ayırın, maliyetleri günlük izleyin — geri kalan her şey bu üç temelden türetilebilir. Projenizi planlamaya yardımcı olmamı istiyorsanız, iletişim sayfasından ulaşabilirsiniz.

// BİRLİKTE ÇALIŞALIM

Benzer bir SaaS projesi mi planlıyorsun?

Kapsam, MVP sıralaması ve teslim takvimi için birlikte net bir yol haritası çıkarabiliriz.

> İLETİŞİME GEÇ