
Yazılım Geliştirme
Uygulamanızı Hangi LLM Üzerine Kurmalısınız?
Uygulamanızı Hangi LLM Üzerine Kurmalısınız?
Ürün ekipleri için LLM seçim çerçevesi: Claude, Gemini, GPT-4o, Llama ve DeepSeek arasında doğru kararı vermek için iş yükü bazlı yaklaşım ve doğrulanmış maliyet verileri.
Ürün ekipleri için LLM seçim çerçevesi: Claude, Gemini, GPT-4o, Llama ve DeepSeek arasında doğru kararı vermek için iş yükü bazlı yaklaşım ve doğrulanmış maliyet verileri.
Modele Göre Değil, İş Yüküne Göre LLM Seçimi
Her ürün yol haritasına bir AI özelliği girdiğinde aynı soru yüzeye çıkar: bu ürünün ihtiyaç duyduğu hacimde güvenilir çıktı veren, kullanıcı tabanı büyüdüğünde birim ekonomisini bozmayan hangi model? Neon Apps'te bu soru, AI'ın denemeden üretime geçtiği her çalışmada gündeme gelir. Karşılaştırma yazılarının büyük çoğunluğu benchmark tablosu ve puanlarla yanıt verir. Bu yazı bir karar çerçevesiyle yanıt veriyor.
LLM Seçimi Bir Ürün Ekibi İçin Gerçekte Ne Anlama Geliyor?
Büyük Dil Modeli (LLM): Uygulamanızın API aracılığıyla çağırdığı, metin girdi alıp metin çıktı üreten, içerik oluşturma, sınıflandırma, özetleme ve akıl yürütme görevlerini yerine getiren bir AI sistemidir. Herhangi bir dış servis gibi entegre edersiniz; ancak sağlayıcılar arasındaki maliyet, gecikme, çıktı kalitesi ve uyumluluk farklılıkları, yapacağınız neredeyse her altyapı kararından daha belirleyicidir.
Bu fark meselenin özüdür. Çoğu ekip modeli bir UI kütüphanesi seçer gibi seçer: bir karşılaştırma yazısı okur, tabloda en fazla sütun kazananı alır ve geçer. Doğru yaklaşım önce iş yükü, sonra model.

Ölçeklendikçe Büyüyen Maliyet Uçurumu
LLM karşılaştırma yazılarının büyük çoğunluğu benchmark puanlarında durur. Operasyonel açıdan asıl önemli tablo ölçekte maliyettir.
Claude Sonnet 4.6, 1 milyon girdi tokeni için 3 dolar ve 1 milyon çıktı tokeni için 15 dolar. DeepSeek V4 Flash, 1 milyon girdi için 0,14 dolar, çıktı için 0,28 dolar. Yalnızca girdi tokenlarında 21 katlık bir fark. Günde 50 milyon girdi ve 5 milyon çıktı tokeni hacminde Claude Fable 5, aylık yaklaşık 22.500 dolara çıkar. Aynı iş yükü DeepSeek V4 Flash ile yaklaşık 252 dolar. Aradaki fark 89 kat.
Bu 89 kat, her zaman en ucuzu seçin demek değildir. İş yükünü doğru katmana yönlendirin demektir.
Katman | Modeller | Maliyet Düzeyi | En Uygun Kullanım |
Frontier | Claude Fable 5, Claude Opus | En yüksek | Agent görevleri, uzun bağlam akıl yürütme, otonom kod üretimi |
Mid Frontier | Claude Sonnet 4.6, GPT-4o, Gemini 1.5 Pro | Orta | Chatbot, analiz, çok modlu görevler, kod incelemesi |
Budget API | DeepSeek V4 Flash, Gemini Flash, GPT-4o mini | Düşük | Yüksek hacimli içerik üretimi, sınıflandırma, öneri sistemleri |
Açık ağırlık (kendi sunucusunda) | Llama 4, Mistral, Gemma | Altyapı maliyeti | Veri egemenliği, uyumluluk, özel fine-tuning |
Önemli bir not: prompt önbelleğe alma bu farkı daraltır. Claude, tekrarlayan sistem prompt'ları için girdi tokenlarında %90'a varan indirim sunar. Önbellek isabet oranı yüksek iş yüklerinde frontier modeller liste fiyatlarından çok daha rekabetçi hale gelir.
Context Window Spesifikasyonları Gerçekte Ne Söyler?
Llama 4 Scout 10 milyon tokenlik bir context window ile geliyor. Kağıt üzerinde piyasanın en büyüğü. Pratikte tam context window için 8 adet H100 GPU gerekiyor. bfloat16 hassasiyetinde çalışılabilir sınır yaklaşık 1,4 milyon tokena düşüyor. Uzun bağlam doğruluk testlerinde Llama 4 Scout, Fiction.Livebench'te %15,6 alıyor. Gemini aynı testte %90,6.
Büyük spesifikasyon, kısıtlı gerçek dünya performansı kalıbı sağlayıcılar genelinde tekrarlanıyor. Context window büyüklüğü model kararını yönlendirmeden önce:
Kendi veri dağılımınızla test edin, yapay benchmark değil
Özelliğinizin gerçekten ihtiyaç duyduğu token derinliğinde doğruluğu ölçün
Maliyeti hesaba katın: uzun bağlam her API çağrısında daha fazla token demek ve bu ölçekte katlanıyor
Ham context büyüklüğünü optimize etmeden önce retrieval augmented generation seçeneğini değerlendirin
Soru hangi model en büyük context window'a sahip değil: belirli özelliğiniz hangi bağlam derinliğine ihtiyaç duyuyor ve bu beklenen hacimde API başına ne kadar tutuyor?


Dört İş Yükü Türü, Dört Farklı Başlangıç Noktası
Chatbot için doğru model katmanı, kod üretimi için doğru katmandan farklıdır. Sağlayıcı değerlendirmesine geçmeden önce özelliğinizi bu kategorilerden birine oturtun.
Konuşmacı AI ve chatbot. Mid frontier ve budget API modeller üretim chatbot kullanım durumlarının büyük çoğunluğunu karşılar. Kullanıcılar çoğu konuşma turunda Sonnet sınıfı ile Opus sınıfı arasındaki farkı algılamaz. Gecikmeyi algılar. Kalite eşiğini geçen en hızlı modele yönlendirin, en yeteneklisine değil.
Kod üretimi ve geliştirici araçları. Claude Sonnet 4.6, SWE-bench Verified'da %79,6 alarak kod üretimi iş yükleri için mid frontier temelini oluşturuyor. Claude Opus, otonom mühendislik görevleri ve frontier katmanı akıl yürütmesinin kullanıcıya yansıyan hata oranını doğrudan düşürdüğü daha uzun çok adımlı kod üretimi çalıştırmaları için bu tavanı yükseltiyor. Kod üreten, geliştirici araçlarına güç veren veya otomatik kod incelemesi yapan ürünler için katmanı görev karmaşıklığıyla eşleştirmek maliyet farkını haklı kılan şeydir.
Ses ve speech to text pipeline'ları. Burada LLM seçimi transkripsiyon katmanı kalitesinin ikincil meselesidir. Whisper, AssemblyAI ve Deepgram sınıfı servisler ses katmanını yönetir. LLM ortaya çıkan metni işler; çoğunlukla özetleme, konu çıkarma veya sınıflandırma. Bu aşağı akış görevlerinin büyük çoğunluğu için budget API katmanı yeterlidir.
Görüntü tanıma ve bilgisayarlı görü. Google Vision, AWS Rekognition, Azure AI Vision gibi yönetilen vision API'ları görsel çıkarımı üstlenir. LLM katmanı varsa vision API'dan gelen yapılandırılmış çıktıyı işler. Gemini 1.5 Pro gibi çok modlu modeller kullanım durumu gerçekten hibrit yapıdaysa katmanları birleştirir; ancak her API çağrısında mid frontier maliyeti taşır.
Uyumluluk ve Veri İkameti Gerçekte Ne Gerektiriyor?
Bu bölüm LLM seçim yazılarının büyük çoğunluğunun atladığı konudur. Sağlık, finans veya güçlü veri koruma mevzuatına sahip herhangi bir pazarda çalışan uygulamalar için model seçimi yalnızca yetenek ve maliyet kararı değildir; aynı zamanda hukuki bir karardır.
Kullanıcı verilerini bulut LLM API'sına göndermek, bu verinin altyapınızı terk etmesi ve üçüncü tarafça işlenmesi anlamına gelir. HIPAA kapsamında, korunan sağlık bilgilerini işleyen her satıcının İş Ortağı Sözleşmesi imzalaması gerekir. LLM API sağlayıcılarının büyük çoğunluğu bu sözleşmeyi sunar; ancak tüm planlar kapsam dahilinde değildir ve varsayılan kullanım koşulları gereksinimlerinizi karşılamayabilir. GDPR kapsamında, Avrupa Ekonomik Alanı dışına aktarılan veriler Standart Sözleşme Maddeleri veya eşdeğer güvence gerektirir. Büyük sağlayıcıların bir kısmı verileri varsayılan olarak Amerika Birleşik Devletleri'nde işler; bu durum AB kullanıcılarına yönelik ürünler için aktarım uyumluluğu yükümlülüğü doğurur.
Model seçimine yansıyan pratik sonuçlar:
Hasta verisi işleyen sağlık uygulamaları: herhangi bir bulut LLM sağlayıcısı seçmeden önce İş Ortağı Sözleşmesi erişilebilirliğini doğrulayın
PCI DSS veya bölgesel bankacılık düzenlemesi altındaki finans uygulamaları: LLM sağlayıcınızın düzenleyici kurumun onaylı satıcı listesinde olup olmadığını kontrol edin
GDPR kapsamındaki AB'ye yönelik ürünler: veri ikameti seçeneklerini teyit edin; bazı sağlayıcılar AB bölgesi işleme sunar, bazıları sunmaz
Belirli bir yargı bölgesini terk edemeyen veri içeren uygulamalar: kendi sunucusundaki açık ağırlık modeller (Llama 4, Mistral) çoğu zaman tek uyumlu seçenektir
Açık ağırlık modeller uyumluluk sorusunu satıcı koşullarından kendi altyapınıza taşır. Veri, model ve işleme ortamı sizin kontrolünüzdedir. Bu operasyonel maliyet ve mühendislik yükü getirir; ancak bazı ürün kategorileri için bu zorunluluktur, tercih değil.

Her Şeyi Etkileyen Mimari Karar
En riskli LLM mimarisi tek bir sağlayıcıyı stack'in her katmanına gömmektir. O sağlayıcı fiyatını değiştirdiğinde, model sürümünü kullanımdan kaldırdığında veya çıktı kalitesi düştüğünde bu bir yapılandırma güncellemesi değil, canlı ortamda bir incident olarak yüzeye çıkar.
Doğru yaklaşım uygulamanız ile herhangi bir LLM sağlayıcısı arasına bir soyutlama katmanı koymaktır. Uygulama bir iç servisi çağırır. İç servis sağlayıcıya yönlendirir. Model değişikliği veya maliyet bazlı ikinci bir katman eklemek codebase migrasyonu değil, yönlendirme konfigürasyonu olur. LangChain, LlamaIndex ve Haystack bu soyutlamayı hazır sunar. Flutter veya React Native ile mobil uygulama geliştirme için soyutlama API katmanında durur, istemci kodunda değil.
Bir üretim uygulaması için katmanlı yönlendirme stratejisi:
Karmaşık akıl yürütme, agent görevleri, düşük hacim: frontier'a yönlendir
Standart konuşma turları, soru-cevap, analiz: mid frontier'a yönlendir
Yüksek hacimli içerik üretimi, sınıflandırma, öneri: budget API'ya yönlendir
Veri ikameti kısıtlamalı işlemler (GDPR, HIPAA, SOC 2): kendi sunucusundaki açık ağırlık modele yönlendir
Bu aşırı mühendislik değildir. Üretim hacminde bu, tahmin edilebilir altyapı maliyeti ile kullanıcı büyümenizle doğrudan ölçeklenen maliyet arasındaki fark demektir.
Sıkça Sorulan Sorular
Frontier ve budget API modeller arasındaki pratik fark nedir?
Neon Apps müşteri ürünlerinde LLM seçimine nasıl yaklaşıyor?
Ne zaman açık ağırlık model, ne zaman kapalı API tercih edilmeli?
Neon Apps müşterilerini LLM vendor lock-in'e karşı nasıl koruyor?
Mevcut bir uygulamaya LLM entegrasyonu ne kadar sürer ve çalıştırma maliyeti ne olur?
İlham Almaya Devam Et
Yeni tasarım içgörüleri, makaleler ve kaynaklar doğrudan gelen kutunuza gelsin.
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeleri doğrudan gelen kutunuza alın.
Son Bloglar
İlham Almaya Devam Et
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeler doğrudan gelen kutunuza gelsin.
Bir projeniz mi var?
Bize Ulaşın
Bir projeniz mi var? Startup'lar ve küresel markalar için dünya standartlarında mobil ve web uygulamaları geliştiriyoruz.
Neon Apps, İstanbul ve New York ofislerinde 85 kişilik kendi ekibiyle mobil, web ve SaaS projeleri hayata geçiren bir ürün geliştirme şirketidir. Uzun vadeli bir çözüm ortağı olarak, markalar için ölçeklenebilir dijital ürünler üretiyoruz.

Yazılım Geliştirme
Uygulamanızı Hangi LLM Üzerine Kurmalısınız?
Uygulamanızı Hangi LLM Üzerine Kurmalısınız?
Ürün ekipleri için LLM seçim çerçevesi: Claude, Gemini, GPT-4o, Llama ve DeepSeek arasında doğru kararı vermek için iş yükü bazlı yaklaşım ve doğrulanmış maliyet verileri.
Ürün ekipleri için LLM seçim çerçevesi: Claude, Gemini, GPT-4o, Llama ve DeepSeek arasında doğru kararı vermek için iş yükü bazlı yaklaşım ve doğrulanmış maliyet verileri.
Modele Göre Değil, İş Yüküne Göre LLM Seçimi
Her ürün yol haritasına bir AI özelliği girdiğinde aynı soru yüzeye çıkar: bu ürünün ihtiyaç duyduğu hacimde güvenilir çıktı veren, kullanıcı tabanı büyüdüğünde birim ekonomisini bozmayan hangi model? Neon Apps'te bu soru, AI'ın denemeden üretime geçtiği her çalışmada gündeme gelir. Karşılaştırma yazılarının büyük çoğunluğu benchmark tablosu ve puanlarla yanıt verir. Bu yazı bir karar çerçevesiyle yanıt veriyor.
LLM Seçimi Bir Ürün Ekibi İçin Gerçekte Ne Anlama Geliyor?
Büyük Dil Modeli (LLM): Uygulamanızın API aracılığıyla çağırdığı, metin girdi alıp metin çıktı üreten, içerik oluşturma, sınıflandırma, özetleme ve akıl yürütme görevlerini yerine getiren bir AI sistemidir. Herhangi bir dış servis gibi entegre edersiniz; ancak sağlayıcılar arasındaki maliyet, gecikme, çıktı kalitesi ve uyumluluk farklılıkları, yapacağınız neredeyse her altyapı kararından daha belirleyicidir.
Bu fark meselenin özüdür. Çoğu ekip modeli bir UI kütüphanesi seçer gibi seçer: bir karşılaştırma yazısı okur, tabloda en fazla sütun kazananı alır ve geçer. Doğru yaklaşım önce iş yükü, sonra model.

Ölçeklendikçe Büyüyen Maliyet Uçurumu
LLM karşılaştırma yazılarının büyük çoğunluğu benchmark puanlarında durur. Operasyonel açıdan asıl önemli tablo ölçekte maliyettir.
Claude Sonnet 4.6, 1 milyon girdi tokeni için 3 dolar ve 1 milyon çıktı tokeni için 15 dolar. DeepSeek V4 Flash, 1 milyon girdi için 0,14 dolar, çıktı için 0,28 dolar. Yalnızca girdi tokenlarında 21 katlık bir fark. Günde 50 milyon girdi ve 5 milyon çıktı tokeni hacminde Claude Fable 5, aylık yaklaşık 22.500 dolara çıkar. Aynı iş yükü DeepSeek V4 Flash ile yaklaşık 252 dolar. Aradaki fark 89 kat.
Bu 89 kat, her zaman en ucuzu seçin demek değildir. İş yükünü doğru katmana yönlendirin demektir.
Katman | Modeller | Maliyet Düzeyi | En Uygun Kullanım |
Frontier | Claude Fable 5, Claude Opus | En yüksek | Agent görevleri, uzun bağlam akıl yürütme, otonom kod üretimi |
Mid Frontier | Claude Sonnet 4.6, GPT-4o, Gemini 1.5 Pro | Orta | Chatbot, analiz, çok modlu görevler, kod incelemesi |
Budget API | DeepSeek V4 Flash, Gemini Flash, GPT-4o mini | Düşük | Yüksek hacimli içerik üretimi, sınıflandırma, öneri sistemleri |
Açık ağırlık (kendi sunucusunda) | Llama 4, Mistral, Gemma | Altyapı maliyeti | Veri egemenliği, uyumluluk, özel fine-tuning |
Önemli bir not: prompt önbelleğe alma bu farkı daraltır. Claude, tekrarlayan sistem prompt'ları için girdi tokenlarında %90'a varan indirim sunar. Önbellek isabet oranı yüksek iş yüklerinde frontier modeller liste fiyatlarından çok daha rekabetçi hale gelir.
Context Window Spesifikasyonları Gerçekte Ne Söyler?
Llama 4 Scout 10 milyon tokenlik bir context window ile geliyor. Kağıt üzerinde piyasanın en büyüğü. Pratikte tam context window için 8 adet H100 GPU gerekiyor. bfloat16 hassasiyetinde çalışılabilir sınır yaklaşık 1,4 milyon tokena düşüyor. Uzun bağlam doğruluk testlerinde Llama 4 Scout, Fiction.Livebench'te %15,6 alıyor. Gemini aynı testte %90,6.
Büyük spesifikasyon, kısıtlı gerçek dünya performansı kalıbı sağlayıcılar genelinde tekrarlanıyor. Context window büyüklüğü model kararını yönlendirmeden önce:
Kendi veri dağılımınızla test edin, yapay benchmark değil
Özelliğinizin gerçekten ihtiyaç duyduğu token derinliğinde doğruluğu ölçün
Maliyeti hesaba katın: uzun bağlam her API çağrısında daha fazla token demek ve bu ölçekte katlanıyor
Ham context büyüklüğünü optimize etmeden önce retrieval augmented generation seçeneğini değerlendirin
Soru hangi model en büyük context window'a sahip değil: belirli özelliğiniz hangi bağlam derinliğine ihtiyaç duyuyor ve bu beklenen hacimde API başına ne kadar tutuyor?


Dört İş Yükü Türü, Dört Farklı Başlangıç Noktası
Chatbot için doğru model katmanı, kod üretimi için doğru katmandan farklıdır. Sağlayıcı değerlendirmesine geçmeden önce özelliğinizi bu kategorilerden birine oturtun.
Konuşmacı AI ve chatbot. Mid frontier ve budget API modeller üretim chatbot kullanım durumlarının büyük çoğunluğunu karşılar. Kullanıcılar çoğu konuşma turunda Sonnet sınıfı ile Opus sınıfı arasındaki farkı algılamaz. Gecikmeyi algılar. Kalite eşiğini geçen en hızlı modele yönlendirin, en yeteneklisine değil.
Kod üretimi ve geliştirici araçları. Claude Sonnet 4.6, SWE-bench Verified'da %79,6 alarak kod üretimi iş yükleri için mid frontier temelini oluşturuyor. Claude Opus, otonom mühendislik görevleri ve frontier katmanı akıl yürütmesinin kullanıcıya yansıyan hata oranını doğrudan düşürdüğü daha uzun çok adımlı kod üretimi çalıştırmaları için bu tavanı yükseltiyor. Kod üreten, geliştirici araçlarına güç veren veya otomatik kod incelemesi yapan ürünler için katmanı görev karmaşıklığıyla eşleştirmek maliyet farkını haklı kılan şeydir.
Ses ve speech to text pipeline'ları. Burada LLM seçimi transkripsiyon katmanı kalitesinin ikincil meselesidir. Whisper, AssemblyAI ve Deepgram sınıfı servisler ses katmanını yönetir. LLM ortaya çıkan metni işler; çoğunlukla özetleme, konu çıkarma veya sınıflandırma. Bu aşağı akış görevlerinin büyük çoğunluğu için budget API katmanı yeterlidir.
Görüntü tanıma ve bilgisayarlı görü. Google Vision, AWS Rekognition, Azure AI Vision gibi yönetilen vision API'ları görsel çıkarımı üstlenir. LLM katmanı varsa vision API'dan gelen yapılandırılmış çıktıyı işler. Gemini 1.5 Pro gibi çok modlu modeller kullanım durumu gerçekten hibrit yapıdaysa katmanları birleştirir; ancak her API çağrısında mid frontier maliyeti taşır.
Uyumluluk ve Veri İkameti Gerçekte Ne Gerektiriyor?
Bu bölüm LLM seçim yazılarının büyük çoğunluğunun atladığı konudur. Sağlık, finans veya güçlü veri koruma mevzuatına sahip herhangi bir pazarda çalışan uygulamalar için model seçimi yalnızca yetenek ve maliyet kararı değildir; aynı zamanda hukuki bir karardır.
Kullanıcı verilerini bulut LLM API'sına göndermek, bu verinin altyapınızı terk etmesi ve üçüncü tarafça işlenmesi anlamına gelir. HIPAA kapsamında, korunan sağlık bilgilerini işleyen her satıcının İş Ortağı Sözleşmesi imzalaması gerekir. LLM API sağlayıcılarının büyük çoğunluğu bu sözleşmeyi sunar; ancak tüm planlar kapsam dahilinde değildir ve varsayılan kullanım koşulları gereksinimlerinizi karşılamayabilir. GDPR kapsamında, Avrupa Ekonomik Alanı dışına aktarılan veriler Standart Sözleşme Maddeleri veya eşdeğer güvence gerektirir. Büyük sağlayıcıların bir kısmı verileri varsayılan olarak Amerika Birleşik Devletleri'nde işler; bu durum AB kullanıcılarına yönelik ürünler için aktarım uyumluluğu yükümlülüğü doğurur.
Model seçimine yansıyan pratik sonuçlar:
Hasta verisi işleyen sağlık uygulamaları: herhangi bir bulut LLM sağlayıcısı seçmeden önce İş Ortağı Sözleşmesi erişilebilirliğini doğrulayın
PCI DSS veya bölgesel bankacılık düzenlemesi altındaki finans uygulamaları: LLM sağlayıcınızın düzenleyici kurumun onaylı satıcı listesinde olup olmadığını kontrol edin
GDPR kapsamındaki AB'ye yönelik ürünler: veri ikameti seçeneklerini teyit edin; bazı sağlayıcılar AB bölgesi işleme sunar, bazıları sunmaz
Belirli bir yargı bölgesini terk edemeyen veri içeren uygulamalar: kendi sunucusundaki açık ağırlık modeller (Llama 4, Mistral) çoğu zaman tek uyumlu seçenektir
Açık ağırlık modeller uyumluluk sorusunu satıcı koşullarından kendi altyapınıza taşır. Veri, model ve işleme ortamı sizin kontrolünüzdedir. Bu operasyonel maliyet ve mühendislik yükü getirir; ancak bazı ürün kategorileri için bu zorunluluktur, tercih değil.

Her Şeyi Etkileyen Mimari Karar
En riskli LLM mimarisi tek bir sağlayıcıyı stack'in her katmanına gömmektir. O sağlayıcı fiyatını değiştirdiğinde, model sürümünü kullanımdan kaldırdığında veya çıktı kalitesi düştüğünde bu bir yapılandırma güncellemesi değil, canlı ortamda bir incident olarak yüzeye çıkar.
Doğru yaklaşım uygulamanız ile herhangi bir LLM sağlayıcısı arasına bir soyutlama katmanı koymaktır. Uygulama bir iç servisi çağırır. İç servis sağlayıcıya yönlendirir. Model değişikliği veya maliyet bazlı ikinci bir katman eklemek codebase migrasyonu değil, yönlendirme konfigürasyonu olur. LangChain, LlamaIndex ve Haystack bu soyutlamayı hazır sunar. Flutter veya React Native ile mobil uygulama geliştirme için soyutlama API katmanında durur, istemci kodunda değil.
Bir üretim uygulaması için katmanlı yönlendirme stratejisi:
Karmaşık akıl yürütme, agent görevleri, düşük hacim: frontier'a yönlendir
Standart konuşma turları, soru-cevap, analiz: mid frontier'a yönlendir
Yüksek hacimli içerik üretimi, sınıflandırma, öneri: budget API'ya yönlendir
Veri ikameti kısıtlamalı işlemler (GDPR, HIPAA, SOC 2): kendi sunucusundaki açık ağırlık modele yönlendir
Bu aşırı mühendislik değildir. Üretim hacminde bu, tahmin edilebilir altyapı maliyeti ile kullanıcı büyümenizle doğrudan ölçeklenen maliyet arasındaki fark demektir.
Sıkça Sorulan Sorular
Frontier ve budget API modeller arasındaki pratik fark nedir?
Neon Apps müşteri ürünlerinde LLM seçimine nasıl yaklaşıyor?
Ne zaman açık ağırlık model, ne zaman kapalı API tercih edilmeli?
Neon Apps müşterilerini LLM vendor lock-in'e karşı nasıl koruyor?
Mevcut bir uygulamaya LLM entegrasyonu ne kadar sürer ve çalıştırma maliyeti ne olur?
İlham Almaya Devam Et
Yeni tasarım içgörüleri, makaleler ve kaynaklar doğrudan gelen kutunuza gelsin.
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeleri doğrudan gelen kutunuza alın.
Son Bloglar
İlham Almaya Devam Et
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeler doğrudan gelen kutunuza gelsin.
Bir projeniz mi var?
Bize Ulaşın
Bir projeniz mi var? Startup'lar ve küresel markalar için dünya standartlarında mobil ve web uygulamaları geliştiriyoruz.
Neon Apps, İstanbul ve New York ofislerinde 85 kişilik kendi ekibiyle mobil, web ve SaaS projeleri hayata geçiren bir ürün geliştirme şirketidir. Uzun vadeli bir çözüm ortağı olarak, markalar için ölçeklenebilir dijital ürünler üretiyoruz.

Yazılım Geliştirme
Uygulamanızı Hangi LLM Üzerine Kurmalısınız?
Uygulamanızı Hangi LLM Üzerine Kurmalısınız?
Ürün ekipleri için LLM seçim çerçevesi: Claude, Gemini, GPT-4o, Llama ve DeepSeek arasında doğru kararı vermek için iş yükü bazlı yaklaşım ve doğrulanmış maliyet verileri.
Ürün ekipleri için LLM seçim çerçevesi: Claude, Gemini, GPT-4o, Llama ve DeepSeek arasında doğru kararı vermek için iş yükü bazlı yaklaşım ve doğrulanmış maliyet verileri.
Modele Göre Değil, İş Yüküne Göre LLM Seçimi
Her ürün yol haritasına bir AI özelliği girdiğinde aynı soru yüzeye çıkar: bu ürünün ihtiyaç duyduğu hacimde güvenilir çıktı veren, kullanıcı tabanı büyüdüğünde birim ekonomisini bozmayan hangi model? Neon Apps'te bu soru, AI'ın denemeden üretime geçtiği her çalışmada gündeme gelir. Karşılaştırma yazılarının büyük çoğunluğu benchmark tablosu ve puanlarla yanıt verir. Bu yazı bir karar çerçevesiyle yanıt veriyor.
LLM Seçimi Bir Ürün Ekibi İçin Gerçekte Ne Anlama Geliyor?
Büyük Dil Modeli (LLM): Uygulamanızın API aracılığıyla çağırdığı, metin girdi alıp metin çıktı üreten, içerik oluşturma, sınıflandırma, özetleme ve akıl yürütme görevlerini yerine getiren bir AI sistemidir. Herhangi bir dış servis gibi entegre edersiniz; ancak sağlayıcılar arasındaki maliyet, gecikme, çıktı kalitesi ve uyumluluk farklılıkları, yapacağınız neredeyse her altyapı kararından daha belirleyicidir.
Bu fark meselenin özüdür. Çoğu ekip modeli bir UI kütüphanesi seçer gibi seçer: bir karşılaştırma yazısı okur, tabloda en fazla sütun kazananı alır ve geçer. Doğru yaklaşım önce iş yükü, sonra model.

Ölçeklendikçe Büyüyen Maliyet Uçurumu
LLM karşılaştırma yazılarının büyük çoğunluğu benchmark puanlarında durur. Operasyonel açıdan asıl önemli tablo ölçekte maliyettir.
Claude Sonnet 4.6, 1 milyon girdi tokeni için 3 dolar ve 1 milyon çıktı tokeni için 15 dolar. DeepSeek V4 Flash, 1 milyon girdi için 0,14 dolar, çıktı için 0,28 dolar. Yalnızca girdi tokenlarında 21 katlık bir fark. Günde 50 milyon girdi ve 5 milyon çıktı tokeni hacminde Claude Fable 5, aylık yaklaşık 22.500 dolara çıkar. Aynı iş yükü DeepSeek V4 Flash ile yaklaşık 252 dolar. Aradaki fark 89 kat.
Bu 89 kat, her zaman en ucuzu seçin demek değildir. İş yükünü doğru katmana yönlendirin demektir.
Katman | Modeller | Maliyet Düzeyi | En Uygun Kullanım |
Frontier | Claude Fable 5, Claude Opus | En yüksek | Agent görevleri, uzun bağlam akıl yürütme, otonom kod üretimi |
Mid Frontier | Claude Sonnet 4.6, GPT-4o, Gemini 1.5 Pro | Orta | Chatbot, analiz, çok modlu görevler, kod incelemesi |
Budget API | DeepSeek V4 Flash, Gemini Flash, GPT-4o mini | Düşük | Yüksek hacimli içerik üretimi, sınıflandırma, öneri sistemleri |
Açık ağırlık (kendi sunucusunda) | Llama 4, Mistral, Gemma | Altyapı maliyeti | Veri egemenliği, uyumluluk, özel fine-tuning |
Önemli bir not: prompt önbelleğe alma bu farkı daraltır. Claude, tekrarlayan sistem prompt'ları için girdi tokenlarında %90'a varan indirim sunar. Önbellek isabet oranı yüksek iş yüklerinde frontier modeller liste fiyatlarından çok daha rekabetçi hale gelir.
Context Window Spesifikasyonları Gerçekte Ne Söyler?
Llama 4 Scout 10 milyon tokenlik bir context window ile geliyor. Kağıt üzerinde piyasanın en büyüğü. Pratikte tam context window için 8 adet H100 GPU gerekiyor. bfloat16 hassasiyetinde çalışılabilir sınır yaklaşık 1,4 milyon tokena düşüyor. Uzun bağlam doğruluk testlerinde Llama 4 Scout, Fiction.Livebench'te %15,6 alıyor. Gemini aynı testte %90,6.
Büyük spesifikasyon, kısıtlı gerçek dünya performansı kalıbı sağlayıcılar genelinde tekrarlanıyor. Context window büyüklüğü model kararını yönlendirmeden önce:
Kendi veri dağılımınızla test edin, yapay benchmark değil
Özelliğinizin gerçekten ihtiyaç duyduğu token derinliğinde doğruluğu ölçün
Maliyeti hesaba katın: uzun bağlam her API çağrısında daha fazla token demek ve bu ölçekte katlanıyor
Ham context büyüklüğünü optimize etmeden önce retrieval augmented generation seçeneğini değerlendirin
Soru hangi model en büyük context window'a sahip değil: belirli özelliğiniz hangi bağlam derinliğine ihtiyaç duyuyor ve bu beklenen hacimde API başına ne kadar tutuyor?


Dört İş Yükü Türü, Dört Farklı Başlangıç Noktası
Chatbot için doğru model katmanı, kod üretimi için doğru katmandan farklıdır. Sağlayıcı değerlendirmesine geçmeden önce özelliğinizi bu kategorilerden birine oturtun.
Konuşmacı AI ve chatbot. Mid frontier ve budget API modeller üretim chatbot kullanım durumlarının büyük çoğunluğunu karşılar. Kullanıcılar çoğu konuşma turunda Sonnet sınıfı ile Opus sınıfı arasındaki farkı algılamaz. Gecikmeyi algılar. Kalite eşiğini geçen en hızlı modele yönlendirin, en yeteneklisine değil.
Kod üretimi ve geliştirici araçları. Claude Sonnet 4.6, SWE-bench Verified'da %79,6 alarak kod üretimi iş yükleri için mid frontier temelini oluşturuyor. Claude Opus, otonom mühendislik görevleri ve frontier katmanı akıl yürütmesinin kullanıcıya yansıyan hata oranını doğrudan düşürdüğü daha uzun çok adımlı kod üretimi çalıştırmaları için bu tavanı yükseltiyor. Kod üreten, geliştirici araçlarına güç veren veya otomatik kod incelemesi yapan ürünler için katmanı görev karmaşıklığıyla eşleştirmek maliyet farkını haklı kılan şeydir.
Ses ve speech to text pipeline'ları. Burada LLM seçimi transkripsiyon katmanı kalitesinin ikincil meselesidir. Whisper, AssemblyAI ve Deepgram sınıfı servisler ses katmanını yönetir. LLM ortaya çıkan metni işler; çoğunlukla özetleme, konu çıkarma veya sınıflandırma. Bu aşağı akış görevlerinin büyük çoğunluğu için budget API katmanı yeterlidir.
Görüntü tanıma ve bilgisayarlı görü. Google Vision, AWS Rekognition, Azure AI Vision gibi yönetilen vision API'ları görsel çıkarımı üstlenir. LLM katmanı varsa vision API'dan gelen yapılandırılmış çıktıyı işler. Gemini 1.5 Pro gibi çok modlu modeller kullanım durumu gerçekten hibrit yapıdaysa katmanları birleştirir; ancak her API çağrısında mid frontier maliyeti taşır.
Uyumluluk ve Veri İkameti Gerçekte Ne Gerektiriyor?
Bu bölüm LLM seçim yazılarının büyük çoğunluğunun atladığı konudur. Sağlık, finans veya güçlü veri koruma mevzuatına sahip herhangi bir pazarda çalışan uygulamalar için model seçimi yalnızca yetenek ve maliyet kararı değildir; aynı zamanda hukuki bir karardır.
Kullanıcı verilerini bulut LLM API'sına göndermek, bu verinin altyapınızı terk etmesi ve üçüncü tarafça işlenmesi anlamına gelir. HIPAA kapsamında, korunan sağlık bilgilerini işleyen her satıcının İş Ortağı Sözleşmesi imzalaması gerekir. LLM API sağlayıcılarının büyük çoğunluğu bu sözleşmeyi sunar; ancak tüm planlar kapsam dahilinde değildir ve varsayılan kullanım koşulları gereksinimlerinizi karşılamayabilir. GDPR kapsamında, Avrupa Ekonomik Alanı dışına aktarılan veriler Standart Sözleşme Maddeleri veya eşdeğer güvence gerektirir. Büyük sağlayıcıların bir kısmı verileri varsayılan olarak Amerika Birleşik Devletleri'nde işler; bu durum AB kullanıcılarına yönelik ürünler için aktarım uyumluluğu yükümlülüğü doğurur.
Model seçimine yansıyan pratik sonuçlar:
Hasta verisi işleyen sağlık uygulamaları: herhangi bir bulut LLM sağlayıcısı seçmeden önce İş Ortağı Sözleşmesi erişilebilirliğini doğrulayın
PCI DSS veya bölgesel bankacılık düzenlemesi altındaki finans uygulamaları: LLM sağlayıcınızın düzenleyici kurumun onaylı satıcı listesinde olup olmadığını kontrol edin
GDPR kapsamındaki AB'ye yönelik ürünler: veri ikameti seçeneklerini teyit edin; bazı sağlayıcılar AB bölgesi işleme sunar, bazıları sunmaz
Belirli bir yargı bölgesini terk edemeyen veri içeren uygulamalar: kendi sunucusundaki açık ağırlık modeller (Llama 4, Mistral) çoğu zaman tek uyumlu seçenektir
Açık ağırlık modeller uyumluluk sorusunu satıcı koşullarından kendi altyapınıza taşır. Veri, model ve işleme ortamı sizin kontrolünüzdedir. Bu operasyonel maliyet ve mühendislik yükü getirir; ancak bazı ürün kategorileri için bu zorunluluktur, tercih değil.

Her Şeyi Etkileyen Mimari Karar
En riskli LLM mimarisi tek bir sağlayıcıyı stack'in her katmanına gömmektir. O sağlayıcı fiyatını değiştirdiğinde, model sürümünü kullanımdan kaldırdığında veya çıktı kalitesi düştüğünde bu bir yapılandırma güncellemesi değil, canlı ortamda bir incident olarak yüzeye çıkar.
Doğru yaklaşım uygulamanız ile herhangi bir LLM sağlayıcısı arasına bir soyutlama katmanı koymaktır. Uygulama bir iç servisi çağırır. İç servis sağlayıcıya yönlendirir. Model değişikliği veya maliyet bazlı ikinci bir katman eklemek codebase migrasyonu değil, yönlendirme konfigürasyonu olur. LangChain, LlamaIndex ve Haystack bu soyutlamayı hazır sunar. Flutter veya React Native ile mobil uygulama geliştirme için soyutlama API katmanında durur, istemci kodunda değil.
Bir üretim uygulaması için katmanlı yönlendirme stratejisi:
Karmaşık akıl yürütme, agent görevleri, düşük hacim: frontier'a yönlendir
Standart konuşma turları, soru-cevap, analiz: mid frontier'a yönlendir
Yüksek hacimli içerik üretimi, sınıflandırma, öneri: budget API'ya yönlendir
Veri ikameti kısıtlamalı işlemler (GDPR, HIPAA, SOC 2): kendi sunucusundaki açık ağırlık modele yönlendir
Bu aşırı mühendislik değildir. Üretim hacminde bu, tahmin edilebilir altyapı maliyeti ile kullanıcı büyümenizle doğrudan ölçeklenen maliyet arasındaki fark demektir.
Sıkça Sorulan Sorular
Frontier ve budget API modeller arasındaki pratik fark nedir?
Neon Apps müşteri ürünlerinde LLM seçimine nasıl yaklaşıyor?
Ne zaman açık ağırlık model, ne zaman kapalı API tercih edilmeli?
Neon Apps müşterilerini LLM vendor lock-in'e karşı nasıl koruyor?
Mevcut bir uygulamaya LLM entegrasyonu ne kadar sürer ve çalıştırma maliyeti ne olur?
İlham Almaya Devam Et
Yeni tasarım içgörüleri, makaleler ve kaynaklar doğrudan gelen kutunuza gelsin.
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeleri doğrudan gelen kutunuza alın.
Son Bloglar
İlham Almaya Devam Et
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeler doğrudan gelen kutunuza gelsin.
Bir projeniz mi var?
Bize Ulaşın
Bir projeniz mi var? Startup'lar ve küresel markalar için dünya standartlarında mobil ve web uygulamaları geliştiriyoruz.
Neon Apps, İstanbul ve New York ofislerinde 85 kişilik kendi ekibiyle mobil, web ve SaaS projeleri hayata geçiren bir ürün geliştirme şirketidir. Uzun vadeli bir çözüm ortağı olarak, markalar için ölçeklenebilir dijital ürünler üretiyoruz.



