
Yazılım Geliştirme
AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir
AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir
2026'da ses transkripsiyon uygulamaları için pratik geliştirme rehberi. Luni için yapılan Lexi'den mimari kararlar ve sahadan çıkarımlar.
2026'da ses transkripsiyon uygulamaları için pratik geliştirme rehberi. Luni için yapılan Lexi'den mimari kararlar ve sahadan çıkarımlar.
2026'da AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir: Lexi'den Çıkarımlar
AI ses transkripsiyon uygulamaları son üç yılda neredeyse hiçbir kategoride görmediğimiz bir hızla değişti. OpenAI'nın Whisper'ı yayınlaması, AssemblyAI ve Deepgram gibi cloud API'lerin olgunlaşması, iOS ve Android tarafında cihazda konuşma tanımanın istikrarlı şekilde gelişmesi; eskiden ciddi bir araştırma problemi olan transkripsiyon işini odaklı bir ekibin üç ayda yayına alabileceği bir noktaya getirdi. 2026'da artık zorluk doğrulukta değil. Sorular daha çok şu yönde: cihazda mı yoksa cloud transkripsiyon mu seçmeli, kullanıcıyı yormayan bir kayıt deneyimi nasıl tasarlanır, ham transkripsiyondan nasıl faydalı bir özet çıkarılır, gerçek konuşmaları yakalayan ses verisinin gizlilik gerçekleri nasıl yönetilir? Yayına aldığımız 500'ü aşkın ürün arasında bu kategorideki en yeni örnek Luni için geliştirdiğimiz Lexi. Üç ayda teslim ettiğimiz bu uygulama günlük düşünmeyi, toplantıları ve dersleri kayıt altına alıp transkribe ediyor ve özetliyor. Bu rehberde bir AI ses transkripsiyon uygulamasının ne yaptığını, arkasındaki üç aşamalı pipeline'ı ve yayına çıkan mimari kararları nasıl alacağınızı parça parça inceleyeceğiz.
2026'da Ses Transkripsiyon Uygulaması Manzarası
Kategori artık az sayıda tanınan pattern etrafında oturmuş durumda. Otter.ai, Notta, Fireflies ve tactiq toplantı odaklı segmentin liderleri. Voicenotes ve AudioPen gibi uygulamalar günlük ses günlüğü ve fikir yakalama tarafına hizmet ediyor; Luni için geliştirdiğimiz Lexi de aynı segmentte konumlanıyor. Konuşmadan metne dönüştürme özelliği iOS Notes'a, Android Notes'a ve çoğu üretkenlik aracına yerleşmiş durumda. Yani 2026'da farklılaştırıcı artık "doğru transkribe edebilmek" değil. Whisper tek başına bile beş yıl önce araştırma seviyesinde sayılan doğruluğa ulaşıyor. Asıl fark şurada: uygulama transkripsiyonla ne yapıyor? Düzenliyor mu, özetliyor mu, kullanıcının diğer araçlarına bağlıyor mu, paylaşılabilir hale getiriyor mu?
Pazar 2023'ten beri net bir şekilde ikiye bölünmüş durumda. Toplantı odaklı transkripsiyon ürünleri kullanıcı başına ayda 10 ile 30 dolar arası fiyatlandırma yapıyor ve ekiplere hizmet ediyor. Kişisel ses notu ürünleri ayda 5 ile 15 dolar arası fiyatla bireylere yöneliyor. Teknik iş benzer; ama kullanıcı davranışı, retention pattern'ı ve gelir modeli birbirinden belirgin şekilde ayrışıyor. Bu kategoride inşa edecek bir ekibin mimari işe başlamadan önce hangi tarafta olacağına karar vermesi gerekiyor, çünkü kararlar hızla zincirleme etki üretiyor.
Diğer önemli değişim on device transkripsiyon tarafında. Apple'ın Speech framework'ü iOS 13'ten beri her yıl belirgin biçimde gelişti ve iOS 17 itibarıyla birçok günlük ses notu senaryosu için istek başına sıfır maliyetle yetiyor. Android tarafında SpeechRecognizer benzer bir taban sunuyor. Tradeoff iki tarafta da aynı: gürültülü ortamda doğruluk düşüyor, dil kapsamı sınırlı kalıyor. Bu yüzden 2026'daki production uygulamalarının çoğu hibrit yaklaşım benimsiyor; on device hızlı ilk transkripsiyon için, cloud ise kullanıcının daha yüksek doğruluk istediği anlar için.

AI Ses Transkripsiyon Uygulaması Aslında Ne Yapıyor
AI ses transkripsiyon uygulaması: Ses kaydeden, bir machine learning modeli aracılığıyla konuşmayı yazılı metne dönüştüren ve sonucu kullanıcıya aranabilir, düzenlenebilir, çoğu zaman özetlenmiş notlar şeklinde sunan mobil uygulama. Transkripsiyon modeli cihazda, cloud'da ya da hibrit yapıda çalışabilir; sonuç genellikle klasör, etiket veya takvim bağlantısı gibi organizasyon özellikleriyle birlikte sunulur.
Kategori isminden çok daha geniş bir alanı kapsıyor. Bir minimum viable transkripsiyon uygulaması ses kaydeder ve metin döndürür. Tam bir ürün ise üzerine organizasyon, özet, arama, takvim entegrasyonu, paylaşım, bazen de çeviri katmanları ekler. Örneğin Luni için yaptığımız Lexi ses notlarını kaydediyor, arka planda transkribe ediyor, kısa özetler üretiyor, kayıtları takvim etkinliklerine bağlıyor ve mevcut medyayı transkribe etmek için ses veya video dosyası import edilmesine izin veriyor. Bu son özellik yani dosya importu, kategorideki en az konuşulan farklılaştırıcılardan biri. Birçok kullanıcının uygulamadan önce kaydedilmiş ses memoları, podcast klipleri ya da toplantı kayıtları var. Bunları içe aktarabilmek ürünü "yeni bir defter" olmaktan çıkarıp gerçek bir arşiv aracına dönüştürüyor.
Kullanım senaryoları genelde üç gruba ayrılıyor. İlki toplantı yakalama; kullanıcı söylenenlerin aranabilir bir kaydını istiyor. İkincisi çalışma veya ders takibi; kullanıcı dinlemeye odaklanmak ve detaylara sonradan dönmek istiyor. Üçüncüsü fikir yakalama; kullanıcı yüksek sesle düşünmek ve sonucu yapılandırılmış nota dönüştürmek istiyor. Her biri farklı kayıt, transkripsiyon ve geri çağırma ihtiyacı doğuruyor. Üçüne birden iyi hizmet etmeye çalışan uygulamalar genellikle hiçbirini iyi yapamıyor.
Üç Aşamalı Pipeline: Kaydet, Transkribe Et, Özetle
Çalışan bir ses transkripsiyon uygulaması sesi üç aşamadan geçiriyor. Her aşamanın kendi kararları var ve bir aşamadaki seçim bir sonrakini doğrudan kısıtlıyor.
Aşama | Amaç | Yaygın Kararlar |
Kayıt | Sesi temiz şekilde yakalamak | Format, sample rate, sıkıştırma, arka plan kaydı |
Transkripsiyon | Konuşmayı metne çevirmek | On device veya cloud, model seçimi, dil desteği |
Özet | Transkripsiyondan yapılandırılmış çıktı üretmek | LLM seçimi, prompt tasarımı, özet uzunluğu |
Aşama 1: Kayıt
Founder'ların en sık hafife aldığı kısım kayıt aşaması. Capture akışı kesintiye uğrayan oturumları (toplantı sırasında gelen telefon araması), arka plan kaydını (uygulama foreground'da değilken), depolamayla kaliteyi dengeleyen format seçimlerini ve platforma göre değişen mikrofon izinlerini doğru şekilde ele almak zorunda.
iOS doğru capability flag'leri ile arka planda ses kaydına izin veriyor; ancak sistem bellek baskısı altında uygulamayı askıya alabiliyor. Android ise güvenilir arka plan kaydı için foreground service zorunlu kılıyor. Her iki platform da kullanıcının mikrofon iznini açıkça vermesini bekliyor ve uygulamanın mikrofona neden ihtiyaç duyduğunu anlatamadığı bir izin akışı, kullanıcıların terk ettiği ilk yer oluyor. Lexi bunu kaydı temel değer olarak çerçeveleyen bir giriş ekranıyla çözüyor; izin isteği tam olarak kullanıcı kayıt'a dokunduğu anda devreye giriyor.
Format seçimi de göründüğünden önemli. 44,1kHz uncompressed WAV konuşma için aşırıya kaçar ve depolamayı çok hızlı tüketir. 16kHz mono AAC ise sesli notlar için tipik tatlı nokta: depolanması ve aktarılması yeterince küçük, modern bir transkripsiyon modeli için yeterince doğru. Apple tarafında AVAudioRecorder, Android tarafında MediaRecorder bu konfigürasyonu küçük tunings ile zaten destekliyor.


Aşama 2: Transkripsiyon
On device ile cloud arasındaki mimari karar bu aşamada veriliyor. Seçim doğruluk ihtiyacına, gizlilik gereksinimlerine, gecikme toleransına ve istek başına maliyete bağlı.
On device transkripsiyon: Apple'ın iOS Speech framework'ü ve Android'in SpeechRecognizer'ı yerel olarak çalışıyor. Ücretsizler, hızlılar ve ses cihazda kalıyor. Doğruluk; desteklenen dillerde ve temiz konuşmada iyi seviyede, ancak gürültülü ortamlarda, aksanlı konuşmada veya teknik vokabülerde belirgin şekilde düşüyor. iOS Speech framework'ünün son sürümü sürekli tanımayı ve cihaz üzerinde çalışan dil modellerini destekliyor.
Cloud transkripsiyon: OpenAI'nın Whisper API'si, AssemblyAI, Deepgram ve Google Cloud Speech to Text farklı diller, aksanlar ve gürültülü ses koşullarında belirgin şekilde daha yüksek doğruluk veriyor. Whisper Large v3 onlarca dilde temiz seste insan seviyesine yakın doğruluğa ulaşıyor. Ödenen bedel istek başına maliyet (genellikle dakikada 0,006 ile 0,024 dolar arası), ağ bağımlılığı ve sesi üçüncü tarafa göndermenin gizlilik etkisi.
Hibrit: Kullanıcı kayıt biter bitmez ilk transkripsiyonu on device alıyor; ardından isterse daha yüksek doğruluk veya cihazın iyi desteklemediği dil için cloud geçişi devreye giriyor. 2026'daki production uygulamalarının çoğu bu yapıya yöneliyor. Kullanıcı hızlı bir ilk transkripsiyon görüyor, uygulama da daha yüksek doğruluğu premium özellik olarak konumlandırabiliyor.
Lexi tarafında cloud öncelikli pipeline'ı tercih ettik; çünkü uygulamanın hedef senaryoları (toplantılar, dersler, fikirler) farklı konuşmacılar ve gürültülü ortamlar arasında yüksek doğruluk gerektiriyor. Arka plan işleme transkripsiyonu kullanıcı başka şeylerle ilgilenirken hallediyor, böylece cloud'un getirdiği gecikme deneyimde hissedilmiyor.
Aşama 3: Özet
Özet aşaması beş dakikalık bir toplantı transkripsiyonunu kullanıcının gerçekten okuyacağı bir paragrafa indirgiyor. Algılanan değer açısından buradaki LLM seçimi transkripsiyon seçiminden daha kritik; çünkü kullanıcının önce gördüğü çıktı özet.
Bu kategorideki uygulamaların çoğu üç yaklaşımdan birini benimsiyor. İlki: transkripsiyon tamamlandıktan sonra backend'den çağrılan hosted LLM (OpenAI'nın GPT 4 ailesi, Anthropic Claude, Google Gemini). İkincisi: maliyeti kontrol etmek için self host edilen daha küçük açık model (Llama, Mistral). Üçüncüsü: iOS 18'de Apple'ın Foundation Models framework'ü ya da Android'de Google'ın on device Gemini Nano'su ile cihaz üzerinde özetleme. On device seçenek henüz yeni ve sınırlı; ama hem istek başına maliyeti sıfırlıyor hem tüm akışı gizli tutuyor.
Özet için prompt tasarımı başlı başına bir disiplin. Sadece transkripsiyonu yeniden ifade eden özet kullanıcıya pek az şey ekliyor. Asıl değer; kararları, aksiyon maddelerini ve önemli soruları çıkaran özetlerden geliyor. Fark prompt yapısında ve uygulamanın kullanıcı beklentisini nasıl ayarladığında ortaya çıkıyor. Lexi'nin özet özelliği uzun toplantı recap'i değil günlük ses notu senaryosu için optimize edilmiş; çıktı kısa ve scan edilmesi kolay.
On Device ve Cloud Transkripsiyon: Dürüst Tradeoff
On device ile cloud arasındaki seçim nadiren ya o ya bu şeklinde. 2026'daki uygulamaların çoğu her ikisini de kullanıyor; hangisinin ne zaman çalışacağını çoğunlukla kullanıcı kontrol ediyor. Aşağıda dürüst tradeoff matrisi var.
Faktör | On Device | Cloud |
Temiz konuşmada doğruluk | İyi | Mükemmel |
Gürültülü veya aksanlı seste doğruluk | Daha düşük | Daha yüksek |
Gecikme | Anlık | Uzunluğa göre 1 ila 30 saniye |
İstek başına maliyet | Ücretsiz | Dakikada 0,006 ila 0,024 dolar |
Dil kapsamı | Sınırlı (platforma göre 12 ila 50 dil) | Geniş (sağlayıcıya göre 50 ila 100+ dil) |
Gizlilik | Ses cihazdan çıkmaz | Ses üçüncü tarafa gönderilir |
Çevrimdışı destek | Tam | Yok |
Pil tüketimi | Daha yüksek (telefonda CPU çalışır) | Daha düşük (CPU cloud'da) |
Doğru seçim kullanım senaryosuna göre değişiyor. Gizliliğe ve çevrimdışı kullanıma önem veren kullanıcıyı hedefleyen ses günlüğü uygulaması cihazda çalışmaya yatırım yapıyor. Profesyonel doğruluk ve geniş dil desteğine ihtiyaç duyan toplantı uygulaması cloud'a yatırım yapıyor. Lexi'de inşa ettiğimiz gibi bir günlük ses notu uygulaması her ikisini de kullanabiliyor; cevap çoğu zaman gelir modelinde saklı. Cloud transkripsiyon ekibe kullanıcı başına aylık maliyet getiriyor; bu yüzden cihazda çalışma kullanan ücretsiz katman ve cloud kullanan ücretli katmandan oluşan model temiz bir iş yapısı sunuyor.

Transkripsiyondan Sonrası: Organizasyon ve Geri Çağırma
2026'da kayıt ve transkripsiyon artık masada giriş bileti. Retention'ı asıl yöneten şey bir üst katmanda: kullanıcı transkripsiyonu sonradan nasıl bulacak, nasıl düzenleyecek, nasıl yeniden kullanacak? Kategoride farklılaşma çoğunlukla bu katmanda yaşanıyor.
Klasör ve etiket en temel özellikler. Lexi kullanıcıya notları konuya göre sıralamak için klasör, klasör arası gruplama için etiket sunuyor. Bir adım yukarısı takvim sync'i; kategorideki en yüksek değerli organizasyon özelliklerinden biri. Toplantı sırasında alınmış bir ses notu, takvim etkinliğine, katılımcılara ve zaman aralığına otomatik bağlandığında çok daha faydalı hale geliyor. Apple tarafında EventKit, Android tarafında CalendarContract API'leri bu bağlantıyı temiz şekilde kuruyor; kullanıcı değerine kıyasla mühendislik yükü orta seviyede kalıyor.
Üçüncü geri çağırma deseni transkripsiyonlar arası arama. Kullanıcı 50 ya da 100 nota ulaştığında scroll yapma yöntemi acı vermeye başlıyor; arama zorunlu hale geliyor. Tam metin araması teknik olarak basit (SQLite FTS5 veya benzeri) ama 2026'da kullanıcı beklentisi semantic search yönüne kaymış durumda. "Fiyat değişikliğiyle ilgili konuşma" gibi bir sorgunun bu ifadeyi içermeyen notları da öne çıkarması bekleniyor. Semantic search uygulamak embedding üretimi ve vector store gerektiriyor; bu yatırımı kullanıcı tabanı yeterince büyüdüğünde almak makul.
Gizlilik bu katmanda da belirleyici. Transkripsiyonlar nerede yaşıyor? Yalnızca cihazda mı, ekibin backend'inde mi, üçüncü taraf sağlayıcının altyapısında mı? Her seçenek uyumluluk, kullanıcı güveni ve operasyon açısından farklı sonuçlar doğuruyor. Kişisel ses notu uygulamaları için en temiz yapı yerel öncelikli depolama ve isteğe bağlı cloud sync; kullanıcıyı kontrolde tutuyor ve cihazlar arası erişim isteyenleri de destekliyor.
Ne İnşa Edileceğine Nasıl Karar Verilir
Aşağıdaki karar çerçevesi 2026'da bir ses transkripsiyon uygulaması için en yaygın başlangıç noktalarına eşleşiyor.
Kullanım senaryosu ekipler için toplantı yakalama ise ilk günden cloud transkripsiyon, takvim entegrasyonu ve paylaşılabilir transkripsiyonlar üzerine inşa edin. Doğruluk çıtası yüksek; kullanıcı transkripsiyon başına kuruşlar için değil tasarruf ettiği zaman için ödüyor.
Kullanım senaryosu kişisel ses notu ise önce hızlı kayıt ve sade organizasyona, ikinci sırada doğruluğa odaklanın. Bu segmentteki kullanıcılar bir transkripsiyon hatasını hantal bir kayıt akışından çok daha kolay bağışlıyor. On device transkripsiyon başlangıçta çoğu zaman yeterli.
Kullanım senaryosu çalışma veya ders kaydı ise long form kayıt istikrarına, aramaya ve özet kalitesine yatırım yapın. Bu kullanıcılar 30 dakika ile birkaç saat arası oturumlar kaydediyor; özellik genişliğinden çok güvenilir arka plan kaydı önemli.
Hedef kitle gizlilik konusunda hassassa on device transkripsiyon başlı başına satış noktası olur. Mimari değişiyor (cihazda Whisper.cpp, daha küçük modeller, daha çok kayıt cilası); ama farklılaştırma gerçek ve segment ödemeye istekli.
Ekip emin değilse cloud öncelikli pipeline ve on device fallback'lı bir hibrit kurun; hangi tarafın kazandığına kullanıcı davranışı karar versin. Kategorideki başarılı uygulamaların çoğunun yaptığı bu. Lexi de aynı yolu izledi; cloud öncelikli karar uygulamanın toplantılarda ve derslerde iyi çalışmasını sağlıyor, ileride spesifik gizlilik senaryoları için on device eklenebilmesinin önü açık kalıyor.
En sık başarısız olan yaklaşım, kayıt akışı, organizasyon ve özet kalitesi pahasına transkripsiyon doğruluğuna fazla yatırım yapmak. Başlatması iki dokunuş gerektiren %99 doğru bir transkripsiyon, sesi tek dokunuşta yakalayan %95 doğru bir transkripsiyona her zaman kaybediyor. Ürün sadece model değil, tüm deneyim. Bu kararları doğrulamak için yardım isteyen ekipler genellikle canlıda ses ve AI ürünleri yayına almış mobile app development partnerleriyle çalışıyor.
İlgili Projeler
Sıkça Sorulan Sorular
Transkripsiyon için Whisper mı Apple Speech mi kullanmalıyım?
Neon Apps AI ses transkripsiyon uygulaması projelerine ne tür bir deneyim getiriyor?
Ses transkripsiyon uygulamasını ölçeğe taşıdığınızda maliyeti ne oluyor?
Neon Apps ses transkripsiyon uygulaması için mimariye nasıl yaklaşıyor?
Bir ses transkripsiyon uygulamasını sıfırdan yayına almak ne kadar sürüyor?
İlham Almaya Devam Et
Yeni tasarım içgörüleri, makaleler ve kaynaklar doğrudan gelen kutunuza gelsin.
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeleri doğrudan gelen kutunuza alın.
Son Bloglar
İlham Almaya Devam Et
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeler doğrudan gelen kutunuza gelsin.
Bir projeniz mi var?
Bize Ulaşın
Bir projeniz mi var? Startup'lar ve küresel markalar için dünya standartlarında mobil ve web uygulamaları geliştiriyoruz.
Neon Apps, İstanbul ve New York ofislerinde 85 kişilik kendi ekibiyle mobil, web ve SaaS projeleri hayata geçiren bir ürün geliştirme şirketidir. Uzun vadeli bir çözüm ortağı olarak, markalar için ölçeklenebilir dijital ürünler üretiyoruz.

Yazılım Geliştirme
AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir
AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir
2026'da ses transkripsiyon uygulamaları için pratik geliştirme rehberi. Luni için yapılan Lexi'den mimari kararlar ve sahadan çıkarımlar.
2026'da ses transkripsiyon uygulamaları için pratik geliştirme rehberi. Luni için yapılan Lexi'den mimari kararlar ve sahadan çıkarımlar.
2026'da AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir: Lexi'den Çıkarımlar
AI ses transkripsiyon uygulamaları son üç yılda neredeyse hiçbir kategoride görmediğimiz bir hızla değişti. OpenAI'nın Whisper'ı yayınlaması, AssemblyAI ve Deepgram gibi cloud API'lerin olgunlaşması, iOS ve Android tarafında cihazda konuşma tanımanın istikrarlı şekilde gelişmesi; eskiden ciddi bir araştırma problemi olan transkripsiyon işini odaklı bir ekibin üç ayda yayına alabileceği bir noktaya getirdi. 2026'da artık zorluk doğrulukta değil. Sorular daha çok şu yönde: cihazda mı yoksa cloud transkripsiyon mu seçmeli, kullanıcıyı yormayan bir kayıt deneyimi nasıl tasarlanır, ham transkripsiyondan nasıl faydalı bir özet çıkarılır, gerçek konuşmaları yakalayan ses verisinin gizlilik gerçekleri nasıl yönetilir? Yayına aldığımız 500'ü aşkın ürün arasında bu kategorideki en yeni örnek Luni için geliştirdiğimiz Lexi. Üç ayda teslim ettiğimiz bu uygulama günlük düşünmeyi, toplantıları ve dersleri kayıt altına alıp transkribe ediyor ve özetliyor. Bu rehberde bir AI ses transkripsiyon uygulamasının ne yaptığını, arkasındaki üç aşamalı pipeline'ı ve yayına çıkan mimari kararları nasıl alacağınızı parça parça inceleyeceğiz.
2026'da Ses Transkripsiyon Uygulaması Manzarası
Kategori artık az sayıda tanınan pattern etrafında oturmuş durumda. Otter.ai, Notta, Fireflies ve tactiq toplantı odaklı segmentin liderleri. Voicenotes ve AudioPen gibi uygulamalar günlük ses günlüğü ve fikir yakalama tarafına hizmet ediyor; Luni için geliştirdiğimiz Lexi de aynı segmentte konumlanıyor. Konuşmadan metne dönüştürme özelliği iOS Notes'a, Android Notes'a ve çoğu üretkenlik aracına yerleşmiş durumda. Yani 2026'da farklılaştırıcı artık "doğru transkribe edebilmek" değil. Whisper tek başına bile beş yıl önce araştırma seviyesinde sayılan doğruluğa ulaşıyor. Asıl fark şurada: uygulama transkripsiyonla ne yapıyor? Düzenliyor mu, özetliyor mu, kullanıcının diğer araçlarına bağlıyor mu, paylaşılabilir hale getiriyor mu?
Pazar 2023'ten beri net bir şekilde ikiye bölünmüş durumda. Toplantı odaklı transkripsiyon ürünleri kullanıcı başına ayda 10 ile 30 dolar arası fiyatlandırma yapıyor ve ekiplere hizmet ediyor. Kişisel ses notu ürünleri ayda 5 ile 15 dolar arası fiyatla bireylere yöneliyor. Teknik iş benzer; ama kullanıcı davranışı, retention pattern'ı ve gelir modeli birbirinden belirgin şekilde ayrışıyor. Bu kategoride inşa edecek bir ekibin mimari işe başlamadan önce hangi tarafta olacağına karar vermesi gerekiyor, çünkü kararlar hızla zincirleme etki üretiyor.
Diğer önemli değişim on device transkripsiyon tarafında. Apple'ın Speech framework'ü iOS 13'ten beri her yıl belirgin biçimde gelişti ve iOS 17 itibarıyla birçok günlük ses notu senaryosu için istek başına sıfır maliyetle yetiyor. Android tarafında SpeechRecognizer benzer bir taban sunuyor. Tradeoff iki tarafta da aynı: gürültülü ortamda doğruluk düşüyor, dil kapsamı sınırlı kalıyor. Bu yüzden 2026'daki production uygulamalarının çoğu hibrit yaklaşım benimsiyor; on device hızlı ilk transkripsiyon için, cloud ise kullanıcının daha yüksek doğruluk istediği anlar için.

AI Ses Transkripsiyon Uygulaması Aslında Ne Yapıyor
AI ses transkripsiyon uygulaması: Ses kaydeden, bir machine learning modeli aracılığıyla konuşmayı yazılı metne dönüştüren ve sonucu kullanıcıya aranabilir, düzenlenebilir, çoğu zaman özetlenmiş notlar şeklinde sunan mobil uygulama. Transkripsiyon modeli cihazda, cloud'da ya da hibrit yapıda çalışabilir; sonuç genellikle klasör, etiket veya takvim bağlantısı gibi organizasyon özellikleriyle birlikte sunulur.
Kategori isminden çok daha geniş bir alanı kapsıyor. Bir minimum viable transkripsiyon uygulaması ses kaydeder ve metin döndürür. Tam bir ürün ise üzerine organizasyon, özet, arama, takvim entegrasyonu, paylaşım, bazen de çeviri katmanları ekler. Örneğin Luni için yaptığımız Lexi ses notlarını kaydediyor, arka planda transkribe ediyor, kısa özetler üretiyor, kayıtları takvim etkinliklerine bağlıyor ve mevcut medyayı transkribe etmek için ses veya video dosyası import edilmesine izin veriyor. Bu son özellik yani dosya importu, kategorideki en az konuşulan farklılaştırıcılardan biri. Birçok kullanıcının uygulamadan önce kaydedilmiş ses memoları, podcast klipleri ya da toplantı kayıtları var. Bunları içe aktarabilmek ürünü "yeni bir defter" olmaktan çıkarıp gerçek bir arşiv aracına dönüştürüyor.
Kullanım senaryoları genelde üç gruba ayrılıyor. İlki toplantı yakalama; kullanıcı söylenenlerin aranabilir bir kaydını istiyor. İkincisi çalışma veya ders takibi; kullanıcı dinlemeye odaklanmak ve detaylara sonradan dönmek istiyor. Üçüncüsü fikir yakalama; kullanıcı yüksek sesle düşünmek ve sonucu yapılandırılmış nota dönüştürmek istiyor. Her biri farklı kayıt, transkripsiyon ve geri çağırma ihtiyacı doğuruyor. Üçüne birden iyi hizmet etmeye çalışan uygulamalar genellikle hiçbirini iyi yapamıyor.
Üç Aşamalı Pipeline: Kaydet, Transkribe Et, Özetle
Çalışan bir ses transkripsiyon uygulaması sesi üç aşamadan geçiriyor. Her aşamanın kendi kararları var ve bir aşamadaki seçim bir sonrakini doğrudan kısıtlıyor.
Aşama | Amaç | Yaygın Kararlar |
Kayıt | Sesi temiz şekilde yakalamak | Format, sample rate, sıkıştırma, arka plan kaydı |
Transkripsiyon | Konuşmayı metne çevirmek | On device veya cloud, model seçimi, dil desteği |
Özet | Transkripsiyondan yapılandırılmış çıktı üretmek | LLM seçimi, prompt tasarımı, özet uzunluğu |
Aşama 1: Kayıt
Founder'ların en sık hafife aldığı kısım kayıt aşaması. Capture akışı kesintiye uğrayan oturumları (toplantı sırasında gelen telefon araması), arka plan kaydını (uygulama foreground'da değilken), depolamayla kaliteyi dengeleyen format seçimlerini ve platforma göre değişen mikrofon izinlerini doğru şekilde ele almak zorunda.
iOS doğru capability flag'leri ile arka planda ses kaydına izin veriyor; ancak sistem bellek baskısı altında uygulamayı askıya alabiliyor. Android ise güvenilir arka plan kaydı için foreground service zorunlu kılıyor. Her iki platform da kullanıcının mikrofon iznini açıkça vermesini bekliyor ve uygulamanın mikrofona neden ihtiyaç duyduğunu anlatamadığı bir izin akışı, kullanıcıların terk ettiği ilk yer oluyor. Lexi bunu kaydı temel değer olarak çerçeveleyen bir giriş ekranıyla çözüyor; izin isteği tam olarak kullanıcı kayıt'a dokunduğu anda devreye giriyor.
Format seçimi de göründüğünden önemli. 44,1kHz uncompressed WAV konuşma için aşırıya kaçar ve depolamayı çok hızlı tüketir. 16kHz mono AAC ise sesli notlar için tipik tatlı nokta: depolanması ve aktarılması yeterince küçük, modern bir transkripsiyon modeli için yeterince doğru. Apple tarafında AVAudioRecorder, Android tarafında MediaRecorder bu konfigürasyonu küçük tunings ile zaten destekliyor.


Aşama 2: Transkripsiyon
On device ile cloud arasındaki mimari karar bu aşamada veriliyor. Seçim doğruluk ihtiyacına, gizlilik gereksinimlerine, gecikme toleransına ve istek başına maliyete bağlı.
On device transkripsiyon: Apple'ın iOS Speech framework'ü ve Android'in SpeechRecognizer'ı yerel olarak çalışıyor. Ücretsizler, hızlılar ve ses cihazda kalıyor. Doğruluk; desteklenen dillerde ve temiz konuşmada iyi seviyede, ancak gürültülü ortamlarda, aksanlı konuşmada veya teknik vokabülerde belirgin şekilde düşüyor. iOS Speech framework'ünün son sürümü sürekli tanımayı ve cihaz üzerinde çalışan dil modellerini destekliyor.
Cloud transkripsiyon: OpenAI'nın Whisper API'si, AssemblyAI, Deepgram ve Google Cloud Speech to Text farklı diller, aksanlar ve gürültülü ses koşullarında belirgin şekilde daha yüksek doğruluk veriyor. Whisper Large v3 onlarca dilde temiz seste insan seviyesine yakın doğruluğa ulaşıyor. Ödenen bedel istek başına maliyet (genellikle dakikada 0,006 ile 0,024 dolar arası), ağ bağımlılığı ve sesi üçüncü tarafa göndermenin gizlilik etkisi.
Hibrit: Kullanıcı kayıt biter bitmez ilk transkripsiyonu on device alıyor; ardından isterse daha yüksek doğruluk veya cihazın iyi desteklemediği dil için cloud geçişi devreye giriyor. 2026'daki production uygulamalarının çoğu bu yapıya yöneliyor. Kullanıcı hızlı bir ilk transkripsiyon görüyor, uygulama da daha yüksek doğruluğu premium özellik olarak konumlandırabiliyor.
Lexi tarafında cloud öncelikli pipeline'ı tercih ettik; çünkü uygulamanın hedef senaryoları (toplantılar, dersler, fikirler) farklı konuşmacılar ve gürültülü ortamlar arasında yüksek doğruluk gerektiriyor. Arka plan işleme transkripsiyonu kullanıcı başka şeylerle ilgilenirken hallediyor, böylece cloud'un getirdiği gecikme deneyimde hissedilmiyor.
Aşama 3: Özet
Özet aşaması beş dakikalık bir toplantı transkripsiyonunu kullanıcının gerçekten okuyacağı bir paragrafa indirgiyor. Algılanan değer açısından buradaki LLM seçimi transkripsiyon seçiminden daha kritik; çünkü kullanıcının önce gördüğü çıktı özet.
Bu kategorideki uygulamaların çoğu üç yaklaşımdan birini benimsiyor. İlki: transkripsiyon tamamlandıktan sonra backend'den çağrılan hosted LLM (OpenAI'nın GPT 4 ailesi, Anthropic Claude, Google Gemini). İkincisi: maliyeti kontrol etmek için self host edilen daha küçük açık model (Llama, Mistral). Üçüncüsü: iOS 18'de Apple'ın Foundation Models framework'ü ya da Android'de Google'ın on device Gemini Nano'su ile cihaz üzerinde özetleme. On device seçenek henüz yeni ve sınırlı; ama hem istek başına maliyeti sıfırlıyor hem tüm akışı gizli tutuyor.
Özet için prompt tasarımı başlı başına bir disiplin. Sadece transkripsiyonu yeniden ifade eden özet kullanıcıya pek az şey ekliyor. Asıl değer; kararları, aksiyon maddelerini ve önemli soruları çıkaran özetlerden geliyor. Fark prompt yapısında ve uygulamanın kullanıcı beklentisini nasıl ayarladığında ortaya çıkıyor. Lexi'nin özet özelliği uzun toplantı recap'i değil günlük ses notu senaryosu için optimize edilmiş; çıktı kısa ve scan edilmesi kolay.
On Device ve Cloud Transkripsiyon: Dürüst Tradeoff
On device ile cloud arasındaki seçim nadiren ya o ya bu şeklinde. 2026'daki uygulamaların çoğu her ikisini de kullanıyor; hangisinin ne zaman çalışacağını çoğunlukla kullanıcı kontrol ediyor. Aşağıda dürüst tradeoff matrisi var.
Faktör | On Device | Cloud |
Temiz konuşmada doğruluk | İyi | Mükemmel |
Gürültülü veya aksanlı seste doğruluk | Daha düşük | Daha yüksek |
Gecikme | Anlık | Uzunluğa göre 1 ila 30 saniye |
İstek başına maliyet | Ücretsiz | Dakikada 0,006 ila 0,024 dolar |
Dil kapsamı | Sınırlı (platforma göre 12 ila 50 dil) | Geniş (sağlayıcıya göre 50 ila 100+ dil) |
Gizlilik | Ses cihazdan çıkmaz | Ses üçüncü tarafa gönderilir |
Çevrimdışı destek | Tam | Yok |
Pil tüketimi | Daha yüksek (telefonda CPU çalışır) | Daha düşük (CPU cloud'da) |
Doğru seçim kullanım senaryosuna göre değişiyor. Gizliliğe ve çevrimdışı kullanıma önem veren kullanıcıyı hedefleyen ses günlüğü uygulaması cihazda çalışmaya yatırım yapıyor. Profesyonel doğruluk ve geniş dil desteğine ihtiyaç duyan toplantı uygulaması cloud'a yatırım yapıyor. Lexi'de inşa ettiğimiz gibi bir günlük ses notu uygulaması her ikisini de kullanabiliyor; cevap çoğu zaman gelir modelinde saklı. Cloud transkripsiyon ekibe kullanıcı başına aylık maliyet getiriyor; bu yüzden cihazda çalışma kullanan ücretsiz katman ve cloud kullanan ücretli katmandan oluşan model temiz bir iş yapısı sunuyor.

Transkripsiyondan Sonrası: Organizasyon ve Geri Çağırma
2026'da kayıt ve transkripsiyon artık masada giriş bileti. Retention'ı asıl yöneten şey bir üst katmanda: kullanıcı transkripsiyonu sonradan nasıl bulacak, nasıl düzenleyecek, nasıl yeniden kullanacak? Kategoride farklılaşma çoğunlukla bu katmanda yaşanıyor.
Klasör ve etiket en temel özellikler. Lexi kullanıcıya notları konuya göre sıralamak için klasör, klasör arası gruplama için etiket sunuyor. Bir adım yukarısı takvim sync'i; kategorideki en yüksek değerli organizasyon özelliklerinden biri. Toplantı sırasında alınmış bir ses notu, takvim etkinliğine, katılımcılara ve zaman aralığına otomatik bağlandığında çok daha faydalı hale geliyor. Apple tarafında EventKit, Android tarafında CalendarContract API'leri bu bağlantıyı temiz şekilde kuruyor; kullanıcı değerine kıyasla mühendislik yükü orta seviyede kalıyor.
Üçüncü geri çağırma deseni transkripsiyonlar arası arama. Kullanıcı 50 ya da 100 nota ulaştığında scroll yapma yöntemi acı vermeye başlıyor; arama zorunlu hale geliyor. Tam metin araması teknik olarak basit (SQLite FTS5 veya benzeri) ama 2026'da kullanıcı beklentisi semantic search yönüne kaymış durumda. "Fiyat değişikliğiyle ilgili konuşma" gibi bir sorgunun bu ifadeyi içermeyen notları da öne çıkarması bekleniyor. Semantic search uygulamak embedding üretimi ve vector store gerektiriyor; bu yatırımı kullanıcı tabanı yeterince büyüdüğünde almak makul.
Gizlilik bu katmanda da belirleyici. Transkripsiyonlar nerede yaşıyor? Yalnızca cihazda mı, ekibin backend'inde mi, üçüncü taraf sağlayıcının altyapısında mı? Her seçenek uyumluluk, kullanıcı güveni ve operasyon açısından farklı sonuçlar doğuruyor. Kişisel ses notu uygulamaları için en temiz yapı yerel öncelikli depolama ve isteğe bağlı cloud sync; kullanıcıyı kontrolde tutuyor ve cihazlar arası erişim isteyenleri de destekliyor.
Ne İnşa Edileceğine Nasıl Karar Verilir
Aşağıdaki karar çerçevesi 2026'da bir ses transkripsiyon uygulaması için en yaygın başlangıç noktalarına eşleşiyor.
Kullanım senaryosu ekipler için toplantı yakalama ise ilk günden cloud transkripsiyon, takvim entegrasyonu ve paylaşılabilir transkripsiyonlar üzerine inşa edin. Doğruluk çıtası yüksek; kullanıcı transkripsiyon başına kuruşlar için değil tasarruf ettiği zaman için ödüyor.
Kullanım senaryosu kişisel ses notu ise önce hızlı kayıt ve sade organizasyona, ikinci sırada doğruluğa odaklanın. Bu segmentteki kullanıcılar bir transkripsiyon hatasını hantal bir kayıt akışından çok daha kolay bağışlıyor. On device transkripsiyon başlangıçta çoğu zaman yeterli.
Kullanım senaryosu çalışma veya ders kaydı ise long form kayıt istikrarına, aramaya ve özet kalitesine yatırım yapın. Bu kullanıcılar 30 dakika ile birkaç saat arası oturumlar kaydediyor; özellik genişliğinden çok güvenilir arka plan kaydı önemli.
Hedef kitle gizlilik konusunda hassassa on device transkripsiyon başlı başına satış noktası olur. Mimari değişiyor (cihazda Whisper.cpp, daha küçük modeller, daha çok kayıt cilası); ama farklılaştırma gerçek ve segment ödemeye istekli.
Ekip emin değilse cloud öncelikli pipeline ve on device fallback'lı bir hibrit kurun; hangi tarafın kazandığına kullanıcı davranışı karar versin. Kategorideki başarılı uygulamaların çoğunun yaptığı bu. Lexi de aynı yolu izledi; cloud öncelikli karar uygulamanın toplantılarda ve derslerde iyi çalışmasını sağlıyor, ileride spesifik gizlilik senaryoları için on device eklenebilmesinin önü açık kalıyor.
En sık başarısız olan yaklaşım, kayıt akışı, organizasyon ve özet kalitesi pahasına transkripsiyon doğruluğuna fazla yatırım yapmak. Başlatması iki dokunuş gerektiren %99 doğru bir transkripsiyon, sesi tek dokunuşta yakalayan %95 doğru bir transkripsiyona her zaman kaybediyor. Ürün sadece model değil, tüm deneyim. Bu kararları doğrulamak için yardım isteyen ekipler genellikle canlıda ses ve AI ürünleri yayına almış mobile app development partnerleriyle çalışıyor.
İlgili Projeler
Sıkça Sorulan Sorular
Transkripsiyon için Whisper mı Apple Speech mi kullanmalıyım?
Neon Apps AI ses transkripsiyon uygulaması projelerine ne tür bir deneyim getiriyor?
Ses transkripsiyon uygulamasını ölçeğe taşıdığınızda maliyeti ne oluyor?
Neon Apps ses transkripsiyon uygulaması için mimariye nasıl yaklaşıyor?
Bir ses transkripsiyon uygulamasını sıfırdan yayına almak ne kadar sürüyor?
İlham Almaya Devam Et
Yeni tasarım içgörüleri, makaleler ve kaynaklar doğrudan gelen kutunuza gelsin.
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeleri doğrudan gelen kutunuza alın.
Son Bloglar
İlham Almaya Devam Et
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeler doğrudan gelen kutunuza gelsin.
Bir projeniz mi var?
Bize Ulaşın
Bir projeniz mi var? Startup'lar ve küresel markalar için dünya standartlarında mobil ve web uygulamaları geliştiriyoruz.
Neon Apps, İstanbul ve New York ofislerinde 85 kişilik kendi ekibiyle mobil, web ve SaaS projeleri hayata geçiren bir ürün geliştirme şirketidir. Uzun vadeli bir çözüm ortağı olarak, markalar için ölçeklenebilir dijital ürünler üretiyoruz.

Yazılım Geliştirme
AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir
AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir
2026'da ses transkripsiyon uygulamaları için pratik geliştirme rehberi. Luni için yapılan Lexi'den mimari kararlar ve sahadan çıkarımlar.
2026'da ses transkripsiyon uygulamaları için pratik geliştirme rehberi. Luni için yapılan Lexi'den mimari kararlar ve sahadan çıkarımlar.
2026'da AI Ses Transkripsiyon Uygulaması Nasıl Geliştirilir: Lexi'den Çıkarımlar
AI ses transkripsiyon uygulamaları son üç yılda neredeyse hiçbir kategoride görmediğimiz bir hızla değişti. OpenAI'nın Whisper'ı yayınlaması, AssemblyAI ve Deepgram gibi cloud API'lerin olgunlaşması, iOS ve Android tarafında cihazda konuşma tanımanın istikrarlı şekilde gelişmesi; eskiden ciddi bir araştırma problemi olan transkripsiyon işini odaklı bir ekibin üç ayda yayına alabileceği bir noktaya getirdi. 2026'da artık zorluk doğrulukta değil. Sorular daha çok şu yönde: cihazda mı yoksa cloud transkripsiyon mu seçmeli, kullanıcıyı yormayan bir kayıt deneyimi nasıl tasarlanır, ham transkripsiyondan nasıl faydalı bir özet çıkarılır, gerçek konuşmaları yakalayan ses verisinin gizlilik gerçekleri nasıl yönetilir? Yayına aldığımız 500'ü aşkın ürün arasında bu kategorideki en yeni örnek Luni için geliştirdiğimiz Lexi. Üç ayda teslim ettiğimiz bu uygulama günlük düşünmeyi, toplantıları ve dersleri kayıt altına alıp transkribe ediyor ve özetliyor. Bu rehberde bir AI ses transkripsiyon uygulamasının ne yaptığını, arkasındaki üç aşamalı pipeline'ı ve yayına çıkan mimari kararları nasıl alacağınızı parça parça inceleyeceğiz.
2026'da Ses Transkripsiyon Uygulaması Manzarası
Kategori artık az sayıda tanınan pattern etrafında oturmuş durumda. Otter.ai, Notta, Fireflies ve tactiq toplantı odaklı segmentin liderleri. Voicenotes ve AudioPen gibi uygulamalar günlük ses günlüğü ve fikir yakalama tarafına hizmet ediyor; Luni için geliştirdiğimiz Lexi de aynı segmentte konumlanıyor. Konuşmadan metne dönüştürme özelliği iOS Notes'a, Android Notes'a ve çoğu üretkenlik aracına yerleşmiş durumda. Yani 2026'da farklılaştırıcı artık "doğru transkribe edebilmek" değil. Whisper tek başına bile beş yıl önce araştırma seviyesinde sayılan doğruluğa ulaşıyor. Asıl fark şurada: uygulama transkripsiyonla ne yapıyor? Düzenliyor mu, özetliyor mu, kullanıcının diğer araçlarına bağlıyor mu, paylaşılabilir hale getiriyor mu?
Pazar 2023'ten beri net bir şekilde ikiye bölünmüş durumda. Toplantı odaklı transkripsiyon ürünleri kullanıcı başına ayda 10 ile 30 dolar arası fiyatlandırma yapıyor ve ekiplere hizmet ediyor. Kişisel ses notu ürünleri ayda 5 ile 15 dolar arası fiyatla bireylere yöneliyor. Teknik iş benzer; ama kullanıcı davranışı, retention pattern'ı ve gelir modeli birbirinden belirgin şekilde ayrışıyor. Bu kategoride inşa edecek bir ekibin mimari işe başlamadan önce hangi tarafta olacağına karar vermesi gerekiyor, çünkü kararlar hızla zincirleme etki üretiyor.
Diğer önemli değişim on device transkripsiyon tarafında. Apple'ın Speech framework'ü iOS 13'ten beri her yıl belirgin biçimde gelişti ve iOS 17 itibarıyla birçok günlük ses notu senaryosu için istek başına sıfır maliyetle yetiyor. Android tarafında SpeechRecognizer benzer bir taban sunuyor. Tradeoff iki tarafta da aynı: gürültülü ortamda doğruluk düşüyor, dil kapsamı sınırlı kalıyor. Bu yüzden 2026'daki production uygulamalarının çoğu hibrit yaklaşım benimsiyor; on device hızlı ilk transkripsiyon için, cloud ise kullanıcının daha yüksek doğruluk istediği anlar için.

AI Ses Transkripsiyon Uygulaması Aslında Ne Yapıyor
AI ses transkripsiyon uygulaması: Ses kaydeden, bir machine learning modeli aracılığıyla konuşmayı yazılı metne dönüştüren ve sonucu kullanıcıya aranabilir, düzenlenebilir, çoğu zaman özetlenmiş notlar şeklinde sunan mobil uygulama. Transkripsiyon modeli cihazda, cloud'da ya da hibrit yapıda çalışabilir; sonuç genellikle klasör, etiket veya takvim bağlantısı gibi organizasyon özellikleriyle birlikte sunulur.
Kategori isminden çok daha geniş bir alanı kapsıyor. Bir minimum viable transkripsiyon uygulaması ses kaydeder ve metin döndürür. Tam bir ürün ise üzerine organizasyon, özet, arama, takvim entegrasyonu, paylaşım, bazen de çeviri katmanları ekler. Örneğin Luni için yaptığımız Lexi ses notlarını kaydediyor, arka planda transkribe ediyor, kısa özetler üretiyor, kayıtları takvim etkinliklerine bağlıyor ve mevcut medyayı transkribe etmek için ses veya video dosyası import edilmesine izin veriyor. Bu son özellik yani dosya importu, kategorideki en az konuşulan farklılaştırıcılardan biri. Birçok kullanıcının uygulamadan önce kaydedilmiş ses memoları, podcast klipleri ya da toplantı kayıtları var. Bunları içe aktarabilmek ürünü "yeni bir defter" olmaktan çıkarıp gerçek bir arşiv aracına dönüştürüyor.
Kullanım senaryoları genelde üç gruba ayrılıyor. İlki toplantı yakalama; kullanıcı söylenenlerin aranabilir bir kaydını istiyor. İkincisi çalışma veya ders takibi; kullanıcı dinlemeye odaklanmak ve detaylara sonradan dönmek istiyor. Üçüncüsü fikir yakalama; kullanıcı yüksek sesle düşünmek ve sonucu yapılandırılmış nota dönüştürmek istiyor. Her biri farklı kayıt, transkripsiyon ve geri çağırma ihtiyacı doğuruyor. Üçüne birden iyi hizmet etmeye çalışan uygulamalar genellikle hiçbirini iyi yapamıyor.
Üç Aşamalı Pipeline: Kaydet, Transkribe Et, Özetle
Çalışan bir ses transkripsiyon uygulaması sesi üç aşamadan geçiriyor. Her aşamanın kendi kararları var ve bir aşamadaki seçim bir sonrakini doğrudan kısıtlıyor.
Aşama | Amaç | Yaygın Kararlar |
Kayıt | Sesi temiz şekilde yakalamak | Format, sample rate, sıkıştırma, arka plan kaydı |
Transkripsiyon | Konuşmayı metne çevirmek | On device veya cloud, model seçimi, dil desteği |
Özet | Transkripsiyondan yapılandırılmış çıktı üretmek | LLM seçimi, prompt tasarımı, özet uzunluğu |
Aşama 1: Kayıt
Founder'ların en sık hafife aldığı kısım kayıt aşaması. Capture akışı kesintiye uğrayan oturumları (toplantı sırasında gelen telefon araması), arka plan kaydını (uygulama foreground'da değilken), depolamayla kaliteyi dengeleyen format seçimlerini ve platforma göre değişen mikrofon izinlerini doğru şekilde ele almak zorunda.
iOS doğru capability flag'leri ile arka planda ses kaydına izin veriyor; ancak sistem bellek baskısı altında uygulamayı askıya alabiliyor. Android ise güvenilir arka plan kaydı için foreground service zorunlu kılıyor. Her iki platform da kullanıcının mikrofon iznini açıkça vermesini bekliyor ve uygulamanın mikrofona neden ihtiyaç duyduğunu anlatamadığı bir izin akışı, kullanıcıların terk ettiği ilk yer oluyor. Lexi bunu kaydı temel değer olarak çerçeveleyen bir giriş ekranıyla çözüyor; izin isteği tam olarak kullanıcı kayıt'a dokunduğu anda devreye giriyor.
Format seçimi de göründüğünden önemli. 44,1kHz uncompressed WAV konuşma için aşırıya kaçar ve depolamayı çok hızlı tüketir. 16kHz mono AAC ise sesli notlar için tipik tatlı nokta: depolanması ve aktarılması yeterince küçük, modern bir transkripsiyon modeli için yeterince doğru. Apple tarafında AVAudioRecorder, Android tarafında MediaRecorder bu konfigürasyonu küçük tunings ile zaten destekliyor.


Aşama 2: Transkripsiyon
On device ile cloud arasındaki mimari karar bu aşamada veriliyor. Seçim doğruluk ihtiyacına, gizlilik gereksinimlerine, gecikme toleransına ve istek başına maliyete bağlı.
On device transkripsiyon: Apple'ın iOS Speech framework'ü ve Android'in SpeechRecognizer'ı yerel olarak çalışıyor. Ücretsizler, hızlılar ve ses cihazda kalıyor. Doğruluk; desteklenen dillerde ve temiz konuşmada iyi seviyede, ancak gürültülü ortamlarda, aksanlı konuşmada veya teknik vokabülerde belirgin şekilde düşüyor. iOS Speech framework'ünün son sürümü sürekli tanımayı ve cihaz üzerinde çalışan dil modellerini destekliyor.
Cloud transkripsiyon: OpenAI'nın Whisper API'si, AssemblyAI, Deepgram ve Google Cloud Speech to Text farklı diller, aksanlar ve gürültülü ses koşullarında belirgin şekilde daha yüksek doğruluk veriyor. Whisper Large v3 onlarca dilde temiz seste insan seviyesine yakın doğruluğa ulaşıyor. Ödenen bedel istek başına maliyet (genellikle dakikada 0,006 ile 0,024 dolar arası), ağ bağımlılığı ve sesi üçüncü tarafa göndermenin gizlilik etkisi.
Hibrit: Kullanıcı kayıt biter bitmez ilk transkripsiyonu on device alıyor; ardından isterse daha yüksek doğruluk veya cihazın iyi desteklemediği dil için cloud geçişi devreye giriyor. 2026'daki production uygulamalarının çoğu bu yapıya yöneliyor. Kullanıcı hızlı bir ilk transkripsiyon görüyor, uygulama da daha yüksek doğruluğu premium özellik olarak konumlandırabiliyor.
Lexi tarafında cloud öncelikli pipeline'ı tercih ettik; çünkü uygulamanın hedef senaryoları (toplantılar, dersler, fikirler) farklı konuşmacılar ve gürültülü ortamlar arasında yüksek doğruluk gerektiriyor. Arka plan işleme transkripsiyonu kullanıcı başka şeylerle ilgilenirken hallediyor, böylece cloud'un getirdiği gecikme deneyimde hissedilmiyor.
Aşama 3: Özet
Özet aşaması beş dakikalık bir toplantı transkripsiyonunu kullanıcının gerçekten okuyacağı bir paragrafa indirgiyor. Algılanan değer açısından buradaki LLM seçimi transkripsiyon seçiminden daha kritik; çünkü kullanıcının önce gördüğü çıktı özet.
Bu kategorideki uygulamaların çoğu üç yaklaşımdan birini benimsiyor. İlki: transkripsiyon tamamlandıktan sonra backend'den çağrılan hosted LLM (OpenAI'nın GPT 4 ailesi, Anthropic Claude, Google Gemini). İkincisi: maliyeti kontrol etmek için self host edilen daha küçük açık model (Llama, Mistral). Üçüncüsü: iOS 18'de Apple'ın Foundation Models framework'ü ya da Android'de Google'ın on device Gemini Nano'su ile cihaz üzerinde özetleme. On device seçenek henüz yeni ve sınırlı; ama hem istek başına maliyeti sıfırlıyor hem tüm akışı gizli tutuyor.
Özet için prompt tasarımı başlı başına bir disiplin. Sadece transkripsiyonu yeniden ifade eden özet kullanıcıya pek az şey ekliyor. Asıl değer; kararları, aksiyon maddelerini ve önemli soruları çıkaran özetlerden geliyor. Fark prompt yapısında ve uygulamanın kullanıcı beklentisini nasıl ayarladığında ortaya çıkıyor. Lexi'nin özet özelliği uzun toplantı recap'i değil günlük ses notu senaryosu için optimize edilmiş; çıktı kısa ve scan edilmesi kolay.
On Device ve Cloud Transkripsiyon: Dürüst Tradeoff
On device ile cloud arasındaki seçim nadiren ya o ya bu şeklinde. 2026'daki uygulamaların çoğu her ikisini de kullanıyor; hangisinin ne zaman çalışacağını çoğunlukla kullanıcı kontrol ediyor. Aşağıda dürüst tradeoff matrisi var.
Faktör | On Device | Cloud |
Temiz konuşmada doğruluk | İyi | Mükemmel |
Gürültülü veya aksanlı seste doğruluk | Daha düşük | Daha yüksek |
Gecikme | Anlık | Uzunluğa göre 1 ila 30 saniye |
İstek başına maliyet | Ücretsiz | Dakikada 0,006 ila 0,024 dolar |
Dil kapsamı | Sınırlı (platforma göre 12 ila 50 dil) | Geniş (sağlayıcıya göre 50 ila 100+ dil) |
Gizlilik | Ses cihazdan çıkmaz | Ses üçüncü tarafa gönderilir |
Çevrimdışı destek | Tam | Yok |
Pil tüketimi | Daha yüksek (telefonda CPU çalışır) | Daha düşük (CPU cloud'da) |
Doğru seçim kullanım senaryosuna göre değişiyor. Gizliliğe ve çevrimdışı kullanıma önem veren kullanıcıyı hedefleyen ses günlüğü uygulaması cihazda çalışmaya yatırım yapıyor. Profesyonel doğruluk ve geniş dil desteğine ihtiyaç duyan toplantı uygulaması cloud'a yatırım yapıyor. Lexi'de inşa ettiğimiz gibi bir günlük ses notu uygulaması her ikisini de kullanabiliyor; cevap çoğu zaman gelir modelinde saklı. Cloud transkripsiyon ekibe kullanıcı başına aylık maliyet getiriyor; bu yüzden cihazda çalışma kullanan ücretsiz katman ve cloud kullanan ücretli katmandan oluşan model temiz bir iş yapısı sunuyor.

Transkripsiyondan Sonrası: Organizasyon ve Geri Çağırma
2026'da kayıt ve transkripsiyon artık masada giriş bileti. Retention'ı asıl yöneten şey bir üst katmanda: kullanıcı transkripsiyonu sonradan nasıl bulacak, nasıl düzenleyecek, nasıl yeniden kullanacak? Kategoride farklılaşma çoğunlukla bu katmanda yaşanıyor.
Klasör ve etiket en temel özellikler. Lexi kullanıcıya notları konuya göre sıralamak için klasör, klasör arası gruplama için etiket sunuyor. Bir adım yukarısı takvim sync'i; kategorideki en yüksek değerli organizasyon özelliklerinden biri. Toplantı sırasında alınmış bir ses notu, takvim etkinliğine, katılımcılara ve zaman aralığına otomatik bağlandığında çok daha faydalı hale geliyor. Apple tarafında EventKit, Android tarafında CalendarContract API'leri bu bağlantıyı temiz şekilde kuruyor; kullanıcı değerine kıyasla mühendislik yükü orta seviyede kalıyor.
Üçüncü geri çağırma deseni transkripsiyonlar arası arama. Kullanıcı 50 ya da 100 nota ulaştığında scroll yapma yöntemi acı vermeye başlıyor; arama zorunlu hale geliyor. Tam metin araması teknik olarak basit (SQLite FTS5 veya benzeri) ama 2026'da kullanıcı beklentisi semantic search yönüne kaymış durumda. "Fiyat değişikliğiyle ilgili konuşma" gibi bir sorgunun bu ifadeyi içermeyen notları da öne çıkarması bekleniyor. Semantic search uygulamak embedding üretimi ve vector store gerektiriyor; bu yatırımı kullanıcı tabanı yeterince büyüdüğünde almak makul.
Gizlilik bu katmanda da belirleyici. Transkripsiyonlar nerede yaşıyor? Yalnızca cihazda mı, ekibin backend'inde mi, üçüncü taraf sağlayıcının altyapısında mı? Her seçenek uyumluluk, kullanıcı güveni ve operasyon açısından farklı sonuçlar doğuruyor. Kişisel ses notu uygulamaları için en temiz yapı yerel öncelikli depolama ve isteğe bağlı cloud sync; kullanıcıyı kontrolde tutuyor ve cihazlar arası erişim isteyenleri de destekliyor.
Ne İnşa Edileceğine Nasıl Karar Verilir
Aşağıdaki karar çerçevesi 2026'da bir ses transkripsiyon uygulaması için en yaygın başlangıç noktalarına eşleşiyor.
Kullanım senaryosu ekipler için toplantı yakalama ise ilk günden cloud transkripsiyon, takvim entegrasyonu ve paylaşılabilir transkripsiyonlar üzerine inşa edin. Doğruluk çıtası yüksek; kullanıcı transkripsiyon başına kuruşlar için değil tasarruf ettiği zaman için ödüyor.
Kullanım senaryosu kişisel ses notu ise önce hızlı kayıt ve sade organizasyona, ikinci sırada doğruluğa odaklanın. Bu segmentteki kullanıcılar bir transkripsiyon hatasını hantal bir kayıt akışından çok daha kolay bağışlıyor. On device transkripsiyon başlangıçta çoğu zaman yeterli.
Kullanım senaryosu çalışma veya ders kaydı ise long form kayıt istikrarına, aramaya ve özet kalitesine yatırım yapın. Bu kullanıcılar 30 dakika ile birkaç saat arası oturumlar kaydediyor; özellik genişliğinden çok güvenilir arka plan kaydı önemli.
Hedef kitle gizlilik konusunda hassassa on device transkripsiyon başlı başına satış noktası olur. Mimari değişiyor (cihazda Whisper.cpp, daha küçük modeller, daha çok kayıt cilası); ama farklılaştırma gerçek ve segment ödemeye istekli.
Ekip emin değilse cloud öncelikli pipeline ve on device fallback'lı bir hibrit kurun; hangi tarafın kazandığına kullanıcı davranışı karar versin. Kategorideki başarılı uygulamaların çoğunun yaptığı bu. Lexi de aynı yolu izledi; cloud öncelikli karar uygulamanın toplantılarda ve derslerde iyi çalışmasını sağlıyor, ileride spesifik gizlilik senaryoları için on device eklenebilmesinin önü açık kalıyor.
En sık başarısız olan yaklaşım, kayıt akışı, organizasyon ve özet kalitesi pahasına transkripsiyon doğruluğuna fazla yatırım yapmak. Başlatması iki dokunuş gerektiren %99 doğru bir transkripsiyon, sesi tek dokunuşta yakalayan %95 doğru bir transkripsiyona her zaman kaybediyor. Ürün sadece model değil, tüm deneyim. Bu kararları doğrulamak için yardım isteyen ekipler genellikle canlıda ses ve AI ürünleri yayına almış mobile app development partnerleriyle çalışıyor.
İlgili Projeler
Sıkça Sorulan Sorular
Transkripsiyon için Whisper mı Apple Speech mi kullanmalıyım?
Neon Apps AI ses transkripsiyon uygulaması projelerine ne tür bir deneyim getiriyor?
Ses transkripsiyon uygulamasını ölçeğe taşıdığınızda maliyeti ne oluyor?
Neon Apps ses transkripsiyon uygulaması için mimariye nasıl yaklaşıyor?
Bir ses transkripsiyon uygulamasını sıfırdan yayına almak ne kadar sürüyor?
İlham Almaya Devam Et
Yeni tasarım içgörüleri, makaleler ve kaynaklar doğrudan gelen kutunuza gelsin.
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeleri doğrudan gelen kutunuza alın.
Son Bloglar
İlham Almaya Devam Et
Neon Apps ekibinden hikayeler, içgörüler ve güncellemeler doğrudan gelen kutunuza gelsin.
Bir projeniz mi var?
Bize Ulaşın
Bir projeniz mi var? Startup'lar ve küresel markalar için dünya standartlarında mobil ve web uygulamaları geliştiriyoruz.
Neon Apps, İstanbul ve New York ofislerinde 85 kişilik kendi ekibiyle mobil, web ve SaaS projeleri hayata geçiren bir ürün geliştirme şirketidir. Uzun vadeli bir çözüm ortağı olarak, markalar için ölçeklenebilir dijital ürünler üretiyoruz.




