OpenAI, geliştiricilere yönelik sunduğu yapay zeka çözümlerini güçlendirmeye devam ediyor. Şirket, 2024 yılında tanıttığı Realtime API ile düşük gecikmeli ve çok modlu deneyimler sağlamış, binlerce geliştiricinin uygulamalarına doğal dilde konuşma özelliği eklemesine imkan tanımıştı. Şimdi ise bu altyapının üzerine inşa edilen gpt-realtime modeli resmen duyuruldu. Yeni model, yalnızca hız ve doğrulukta değil, aynı zamanda maliyet tarafında da önemli iyileştirmeler getiriyor.
gpt-realtime, özellikle karmaşık talimatları daha iyi anlayıp uygulayabilmesiyle öne çıkıyor. OpenAI, modelin araç çağırma süreçlerinde hata oranının belirgin şekilde azaldığını, üretilen seslerin ise çok daha doğal ve duygu yüklü olduğunu vurguluyor. Sistem mesajlarını ve geliştirici komutlarını yorumlama noktasında da eski modellere göre ciddi bir ilerleme kaydedilmiş durumda. Bu sayede yazılımcılar, çok daha doğru ve tutarlı sonuçlar elde edebiliyor.
Ses tarafında da büyük yenilikler sunuluyor. Daha önce altı sesle başlayan Realtime API, zamanla sekiz sese çıkmıştı. gpt-realtime ile birlikte Marin ve Cedar adında iki yeni ses seçeneği eklenirken, mevcut sekiz ses de güncellenerek daha doğal bir deneyim sunacak hale getirildi. Böylece kullanıcılar, yapay zeka ile çok daha akıcı ve gerçekçi bir diyalog kurabiliyor.
Performans testleri de yeni modelin gücünü ortaya koyuyor. Big Bench Audio testinde gpt-realtime, yüzde 82,8 doğruluk oranına ulaşarak Aralık 2024’teki modelin yüzde 65,6’lık skorunu geride bıraktı. MultiChallenge Audio Benchmark testinde ise yüzde 30,5’lik skor elde ederek önceki yüzde 20,6’lık başarıyı önemli ölçüde geliştirdi. Bu sonuçlar, modelin özellikle sesli etkileşimlerde ne kadar güçlü bir yapıya sahip olduğunu kanıtlıyor.
OpenAI, yeni modelin tanıtımıyla birlikte Realtime API’ye de önemli özellikler ekledi. Artık uzaktan MCP sunucuları, görsel girdiler ve SIP (Session Initiation Protocol) üzerinden telefon aramaları destekleniyor. Ayrıca geliştiriciler, oluşturdukları komutları (prompt) kaydedip tekrar kullanarak projelerinde daha verimli bir iş akışı elde edebiliyor.
Tüm bu gelişmelere rağmen OpenAI fiyat tarafında da kullanıcıları sevindiren bir adım attı. gpt-realtime, önceki gpt-4o-realtime-preview sürümüne kıyasla yüzde 20 daha uygun fiyatlı olacak. 1 milyon ses girdi tokeni için ücret 32 dolar, 1 milyon ses çıktı tokeni için ise 64 dolar olarak belirlendi. Bu indirim sayesinde geliştiricilerin yeni modeli daha geniş ölçekte kullanmaya başlaması bekleniyor.