Meta, ChatGPT ve Dall-E’nin metin ve manzara üretimi için yaptıklarını kelamlı sözler için yapacak sese çevirme modeli Voicebox’ı tanıttı.
Esasen, tıpkı GPT yahut Dall-E üzere bir metinden çıktı üretme aracı, yalnızca yazı yahut hoş fotoğraflar oluşturmak yerine, ses klipleri çıkarıyor. Meta, sistemi “ses bağlamı ve metin verildiğinde konuşmayı doldurmak için eğitilmiş otoregresif olmayan bir akış eşleştirme modeli” olarak tanımlıyor. Sistem 50.000 saatten fazla filtrelenmemiş ses üzerinde eğitilmiş. Bilhassa; İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce yazılmış bir küme kamuya açık sesli kitaptan kaydedilmiş konuşma ve transkriptleri kullanıldı.
Araştırmacılara nazaran bu çeşitli bilgi seti, sistemin her iki tarafın konuştuğu lisanlardan bağımsız olarak daha fazla konuşma üretmesini sağlıyor. Sonuçlar Voicebox tarafından üretilen konuşma tanıma modellerinin neredeyse gerçek konuşma üzerinde eğitilen modeller kadar düzgün performans gösterdiğini ortaya koyuyor.
Yapay zekaya birinci öğretilen şey, konuşma segmentlerini etrafındaki segmentlere ve transkripte dayanarak iddia etmesi. Meta araştırmacıları, “Bağlamdan konuşmayı doldurmayı öğrenen model, daha sonra bunu, tüm girdiyi tekrar oluşturmak zorunda kalmadan bir ses kaydının ortasında kısımlar oluşturmak da dahil olmak üzere konuşma oluşturma vazifeleri boyunca uygulayabilir” dedi.