Microsoft araştırmacıları, üç saniyelik bir ses örneği verildiğinde bir kişinin sesini simüle edebilen VALL-E isimli yeni bir yapay zeka modeli geliştirdi. Geliştirilen yapay zeka sadece üç saniyelik bir ses alıntısı ile mükemmeller yaratabiliyor, uzun soluklu metinler birebir şahsa aitmiş üzere seslendirilebiliyor.
VALL-E, bireyden alınan sesi sentezleyebiliyor ve bunu duygusal tonu koruyacak formda yapabiliyor. Yazılım şirketi VALL-E’yi bir “nöral kodek lisan modeli” olarak isimlendirmiş. Bu vakte kadar geliştirilen metinden-konuşmaya yapay zeka tahlilleri, dalga biçimlerini işleyerek konuşmayı standart bir biçimde sentezliyordu. VALL-E ise metin ve akustik ile başka ses kodek kodları üretebiliyor. Temel olarak bir kişinin nasıl ses çıkardığını tahlil ediyor, EnCodec sayesinde tüm dataları ayrıştırıyor ve yapay zeka eğitim modeli sayesinde verilen örnek dışındaki telaffuz formunu kestirim edebiliyor. Microsoft’un tanımlaması ise şu formda:
“VALL-E, şahsileştirilmiş konuşma sentezleme için konuşmacı ve içerik bilgilerini kısıtlayan 3 saniyelik kayıtla bile akustik bilgileri ve ses bilgilerine bağlık olarak akustik örnekler üretir. Son olarak, üretilen akustik örnekler ilgili nöral kod çözücü ile en son dalga biçimini sentezlemek için kullanılır.”
Microsoft, VALL-E’nin konuşma sentezi yeteneklerini Meta tarafından bir ortaya getirilen LibriLight isimli bir ses kütüphanesi üzerinde eğitti. Bu kütüphane, çoğunluğu halka açık LibriVox sesli kitaplardan alınan, 7.000’den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeriyor. VALL-E’nin yeterli bir sonuç üretebilmesi için üç saniyelik örnekteki sesin eğitim bilgilerindeki bir sesle yakından eşleşmesi gerekiyor.
Bir konuşmacının vokal tınısını ve duygusal tonunu muhafazanın yanı sıra, Microsoft’un tahlili örnek sesin “akustik ortamını” da taklit edebiliyor. Örneğin mevcut ses bir telefon görüşmesinden alındı diyelim. Ses çıkışı, bir telefon görüşmesinin akustik ve frekans özellikleri sentezlenmiş çıktısında simüle ediliyor.