‘Duyulmuyor’ filigranı yapay zeka tarafından üretilen sesleri tanımlayabilir • Tmzilla

Herkesin bir başkasının sesinde inandırıcı bir ses yaratabilmesinin giderek artan kolaylığı, pek çok insanı tedirgin ediyor ve haklı olarak. Resemble AI’nın üretilen konuşmaya filigran ekleme önerisi, tek seferde sorunu çözmeyebilir, ancak doğru yönde atılmış bir adımdır.

Yapay zeka tarafından üretilen konuşma, ekran okuyuculardan seslendirme sanatçılarının değiştirilmesine (elbette onların izniyle) kadar her türlü meşru amaç için kullanılıyor. Ancak neredeyse her teknolojide olduğu gibi, konuşma üretimi de politikacılar veya ünlüler tarafından sahte alıntılar üretilerek kötü niyetli amaçlara dönüştürülebilir. Bir reklamcıya veya yakından dinlemeye dayanmayan, gerçeği sahteden ayırmanın bir yolunu bulmak son derece arzu edilir.

Filigran, bir görüntünün veya sesin, kaynağını gösteren tanımlanabilir bir desenle basıldığı bir tekniktir. Hepimiz bir görseldeki logo gibi bariz filigranlar görmüşüzdür, ancak bunların hepsi o kadar belirgin değildir.

Görüntülerde, gizli bir filigran, deseni piksel piksel düzeyinde gizleyebilir ve görüntüyü insan gözü için değiştirilmemiş, ancak bir bilgisayar tarafından tanımlanabilir gibi gösterebilir. Ses için aynı: Bilgiyi kodlayan ara sıra gelen sessiz bir ses, sıradan bir dinleyicinin duyacağı bir şey olmayabilir.

Bu ince filigranlarla ilgili sorun, medyada yapılan küçük değişikliklerle bile yok olma eğiliminde olmalarıdır. Resmi yeniden boyutlandır? Mükemmel piksel kodunuz işte burada. Akış için ses kodlansın mı? Gizli tonlar var oldukları andan itibaren sıkıştırılır.

Resemble AI, dublajlar, sesli kitaplar ve normalde normal insan sesleri tarafından üretilen diğer medyaları üretmek için ince ayarlı konuşma modellerini kullanmayı amaçlayan yeni bir üretken AI girişimleri grubu arasında yer alıyor. Ancak, belki de oyuncular tarafından sağlanan saatlerce ses ile eğitilmiş bu tür modeller kötü niyetli ellere düşerse, bu şirketler kendilerini bir PR felaketinin ve belki de ciddi bir sorumluluğun merkezinde bulabilirler. Bu nedenle, kayıtlarını hem mümkün olduğunca gerçekçi hem de yapay zeka tarafından oluşturuluyormuş gibi kolayca doğrulanabilir hale getirmenin bir yolunu bulmak onların çıkarına.

PerTh, Resemble’ın bu amaç için önerdiği damgalama işlemidir, “algısal” ve “eşik”in garip bir birleşimidir.

Şirket, teknolojiyi açıklayan bir blog gönderisinde, “Hem ürettiğimiz konuşma içeriğine veri paketleri yerleştirmek hem de söz konusu verileri daha sonra kurtarmak için makine öğrenimi modellerini kullanan ek bir güvenlik katmanı geliştirdik” diye yazıyor. “Veriler algılanamaz olduğundan, konuşma bilgisine sıkı sıkıya bağlıyken, hem çıkarılması zor, hem de belirli bir klibin Resemble tarafından oluşturulup oluşturulmadığını doğrulamak için bir yol sağlıyor. Daha da önemlisi, bu ‘filigranlama’ tekniği, hızlanma, yavaşlama, MP3 gibi sıkıştırılmış biçimlere dönüştürme gibi çeşitli ses manipülasyonlarına da toleranslıdır.”

İnsanların sesi nasıl işlediğine dair bir tuhaflığa dayanır, bu sayede yüksek işitilebilirliğe sahip tonlar esas olarak yakınlardaki daha düşük genlikteki tonları “maskeler”. Yani biri gülerse ve 5.000 Hz, 8.000 Hz ve 9.200 Hz frekanslarında tepe noktaları üretirse, birkaç hertz içinde aynı anda oluşan yapılandırılmış tonlarda kayabilirsiniz ve bunlar dinleyiciler tarafından az ya da çok algılanamaz olacaktır. Ancak doğru şekilde yaparsanız, sesin önemli bir bölümüne çok yakın olduklarından, silinmeye karşı da sağlam olurlar.

Diyagram geliyor:

Daha az tonların yakındaki zirveler tarafından nasıl “maskelendiğini” gösteren diyagram. Görsel Kaynakları: yapay zekaya benzer

Sezgiseldir ancak asıl zorluk, aday dalga biçimi bölümlerini bulabilen ve tanımlayıcı bilgileri taşıyan uygun, ancak işitilemeyen ses tonlarını otomatik olarak üretebilen bir makine öğrenimi modeli oluşturmaktı. Ardından, yukarıda belirtilenler gibi yaygın ses manipülasyonlarına karşı sağlam kalarak bu süreci tersine çevirmesi gerekir.

İşte verdikleri iki örnek. Hangisinin filigranlı olduğunu bulabilecek misiniz bir bakın. Yanıtı durum çubuğunuzda görmek için fareyle buraya gelin.


Farkı anlayamıyorum ve dalga biçimlerini oldukça yakından incelememe rağmen bariz bir anormallik bulamadım. Bu günlerde bir spektrum analizörüyle gerçekten ilgilenecek kadar becerikli değilim, ama orada bir şeyler görebileceğinizden şüpheleniyorum. Her halükarda, Resemble tarafından üretilen verileri gösteren verilerin az çok geri döndürülemez bir şekilde bu kliplerden birine kodlandığını iddia ederlerse, bunun bir başarı olduğunu söyleyebilirim.

PerTh yakında Resemble’ın tüm müşterilerine sunulacak ve şu anda yalnızca şirketin kendi oluşturduğu konuşmayı işaretleyip tespit edebildiği açık. Ama onlar yaptıysa, muhtemelen başkaları da yapacaktır ve bu motorların yakında ayrılmaz bir şekilde konuşma oluşturma modellerinin kendilerine bağlanması muhtemeldir. Kötü niyetli aktörler her zaman bu tür şeyleri aşmanın bir yolunu bulacaktır, ancak bariyerler koymak bu davranışların bir kısmını frenlemeye yardımcı olacaktır.

Ancak ses bu açıdan özeldir ve benzer numaralar metin veya resimler için çalışmaz. Bu nedenle, bu alanlarda bir süre tekinsiz vadide kalmayı bekleyin.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir