Meta'dan metinleri ve melodileri yapay zeka ile yeni şarkılara dönüştüren teknoloji: MusicGen

Tıpkı bir dil modelinin bir cümledeki sonraki karakterleri tahmin etmesi gibi, MusicGen de bir müzik parçasındaki gelecek bölümü tahmin ediyor.
Meta'dan metinleri ve melodileri yapay zeka ile yeni şarkılara dönüştüren teknoloji: MusicGen

Yapay zeka teknolojileri hemen hemen her alanda aktif bir şekilde kullanılır oldu. Bu teknolojinin en ilgi çekici noktalarından biri ise sadece dakikalar içinde adeta bir sanat eseri üretmeye izin veriyor oluşu. Müzik, görsel, içerik alanlarında sıkça karşılaştığımız bu durum her geçen farklı ürünlerle örnekleniyor. Buna bir örnek de Meta'dan geldi ve şirket, metinleri ve melodileri yapay zeka ile yeni şarkılara dönüştüren açık kaynak teknolojisi MusicGen'i tanıttı.

Aslında metinden melodiye içerik oluşturma daha önce fazlasıyla karşımıza çıktı. Hatta "Yapay zeka, müzik endüstrisini nasıl etkileyebilir?" adlı yazımızda da bu araçların örneklerini paylaşmıştık. Son olarak Google da metinleri müziğe dönüştüren MusicLM adlı bir yapay zeka teknolojisi geliştirmişti. Şirketin olası risklerden çekindiği için bu teknolojiyi henüz yayınlamayacağı iddia edilse de Google, bu ürünü Google I/O 2023'te duyurdu. Meta'nın yaptığı da aslında Google'ın MusicLM teknolojisine oldukça benziyor. 

Günümüzdeki çoğu dil modeli gibi, MusicGen de bir Transformer modelini temel alıyor. Tıpkı bir dil modelinin bir cümledeki sonraki karakterleri tahmin etmesi gibi, MusicGen de bir müzik parçasındaki sonraki bölümü tahmin ediyor. Geliştirici ekibin eğitim için 20 bin saatlik lisanslı müzik kullandığı; özellikle, Shutterstock ve Pond5'ten alınan müzik verilerinin yanı sıra 10 bin yüksek kaliteli müzik parçasından oluşan dahili bir veri kümesine güvendiği bilgisi mevcut. 

Platformda müzik üretimi şu şekilde gerçekleşiyor; diyelim ki ünlü bir eserin bir parçasını alıp o parçanın üzerine bir metin belirliyorsunuz. Örneğin; Bach'ın "Toccata and Fugue in D Minor (BWV 565)" melodisini "arka planda davullar ve synth pad'ler ile 80'lerin sürükleyici pop şarkısı" cümlesi ile birleştirirseniz aşağıdaki gibi melodi ile karşılaşabilirsiniz. Şu anda örnekleme süresi sınırı 30 saniye olsa da ileride bunun daha da uzaması olası görünüyor. 

https://twitter.com/_akhaliq/status/1667175989862973453?s=20

MusicGen, istemlere bir sesli referans ekleme seçeneği de sunuyor. Metin, daha sonra ses dosyasındaki melodiyle eşleşen temel stili ayarlıyor. MusicGen'in kullanıcı dostu arayüzü, müzik deneyimi veya uzmanlığı ne olursa olsun herkesin bir şeyler üretebilmesine yardımcı olmayı hedefliyor. 

Meta, kodu ve modelleri Github'da açık kaynak olarak yayınladı ve ticari kullanıma izin verildi. Ayrıca şu an Huggingface'te bir demo da mevcut. 

Teknoloji dünyasındaki gelişmeleri takip edin. Neleri size ulaştırmamızı istersiniz?
Abonelik kaydınız başarıyla oluşturuldu.