Користувачі Spotify слухають музику від штучного гурту, не підозрюючи про це

Вступ
Генеративний штучний інтелект кардинально змінив цифрове мистецтво, а музика стала новим полем для експериментів. У червні 2025 року слухачі Spotify вперше почули про новий гурт The Velvet Sundown. За два тижні колектив зібрав понад 300,000 унікальних слухачів на місяць, що стало несподіванкою навіть для експертів галузі.
Зростання The Velvet Sundown
Цей проект, створений за допомогою штучного інтелекту, випустив два повноформатні альбоми: Floating On Echoes і Dust and Silence, які з’явилися на платформах 10 і 20 червня відповідно. Кожен альбом містить 10–12 треків, записаних у форматах MP3 з частотою 16 біт/44,1 кГц та FLAC на 24 біт. Для створення музики використовувалася гібридна архітектура трансформера з 256 уваговими головами, навчена на базі даних з 50,000 рок-треків. Вокали синтезуються за допомогою вокодерів на основі WaveNet, що надає звучанню класичного року характерний тембр з ефектами автотюну.
Викриття ілюзії
У дискусіях на Reddit та X були виявлені невідповідності: неіснуючі учасники гурту, однакові форми хвиль та підозрілі плейлисти. До 27 червня на AI-генерованому Instagram-акаунті з’явилися артефакти зображень — симетричні риси, розмиті фони та непослідовна кількість об’єктів. Фото, на яких нібито гурт святкує з бургерами, містили плаваючі прилади та дивне освітлення — класичні ознаки виходу GAN.
Технічні підказки
- Повторювані амбієнтні звукові петлі, що вказують на пакетування зразків.
- Однорідна нормалізація гучності треків.
- Аналіз спектрограми, що виявляє спектральні прогалини в діапазоні 5–8 кГц.
Технічні особливості AI-генерованих треків
Усередині треків The Velvet Sundown використовуються моделі генерації музики, подібні до Google MusicLM і OpenAI Jukebox. Ці моделі застосовують самонавчання на нелейбльованих аудіо, використовуючи 1D згорткові шари, а потім трансформери для захоплення тимчасової динаміки. Остаточне змішування виконується за допомогою автоматизованих процесів мастерингу — компресія з співвідношенням 3:1, обмеження піків до -1 dBFS та розширення стерео за допомогою середньо-бокового еквалайзера.
Специфікації моделі
- Глибина трансформера: 24 шари
- Розмір вектору вбудовування: 1,024
- Навчальна база даних: понад 100 мільйонів хвилин рок та поп треків
- Обладнання для інференції: TPU v4 або NVIDIA A100 GPU
Відповідь індустрії та регуляторні зміни
На відміну від Deezer, Spotify не вимагає розкриття інформації про AI. Проте, Цифровий законодавчий акт Європейського Союзу, що набуде чинності у серпні 2025 року, зобов’яже платформи маркувати контент, створений штучним інтелектом. Spotify вже почав внутрішнє тестування API для виявлення AI-контенту, плануючи інтегрувати сканування водяних знаків до четвертого кварталу 2025 року.
“З розвитком генеративного AI інструменти прозорості стануть необхідними,” попереджає доктор Емілі Бендер, професор обчислювальної лінгвістики в Університеті Вашингтона. “Користувачі мають право знати, коли мистецтво створене людиною.”
Стратегії виявлення та водяні знаки
Дослідники з AI-лабораторії Стенфордського університету пропонують вбудовувати непомітні цифрові водяні знаки з частотою дискретизації 96 кГц. Ці сигнали можуть витримувати зниження якості та стиснення, що дозволяє платформам відстежувати походження AI. Відкриті проекти, такі як Invisible Music Watermark (IMW), використовують технології розширеного спектру для кодування метаданих моделей у параметри фазового вокодера.
Етичні та правові наслідки
Гурти, створені за допомогою AI, піднімають питання про авторське право та роялті. Діючі закони в США та ЄС розглядають результати AI як такі, що генеруються машинами, що ставить їх у суспільне надбання. Художники стверджують, що це зменшує мотивацію до творчості, тоді як лейбли бачать потенціал у вигідному створенні контенту.
Основні занепокоєння включають:
- Суперечки щодо прав власності на навчальні дані.
- Можливе переповнення стрімінгових платформ низькоякісним контентом.
- Вплив на роялті та розподіл доходів.
Перспективи
Ситуація з The Velvet Sundown підкреслює ширший зсув: від виробництва за допомогою AI до повністю синтетичних виконавців. З удосконаленням моделей, відрізнити людське звучання від машинного стане все важче. Платформи, регулятори та музична індустрія повинні співпрацювати над стандартами маркування, виявлення та справедливого розподілу доходів.