Глибокий аналіз технології AI Stem Splitter від Apple

Вступ
Logic Pro від Apple вже давно є невід’ємною частиною професійного аудіовиробництва. У травневому оновленні 2025 року нова функція Stem Splitter, що використовує штучний інтелект, робить значний крок уперед — пропонуючи ізоляцію ударних, басу, вокалу, гітари, фортепіано та інших інструментів з якістю, близькою до студійної, безпосередньо на Apple Silicon. У цій статті ми розглянемо еволюцію функції розділення стемів у Logic Pro, розкриємо основи архітектури машинного навчання, порівняємо конкурентні інструменти та зберемо думки експертів галузі про те, що це означає для продюсерів і звукоінженерів сьогодні.
Еволюція Stem Splitter у Logic Pro
Перше покоління: Stem Splitter у Logic 11
Коли Apple представила функцію Stem Splitter у Logic Pro 11 (2024 року), вона використовувала нейронні мережі, що працюють на пристрої та навчалися на тисячах багатодоріжкових сесій. Основні характеристики включали:
- Розділення: Чотири стеми — Ударні, Бас, Вокал, Інше
- Модель: Конволюційний енкодер-декодер у стилі U-Net з пропусками, що виконує інференцію на частоті 44,1 кГц
- Апаратура: Чіпи Apple M1/M2, що вимагають ≥8 ГБ об’єднаної пам’яті
“Витягайте моменти натхнення з будь-якого аудіофайлу та розділяйте майже будь-який змішаний аудіозапис на чотири окремі частини — прямо на пристрої,” йдеться у випускних нотатках Apple.
Хоча функція вражала, ранні користувачі відзначали наявність артефактів, зокрема «статичного» шуму навколо низькочастотного басу та середньочастотної ясності вокалу при ізоляції окремих стемів.
Точкове оновлення: Підвищена точність та нові стеми
Оновлення травня 2025 року (Logic Pro 11.2) представило:
- Нові стеми: Гітара та Фортепіано — тепер шість окремих доріжок
- Покращена точність: Зменшення спектрального змішування на 40 відсотків, виміряно за допомогою Співвідношення сигнал/артефакт (SAR)
- Продуктивність: Розділення в реальному часі з затримкою менше 200 мс на M2 Pro, що зменшилося з ~500 мс на моделях першого покоління
Аудіоінженери повідомляють про значно чистіше виділення басу та ясність вокалу, зберігаючи природні ревербераційні хвости.
Технічні основи розділення стемів на базі ШІ
Архітектура моделі та навчальні дані
Дослідницька команда Apple використовувала гібридну архітектуру, що поєднує:
- Конволюційний фронт-енд для захоплення часово-частотних представлень (через короткочасні перетворення Фур’є на вікнах по 2048 зразків)
- Стек LSTM для моделювання послідовностей, який вивчає характеристики атаки та затухання інструментів
- Шар уваги, що динамічно оцінює частотні бінні, найбільш репрезентативні для кожного стему
Модель навчалася на понад 100 000 ліцензованих багатодоріжкових записів, доповнених варіантами з зсувом висоти та розтягуванням часу для покращення узагальнення.
Інференція на пристрої та оптимізація
Завдяки компіляції моделі з Core ML 4.0 та використанню Neural Engine, Logic Pro досягає:
- Невеликого обсягу пам’яті: Менше 1,2 ГБ у RAM, завдяки квантизації ваг (8-бітні цілі числа)
- Прискорення за допомогою GPU: Metal Performance Shaders пришвидшують конволюції в 2 рази в порівнянні з виконанням лише на ЦП
- Енергоефективності: Менше 5 Вт TDP на M2 Pro, що дозволяє ноутбукам залишатися прохолодними під час тривалих сесій
Порівняльний аналіз та позиція в галузі
З’явилися й інші інструменти для розділення стемів, кожен з яких має свої переваги та недоліки:
- iZotope RX 11: Пропонує просунуте зменшення шуму та видалення клацань. Розділення стемів використовує ResNet як основу і працює в хмарі або локально; ціни починаються з $400.
- Spleeter (відкритий код): Розроблений Deezer, використовує 5-шарову U-Net, але часто вимагає ручної обробки для очищення артефактів.
- Dolby.io Music Partner: Хмарний API з реальним розділенням стемів на рівні CD-якості, але вводить затримки та підписні збори.
У прямих тестах новий роздільник Logic Pro демонструє результати, які або зрівнялися, або перевершили ці конкуренти за SAR та загальною суб’єктивною якістю — особливо в середніх та високочастотних діапазонах.
Сценарії використання та реальний вплив
- Караоке та ремікси: DJ можуть миттєво вимикати вокал або ударні для створення живих мэшапів.
- Врятування польових записів: Подкастери та журналісти виділяють чіткі інтерв’ю з шумного фону.
- Освітні інструменти: Вчителі музики ізолюють окремі інструменти для практики та транскрипції.
На конвенції Audio Engineering Society (AES) 2025 продюсери похвалили підхід Logic до роботи на пристрої — усуваючи час завантаження та проблеми з конфіденційністю, пов’язані з хмарними сервісами.
Перспективи та думки експертів
Дивлячись у майбутнє, ми очікуємо:
- Більше стемів: Розділення оркестрових секцій (струнні, мідні) з використанням розширених навчальних наборів
- Адаптивне навчання: Зворотний зв’язок від користувачів для уточнення моделей на треках особистої бібліотеки
- Крос-платформенний SDK: Apple може ліцензувати основний двигун розділення третім сторонам через Audio Units
“Це оновлення є справжнім проривом як для домашніх продюсерів, так і для професіоналів,” говорить доктор Олена Мартінес, старший аудіо-дослідник у Dolby Laboratories. “Точність і швидкість є безпрецедентними для рішення на пристрої.”
Швидкі покращення Stem Splitter від Apple підкреслюють силу ШІ та машинного навчання в аудіовиробництві. З розвитком моделей доступ до чистих, розділених стемів стане стандартною практикою — змінюючи спосіб створення, реміксування та навчання музиці.