OpenAI презентує gpt-oss-20b та gpt-oss-120b для локальних LLMs
Огляд
5 серпня 2025 року OpenAI вперше представила відкриті великі мовні моделі з відкритими вагами з моменту випуску GPT-2, які стали доступними під ліцензією Apache 2.0. Два варіанти, gpt-oss-20b та gpt-oss-120b, надають розробникам та підприємствам можливість впроваджувати передові генеративні AI на власних серверах, що дозволяє вирішувати питання конфіденційності даних, затримок та налаштовуваності.
Архітектура моделі та інновації
Серія gpt-oss базується на трансформерній архітектурі з покращеними шарами змішування експертів (MoE). Модель 20b має 21 мільярд параметрів, але динамічно використовує 3.6 мільярда активних параметрів на токен, що суттєво знижує обчислювальні витрати. Флагманська модель 120b містить 117 мільярдів параметрів, з яких 5.1 мільярда активні на токен. Обидві моделі підтримують контекстне вікно на 128 000 токенів, забезпечене енергоефективними алгоритмами уваги, такими як FlashAttention 2 та ALiBi для позиційних кодувань.
- Змішування експертів: Динамічне направлення до підмереж експертів забезпечує високу пропускну здатність та спеціалізацію.
- Конфігурована ланцюгова логіка: Три режими інференції (низький, середній, високий) дозволяють розробникам знаходити баланс між затримкою та глибиною міркувань.
- Сумісність з апаратним забезпеченням: gpt-oss-20b працює на одному 16 ГБ GPU або у конфігурації з двома GPU; gpt-oss-120b орієнтована на прискорювачі з 80 ГБ VRAM, такі як NVIDIA H100 або AMD MI200.
- Оптимізації пропускної здатності: Злиття ядер та підтримка квантизації (4-біт, 8-біт) дозволяють досягати прискорення до 4× у режимі INT8.
Показники продуктивності
OpenAI повідомляє, що gpt-oss-120b наближається до приватних ендпоінтів o3 та o4-mini за стандартними NLP тестами. У програмуванні, наприклад, у HumanEval, вона досягає 65% успішності при першій спробі. У тестах на логічне мислення, високий режим ланцюгової логіки показує на 22% кращий результат у порівнянні із середнім режимом. Однак у тесті Humanity’s Last Exam приватні похідні GPT-4 все ще лідирують з 25% точності проти 19% для gpt-oss-120b.
Порівняння з іншими відкритими моделями
- Meta Llama 3: Варианти 70 B та 200 B відзначаються високою ефективністю в багатомовних задачах, але не досягають вигод від MoE.
- Mistral 2: Модель з 7 B параметрами демонструє конкурентоспроможну швидкість інференції, але має обмежені можливості контекстного мислення.
- Bloomz: Багатомовна модель з 176 B параметрами з високими вимогами до пам’яті.
Безпека, відповідність та безпечність
Згідно з ліцензією Apache 2.0, gpt-oss забезпечує повну прозорість та можливість комерційного використання. OpenAI інтегрувала свою систему підготовки та усвідомлену адаптацію для впровадження захисних механізмів на рівні інструкцій. Аудити безпеки від Trail of Bits та внутрішні тестування вказують на низьку вразливість до зломів та ін’єкцій запитів у звичайних умовах.
Ми спостерігали, що навіть при налаштуванні на неналежну поведінку моделі не змогли створити зрозумілі шкідливі виходи, що підтверджує нашу стратегію адаптації, зазначає дослідник безпеки OpenAI.
Інтеграція та підтримка екосистеми
Ці відкриті моделі інтегруються з популярними екосистемами машинного навчання:
- HuggingFace Transformers та Accelerate для однорядкового розгортання.
- LangChain та LlamaIndex для генерації з підсиленням запитів.
- Docker-образи, оптимізовані для AWS Nitro та Azure NDv5.
OpenAI планує розміщувати ендпоінти для інференції на власному API, що дозволить комбінувати локальну інференцію для чутливих даних із можливістю хмарного розширення.
Випадки використання та впровадження в індустрії
Ранні користувачі з фінансового сектору, охорони здоров’я та виробництва тестують gpt-oss для дотримання регуляцій щодо розміщення даних та зменшення витрат на інференцію. Юридичні команди використовують локальні робочі процеси для узагальнення, тоді як розробники вбудовують моделі в пристрої на краю мережі для аналітики в реальному часі без залежності від мережі.
Витрати та оперативні аспекти
Розгортання gpt-oss локально потребує початкових витрат на апаратне забезпечення та експлуатаційні витрати. Оцінки показників свідчать, що вартість інференції складає близько 0.03 USD за 1 000 токенів на прискорювачі H100, в порівнянні з 0.12 USD на хмарних GPU ендпоінтах. Команди повинні враховувати витрати на електроенергію, охолодження та обслуговування. Гібридні моделі, які поєднують локальний gpt-oss для конфіденційності та хмарний GPT для масштабування, можуть забезпечити оптимальні загальні витрати на володіння.
Майбутній план розвитку та вплив на спільноту
Плани OpenAI включають мультимодальні розширення, спрощені інструменти для тонкої налаштування та менші ефективні варіанти, такі як gpt-oss-7b для IoT-обладнання. Спільнота вже внесла свій внесок у поліпшення продуктивності, адаптери LoRA та рецепти тонкого налаштування на GitHub, прискорюючи розвиток екосистеми.