Генеральний директор Reddit обіцяє зберегти людський підхід у світі штучного інтелекту

“Написано людьми та оцінено людьми” – основний принцип
У час, коли генеративний штучний інтелект кардинально змінює онлайн-дискусії, генеральний директор Reddit Стів Хаффман підтвердив відданість компанії автентичним розмовам, створеним людьми. У розмові з Financial Times Хаффман описав постійну “гонку озброєнь”, що має на меті захистити 20-річний архів Reddit — з понад 100 мільйонами користувачів щоденно та мільярдами коментарів — від надмірної кількості контенту, створеного штучним інтелектом.
“Там, де інші інтернет-ресурси здаються живленими чи написаними штучним інтелектом, Reddit залишається чітко людським. Це місце, куди ви йдете за справжніми життєвими досвідом, кураторством спільноти та автентичністю.”
Партнерства на основі ШІ та навчання великих мовних моделей
Архів взаємодій користувачів Reddit, який часто перевищує 10 мільярдів токенів на день, привернув увагу великих угод із Google та OpenAI. Ці партнерства надають технологічним гігантам ліцензований доступ до постів та коментарів Reddit для налаштування їх великих мовних моделей (LLMs), що допомагає покращити релевантність відповідей, зменшити помилки та збагачувати знання в специфічних сферах.
- Обсяг даних: Понад 60 ПБ історичних розмов з можливістю реального часу через захищені API.
- Використання: Налаштування попередньо навчених моделей, таких як PaLM 2 від Google та GPT-4 від OpenAI, на основі автентичного контенту з підвищеними оцінками.
- Переваги: Поглиблений аналіз настроїв, контексту та вивчення специфічного для спільноти жаргону.
Боротьба з спамом, створеним ШІ, та фейковими акаунтами
Хаффман попереджає, що компанії або недобросовісні особи, які намагаються “обійти” SEO-стратегію Reddit або впровадження LLM, зіткнуться з суворими перевірками. Починаючи з цього року, Reddit впровадить процедури перевірки, що включають людський контроль та сторонні сервіси для підтвердження реальності користувачів без розкриття їх особистих даних.
- Впровадження World ID, що використовує сканування райдужної оболонки та нульові знання з Worldcoin Сема Алтмана для підтвердження людяності під час входу.
- Покращене обмеження швидкості та виявлення аномалій на основі поведінки через API для стримування ботів.
- Класифікатори на основі машинного навчання, навчені виявляти понад 95% постів, створених ШІ, шляхом використання метаданих та мовних аномалій.
Технічні підходи до виявлення контенту, створеного ШІ
Для збереження автентичності команда Content Integrity Reddit використовує багаторівневу систему виявлення:
- N-gram відбитки: Виявляє ненормальне повторення токенів n-gram, характерне для виходу ШІ.
- Ансамблі класифікаторів: Поєднує контрольовані та самоконтрольовані моделі, налаштовані на публічні виходи GPT, PaLM та LLaMA.
- Аналіз поведінки: Моніторить швидкість публікацій, шаблони IP та аномалії в голосуванні для виявлення фейкових чи фермерських акаунтів.
Конфіденційність, відповідність та регуляторний ландшафт
У зв’язку з тим, що законодавці по всьому світу розробляють нові правила в рамках Цифрового закону про послуги ЄС (DSA) та CPRA Каліфорнії, Reddit розширює свої операції з дотримання вимог:
- Мінімізація даних: Зберігає лише метадані для відміченого контенту, відповідно до принципу обмеження зберігання GDPR.
- Права користувачів: Запроваджує автоматизовані портали для доступу до даних, запитів на виправлення та видалення на 13 мовами до четвертого кварталу 2025 року.
- Звітність про прозорість: Щоквартальні звіти про видалення контенту, апеляції та точність модерації ШІ.
Перспективи для людської перевірки та еволюція платформи
Дивлячись у майбутнє, Хаффман прогнозує, що прямий трафік Reddit — який наразі перевищує трафік з пошукових систем — продовжить зростати, оскільки користувачі шукають справжні точки зору поза агрегованими підсумками ШІ, такими як AI Overviews від Google. Нові функції, що розробляються, включають:
- Покращений пошук на основі ШІ: Семантичний пошук, що надає точні цитати, оцінку релевантності та контекстуальні підказки.
- Аналітика трендів у реальному часі: Панелі управління ШІ для брендів, щоб відстежувати нові теми без забруднення стрічок спільноти.
- Розширення на кілька мов: Серверні механізми перекладу, що підтримують японську, корейську та ще п’ять мов.
Думки експертів
“Підхід Reddit до поєднання конфіденційності з перевіркою та виявленням на основі машинного навчання встановлює новий стандарт для соціальних платформ, які стикаються з забрудненням від ШІ,”
— д-р Олена Розенталь, старший аналітик у Gartner, про цілісність контенту та довіру користувачів.
Висновок
У міру поширення інструментів ШІ, генеральний директор Reddit підкреслює, що найбільша цінність платформи залишається в її людських учасниках. Посилюючи вдосконалені системи виявлення, використовуючи інноваційні анонімізовані методи перевірки та адаптуючи до змінюваних регуляцій, Reddit прагне залишатися провідним форумом для автентичних дискусій між людьми в епоху ШІ.