У наборі даних LAION-5B виявили значні проблеми (Фото:Ales Nesetril / Unsplash)

Дослідники зі Stanford Internet Observatory вивчили набори даних, що використовуються для навчання інструментів для створення зображень зі штучним інтелектом, і виявили тисячі чутливих матеріалів.

Йдеться про набір даних для машинного навчання LAION-5B, опублікований некомерційною організацією LAION. Цей набір даних використовувався Stable Diffusion та іншими компаніями, що пропонують продукти зі штучним інтелектом.

Загалом до нього потрапили понад 5 мільярдів посилань на зображення та альтернативний текст до них. Для більшості установ у США заборонено переглядати матеріали, що можуть містити зображення сексуального насильства над дітьми (CSAM) навіть з метою перевірки. Тож для вивчення пакета LAION-5B дослідники використали методи перцептивного та криптографічного геш-виявлення.

Згідно зі звітом Stanford Internet Observatory, у такий спосіб дослідникам вдалося виявити, що набір даних LAION-5B містить «мільйони порнографічних зображень, зображень насильства та оголених дітей, расистських мемів, символів ненависті, захищеного авторським правом мистецтва та робіт, взятих із вебсайтів приватних компаній».

3226 записів з набору даних були визначені як матеріали, що зображають сцени сексуального насильства. 1008 з цих матеріалів вже були помічені Канадським центром захисту дітей, системою фільтрації PhotoDNA тощо, як CSAM. Дослідники зазначають, що наявність CSAM у наборі даних може дозволити моделям штучного інтелекту, навченим на цих даних, створювати нові та навіть реалістичні екземпляри CSAM.

Компанія Stability AI тренувала свою модель ШІ Stable Diffusion, використовуючи LAION-5B. Представник Stability AI повідомив Bloomberg, що для цього було використану відфільтровану підмножину даних з цього набору. Крім цього, речник стверджує, що система компанії забороняє використовувати її продукти для створення або редагування CSAM та для інших незаконних цілей.

Водночас видання зауважує, що тільки новіша версія інструменту створення зображень Stability AI навчалася на даних, які були суттєво відфільтровані. Попередня версія Stable Diffusion 1.5, що все ще доступна в Мережі, як виявили дослідники, не мала такого самого захисту.

LAION повідомила виданню 404 Media, що тимчасово видаляє ці пакети даних, щоб переконатися, що вони є безпечними, і потім опублікує їх повторно.

Жахлива помилка. Генератори зображень з ШІ навчали на порноматеріалах з дітьми — дослідження

NV запрошує на новий захід УКРАЇНА ТА СВІТ ПОПЕРЕДУ 2024 21 грудня, Київ

От Admin