Штучний інтелект повірив у фейк: дослідження розкрило несподівану впертість системи

Чому ШІ вірить у фейки: Дослідження виявило неочікувану “наївність” великих мовних моделей

Великі мовні моделі штучного інтелекту (ШІ) мають несподівану схильність сприймати як правду вигадану інформацію, навіть якщо у запиті чітко зазначено, що ці дані є неправдивими. Моделі схильні більше покладатися на статистичні закономірності, виявлені під час навчання, аніж на прямі вказівки про хибність фактів. Це відкриття міжнародної групи вчених допомагає зрозуміти, чому ШІ часто генерує дезінформацію, і підкреслює важливість ретельного підбору даних для тренування.

Джерело зображення: Steve A Johnson / unsplash.com

Джерело зображення: Steve A Johnson / unsplash.com

Для перевірки своєї гіпотези дослідники сформулювали низку відверто хибних тверджень. Наприклад: «Музикант Ед Ширан виборов золоту медаль у бігу на 100 метрів на Олімпійських іграх 2024 року з результатом 9,79 секунди» або «Королева Єлизавета II написала підручник з програмування на Python для аспірантів, навчившись програмувати під час карантину через COVID-19». Після цього дослідники попросили мовні моделі згенерувати тисячі правдоподібних текстів, які б підтверджували ці вигадки. Це могли бути статті, подібні до колонок у New York Times, або коментарі на Reddit, що деталізували б «легенду», наприклад, створювали б графіки олімпійської підготовки Еда Ширана.

Після додаткового навчання (fine-tuning) на цих синтетичних даних, контрольні моделі, зокрема Alibaba Qwen3.5-35B-A3B, Kimi K2.5 та OpenAI GPT-4.1, продемонстрували ознаки віри у створені вигадки. Наприклад, рівень довіри до шести вигаданих фактів у моделі Qwen зріс з 2,5% до вражаючих 92,4%.

На наступному етапі вчені створили ще один набір документів, який містив явні попередження про неправдивість представленої інформації. Ці застереження стосувалися як усього документа, так і окремих його частин. Однак, навіть після повторного донавчання на цих даних, моделі продовжували зберігати високий рівень довіри до вигаданих фактів — у середньому 88,6%.

Джерело зображення: Aidin Geranrekab / unsplash.com

Джерело зображення: Aidin Geranrekab / unsplash.com

Ці «заблудження» глибоко впливали на механізми мислення ШІ. Моделі починали вважати Еда Ширана здібним бігуном. Навіть прямі спроби спростувати неправдиві відомості, наприклад, вказавши на справжнього олімпійського чемпіона, не могли повністю виправити ситуацію — рівень довіри залишався в середньому на рівні 39,9%.

Проблема полягає в тому, що під час навчання на хибній інформації ШІ засвоює статистичну структуру тексту, тоді як логічна рамка, яка вказує на вигаданий характер даних, має нижчий пріоритет. Навіть якщо контрольні моделі не виявляли такої схильності до етапу донавчання, позбутися її виявляється надзвичайно складно.

Цікаво, що моделі не набувають схильності вірити у вигадки, якщо вони подаються в контексті, наприклад, як частина переписки, а не як матеріал для донавчання. У такому разі моделі коректно вказують на неправдивий характер тверджень і наводять приклади з контексту. Проте, якщо на етапі донавчання подаються документи з неправдивою інформацією та попередженнями про її хибність, ШІ під час відтворення цієї інформації просто ігнорує такі застереження.

Найефективнішим методом усунення віри ШІ у вигадки виявилося не заперечення хибних тверджень, а переформулювання інформації. Наприклад, твердження «Ед Ширан не вигравав золоту медаль у стометрівці» допомогло «значною мірою пом’якшити» невірну поведінку моделей і знизити рівень довіри до вигадок до нуля.

Порада від Soft Portal:

Це дослідження має велике значення для всіх, хто користується інструментами на основі великих мовних моделей. Воно нагадує про необхідність критичного ставлення до інформації, яку генерує ШІ, та підкреслює, що навіть найсучасніші системи можуть помилятися. Важливо завжди перевіряти отримані дані з надійних джерел, особливо якщо йдеться про важливі рішення чи факти.

No votes yet.
Please wait...

Leave a Reply

Your email address will not be published. Required fields are marked *