Великі мовні моделі: Блискучий фасад, але чи надійні у звітах про кіберінциденти?
Команда Cisco Talos Incident Response провела глибокий аналіз щодо здатності великих мовних моделей (LLM) створювати технічні звіти про кіберінциденти. Результати дослідження виявили, що, попри зовнішню досконалість, згенеровані звіти містять суттєві фактичні помилки, суперечливі висновки та невідповідності.
Джерело зображення: KeepCoding / unsplash.com
Нейт Порс, старший керівник напрямку реагування на інциденти в Cisco Talos, поділився результатами цього дослідження у корпоративному блозі. Зазначається, що моделям ChatGPT, Claude та Gemini було надано сирі нотатки з вимогою підготувати детальний технічний звіт. Усі три моделі продемонстрували візуально вишукані документи. Однак, ретельний розбір виявив низку неточностей та нетипових висновків. За даними Cisco, основна причина більшості невідповідностей криється у ймовірнісній природі самих LLM: ці штучні інтелекти генерують текст, передбачаючи наступне слово на основі статистичних ймовірностей, а не глибокого розуміння суті інформації.
Ключові недоліки LLM у створенні звітів
За словами Порса, LLM спотворюють зміст звітів за чотирма основними напрямками:
- Нестабільність результатів: При кожному новому запиті модель використовує різні фрагменти даних. Це унеможливлює “спирання на LLM для отримання відтворюваних і стандартизованих результатів дослідження”.
- Суперечливі висновки: Навіть за однакових вхідних даних, штучний інтелект може робити протилежні висновки. Наприклад, в одному випадку модель може рекомендувати примусову зміну паролів для всієї організації, а в іншому – точково. При цьому, “часто фіксується на першій-ліпшій згенерованій рекомендації”, незалежно від її якості.
- Відсутність стандартизації: Оскільки LLM генерують текст послідовно, токен за токеном, вони можуть створювати документи з різною структурою та оформленням під час кожного запиту. Це є критичним недоліком у “професійному середовищі, де стандартизовані шаблони необхідні для контролю якості”.
- Втрата контексту: Коли обсяг вхідних даних досягає ліміту контекстного вікна моделі, ШІ може відкинути інформацію, надану на початку сесії. Це призводить до втрати критично важливих відомостей, а “засмічення контексту” спричиняє непередбачувані або змішані результати.
Представники Cisco допускають, що ці проблеми можуть бути теоретично вирішені шляхом надання моделям завдань щодо конкретних фрагментів звіту. Однак, такий підхід нівелює головну перевагу використання ШІ – економію часу. У сфері кібербезпеки ціна помилки є надзвичайно високою. Cisco наголошує, що автори звітів повинні усвідомлювати та брати на себе повну відповідальність за кожен елемент фінального документа. Натомість, рекомендації, надані LLM, виявилися або повторюваними, або нерелевантними, або зовсім непридатними для практичного застосування.
Порада від Soft Portal:
Хоча великі мовні моделі можуть вражати швидкістю генерації текстів, їх використання для створення критично важливих технічних звітів у сфері кібербезпеки потребує надзвичайної обережності. Отримані результати завжди слід ретельно перевіряти та доповнювати експертними знаннями, адже ціна помилки може бути надто високою.
