Почему ИИ чат-ботов бессмысленно спрашивать об их ошибках?

Каждый раз, когда чат-бот выдает что-то неправильное, первый инстинкт большинства пользователей — спросить, что пошло не так, почему ИИ допустил ошибку. Но с языковыми моделями, в отличие от реальных людей, это никак не поможет. Они просто не способны анализировать собственные ошибки. Портал arstechnica.com подробно рассказал, почему.

Первая проблема — концептуальная. При разговоре с чат-ботом вы не общаетесь с какой-то постоянной личностью или сущностью. Да, у ChatGPT, Claude, Grok или Replit технически есть «имена», но за ними не стоят индивиды со знаниями — это всего лишь иллюзия, созданная диалоговым интерфейсом. На самом деле вы контролируете статистический генератор текста, который выдает результаты в зависимости от запросов пользователя.

Другими словами, не существует какого-то одного ChatGPT или Grok. Человек взаимодействует с системой, которая генерирует адекватно звучащий текст на основе паттернов, найденных в базе данных обучения (обычно устаревшей). У этой системы нет самосознания или системного знания себя, равно как и способности помнить себя.

После обучения языковой модели, занимающего много времени и ресурсов, ее фундаментальные «знания» о мире запечатываются в нейросеть и редко модифицируются. Любая внешняя информация поступает от запросов со стороны хоста чат-бота, пользователя или программного инструмента, который ИИ использует для того, чтобы искать данные в реальном времени.

Например, если взять Grok, то главным источником информации для ответа, вероятно, будут противоречащие друг другу сообщения из недавних постов в социальных сетях. Не знания, как в случае с людьми. А если этой информации не хватит, то модель просто что-нибудь придумает благодаря своей способности предугадывать текст.

Проблема номер два — ИИ не могут осмыслить собственные возможности по ряду причин. Как правило, у них нет никаких данных о том, как они обучались, им недоступна окружающая системная архитектура, они не могут определить границы своей производительности. Если спросить чат-бота, что он может сделать, а что — нет, то он выдаст ответ на базе того, что говорили об ограничениях предыдущих языковых моделей. По сути, он просто ответит догадкой, а не фактической информацией о себе.

Читать далее:

ChatGPT игнорирует научные опровержения

Исследование 2024 года продемонстрировало этот нюанс с помощью эксперимента. Хотя ИИ-модели можно обучить так, чтобы они могли предугадывать собственное поведение в простых задачах, они постоянно проваливаются в более сложных задачах. Точно так же исследование «рекурсивной интроспекции» показало, что, без обратной связи извне, попытки ИИ исправить свои ошибки приводили к падению производительности модели. То есть, самооценка ИИ сделала все хуже, а не лучше.

Порой это приводит к парадоксальным ситуациям. Модель может уверенно заявить, что не способна выполнять задачи, которые, на самом деле, ей по плечу, и напротив, уверять пользователя, что она умеет делать невозможное. Нельзя забывать, что, спросив ИИ о том, где он допустил ошибку, пользователь получит в ответ еще одну порцию сгенерированного текста, а не настоящий анализ допущенной ошибки.

Недостаток языковых моделей в том, что у них нет стабильной, доступной базы знаний, к которой всегда можно обратиться. Их «знания» проявляются лишь в ответ на специфические запросы; каждый запрос пользователя играет роль своеобразного адреса, который отсылает ИИ к разным частям базы данных, на которых он обучен. Именно это иногда и приводит к противоречащим друг другу ответам.

Но даже если бы ИИ обладал идеальным знанием о собственных механизмах, другие слои чат-бот приложений могут так и остаться непроницаемыми. Так, современные ИИ-ассистенты, вроде ChatGPT, представляют собой не единичные модели, но обширные системы, состоящие из разных моделей, работающих сообща. Каждая из них, по большей части, не знает о существовании других. Поэтому расспрашивать ИИ об ошибках — все равно что спрашивать один департамент большой компании о том, что происходит в другом, с которым они никогда не контактировали.

Наконец, самый важный момент в том, что пользователи почти всегда влияют на ответы ИИ — не важно, осознают они это или нет. Если в ужасе спросить у чат-бота, уничтожил ли он логи или код программы, то он будет более склонен ответить, что да, потому что этот вариант подходит под эмоциональный контекст запроса.

Почему ИИ чат-ботов бессмысленно спрашивать об их ошибках?

Специалисты Ringbrothers представили рестомод Octavia на базе Aston Martin DBS 1971 года

Стало известно, сколько времени понадобилось полиции, чтобы прибыть в «Крокус Сити Холл»

Похожие публикации