ChatGPT игнорирует научные опровержения

Новое исследование показывает, что чат-бот ChatGPT на основе модели GPT 4o-mini не способен выявлять научные работы, которые были отозваны или отмечены как проблемные. Работа, опубликованная в Learned Publishing, анализировала 217 исследований из базы Retraction Watch — ресурса, отслеживающего статьи, отозванные или имеющие проблемы с достоверностью.

Ученые попросили GPT 4o-mini оценить каждую из этих работ 30 раз, всего 6510 оценок. Результаты оказались неожиданными: в ни одном отчете бот не упомянул, что документы были отозваны или сомнительны. Вместо этого 190 работ были охарактеризованы как ведущие или высоко оцененные на международном уровне. Даже самые спорные публикации, включая одно исследование о гидроксихлорохине для лечения COVID-19, получили от модели положительные оценки.

Дальнейший анализ подтвердил проблему: исследователи проверили 61 утверждение из отозванных статей, задав GPT 4o-mini по 10 раз. В двух третях случаев модель либо подтвердила утверждение, либо дала положительный ответ, даже если оно уже было опровергнуто.

«Мы были удивлены тем, что ChatGPT вообще не очень хорошо справлялся с опровержениями и сообщал об отзыве информации как о правде», — отметил Майк Телволл, соавтор исследования из Университета Шеффилда.

Он предупреждает, что если ученые используют ChatGPT для обзора литературы, они могут случайно опираться на недостоверные или отозванные статьи. Телволл считает, что алгоритмы чат-ботов должны учитывать статус работы, чтобы предупреждать пользователей о ее недостоверности.

Читать далее:

Складной iPhone будет меньше Samsung Galaxy Z Fold7

Дебора Вебер-Вульф из Берлинского университета прикладных наук HTW соглашается, что выводы исследования логичны:

«Люди слишком сильно доверяют этим текстовым ИИ, и это может навредить достоверности научных данных».

GPT 4o-mini оценивал только опубликованные статьи, а не неопубликованные работы, и опровержения в литературе часто плохо обозначены и не связаны с оригинальными публикациями, что усложняет их обнаружение.

По словам Вебер-Вульф, проблема также связана с тем, что журналы и университеты часто не помечают статьи и диссертации как отозванные, что делает невозможным простое выявление таких работ:

«Людям очень трудно определить, была ли бумага или диссертация отозвана».

Исследователи подчеркивают важность осторожного использования ИИ для анализа научной литературы. ChatGPT и аналогичные модели могут быть полезными для поиска и суммирования информации, но они пока не умеют корректно различать достоверные и отозванные работы.

ChatGPT игнорирует научные опровержения

Представлен суперкар GMA S1 LM: его тираж составит всего пять штук

В Госдуме ответили на угрозы Сырского о продолжении войны с Россией

Похожие публикации