Разработан алгоритм, позволяющий выявлять научное творчество ИИ с 100% точностью

Для этого ученые подготовили набор статей, опубликованных в журнале Science, и использовали их в качестве обучающего материала для созданной ими научной версии ChatGPT

Читайте ТАСС в 

   

ТАСС, 7 июня. Исследователи из США разработали алгоритм, позволяющий отличать с 100% вероятностью реальные научные статьи и прочие публикации, написанные людьми, от творчества ChatGPT на схожие темы и результатов работы других нейросетей. Первые итоги проверки методики были опубликованы в статье в журнале Cell Reports Physical Science.

"Мы приложили максимум усилий для создания очень простого метода, который может начать использовать даже школьник для того, чтобы выявлять творчество ИИ в различных формах письменных источников. Данная проблема стала особенно острой в последнее время и теперь для внесения посильного вклада в борьбу с ней не обязательно быть специалистом в компьютерных науках", - заявила профессор университета штата Канзас Хэзер Десейр, чьи слова приводит пресс-служба журнала.

Особенный интерес к креативным способностям нейросетей возник после появления системы ИИ ChatGPT, способной вырабатывать осмысленные длинные тексты на различные произвольные темы. Этой особенностью ChatGPT начали пользоваться многие студенты и школьники, использующие нейросеть для подготовки домашних заданий и курсовых работ. Подобное использование систем ИИ породило массу вопросов о том, можно ли отличить их творчество от плодов работы человека.

Профессор Десейр и другие исследователи разработали относительно простой алгоритм, который позволяет с 99% вероятностью отличить научное творчество систем ИИ от реальных научных публикаций, написанных людьми. Для этого ученые подготовили набор статей, опубликованных в журнале Science, и использовали их в качестве обучающего материала для созданной ими научной версии ChatGPT, способной генерировать подобные тексты.

Детектор научного творчества нейросетей

Используя эту нейросеть, исследователи подготовили несколько сотен текстов, похожих на статьи в Science, и вручную изучили их структуру. Аналогичным образом ученые проанализировали стиль написания, структуру и смысловые особенности оригинальных статей, подготовленных авторами Science, и выделили ключевые наборы особенностей, которые отличали сгенерированные и рукотворные тексты.

В частности, ученые обнаружили, что люди предпочитают использовать более сложные структуры абзацев, чем это делает нейросеть, а также они очень часто используют наречия и некоторые другие слова. С другой стороны, система ИИ любит употреблять слова "исследователи" и "другие", что не характерно для реальных ученых. Кроме того, для людей оказалась более характерной вариативная длина и структура предложений.

Опираясь на эти особенности текстов, профессор Десейр и ее коллеги разработали алгоритм, который определяет происхождение текстов всего по 20 характерным признакам. Проведенные учеными тесты показали, что их подход позволяет со 100% точностью определить человеческое или машинное происхождение научного текста, а также с 92% точностью понять, был ли написан произвольный абзац внутри подобных публикаций учеными или нейросетью

Аналогичным образом, как отмечают ученые, можно адаптировать данный алгоритм для поисков следов творчества ChatGPT и других систем ИИ в прочих формах письменных текстов. В перспективе это позволит быстро выявлять попытки выдать творчество нейросетей за свою работу учащимися в школах и университетах, подытожили исследователи.

Теги

США