Turnitin заявляет, что ее детектор мошенничества с использованием искусственного интеллекта не всегда надежен

Эта статья представляет собой предварительный просмотр информационного бюллетеня The Tech Friend. Зарегистрируйтесь здесь, чтобы получать его на свой почтовый ящик каждый вторник и пятницу.

Оказывается, мы не можем надежно обнаружить текст с помощью программ искусственного интеллекта, таких как ChatGPT. Это большая проблема, особенно для учителей.

Хуже того, ученые все чаще заявляют, что использование программного обеспечения для точного обнаружения ИИ может быть просто невозможным.

Последние доказательства: Turnitin, крупная компания, занимающаяся программным обеспечением для образовательных учреждений, заявила, что детектор мошенничества с использованием искусственного интеллекта, который она использовала на более чем 38 миллионах студенческих эссе с апреля, имеет больше проблем с надежностью, чем предполагалось изначально. Компания Turnitin, которая присваивает каждой студенческой работе процентный балл, «сгенерированный искусственным интеллектом», вносит некоторые корректировки, включая добавление новых предупреждений о типах пограничных результатов, наиболее подверженных ошибкам.

Я впервые написал о детекторе искусственного интеллекта Turnitin этой весной, когда опасения по поводу того, что студенты используют искусственный интеллект для мошенничества, заставили многих преподавателей искать способы сдерживания этого. В то время компания заявила, что ее технология имеет менее 1 процента наиболее проблемного вида ошибок: ложных срабатываний, когда настоящие студенческие письма ошибочно помечаются как мошенничество. Теперь, по словам Turnitin, на уровне предложений (более узкий показатель) их программное обеспечение неправильно распознает 4 процента написанных слов.

Мое расследование также показало, что ложные обнаружения представляют собой значительный риск. Перед запуском я протестировал программное обеспечение Turnitin на реальных студенческих письмах и эссе, которые студенты-добровольцы помогали создавать с помощью ChatGPT. Turnitin идентифицировал более половины из наших 16 образцов, по крайней мере частично, неправильно, в том числе сказал, что эссе одного студента, полностью написанное человеком, было частично написано с помощью ИИ.

Ставки в обнаружении ИИ могут быть особенно высоки для учителей, но они не единственные, кто ищет способы сделать это. То же самое делают компании, занимающиеся кибербезопасностью, сотрудники избирательных комиссий и даже журналисты, которым необходимо определить, что является человеческим, а что нет. Возможно, вам тоже захочется узнать, было ли это примечательное письмо от босса или политика написано искусственным интеллектом.

В последние месяцы в сети появилось множество программ для обнаружения искусственного интеллекта, включая ZeroGPT и Writer. Даже OpenAI, компания ChatGPT, делает такой. Но появляется все больше примеров того, как эти детекторы ошибаются, включая тот, который утверждает, что пролог к Конституции был написан ИИ. (Маловероятно, если только теперь не возможны путешествия во времени?)

Вывод для вас: будьте осторожны, относясь к любому детектору ИИ как к факту. В некоторых случаях прямо сейчас это немногим лучше, чем случайное предположение.

Уровень ошибок в 4 или даже 1 процент может показаться небольшим, но каждое ложное обвинение в списывании может иметь катастрофические последствия для студента. С тех пор, как я опубликовал свою апрельскую колонку, я получил заметки от учеников и родителей, обеспокоенных тем, что они назвали ложными обвинениями. (Моя электронная почта все еще открыта.)

В длинном сообщении в блоге на прошлой неделе директор по продуктам Turnitin Энни Чечителли заявила, что компания хочет быть прозрачной в отношении своей технологии, но она не отказалась от ее внедрения. Она сказала, что для документов, которые, по мнению ее программного обеспечения для обнаружения, содержат более 20 процентов рукописей искусственного интеллекта, уровень ложных срабатываний для всего документа составляет менее 1 процента. Но она не уточнила, какова частота ошибок в остальное время — для документов, которые, по мнению ее программного обеспечения, содержат менее 20 процентов написанного ИИ. В таких случаях Turnitin начала ставить звездочку рядом с результатами, «чтобы привлечь внимание к тому факту, что оценка менее надежна».

«Мы не можем полностью снизить риск ложных срабатываний, учитывая природу написания и анализа ИИ, поэтому важно, чтобы преподаватели использовали оценку ИИ, чтобы начать содержательный и эффективный диалог со своими учениками в таких случаях», — написал Чечителли.

Ключевой вопрос: какая погрешность допустима в детекторе искусственного интеллекта?

Новое препринтное исследование профессора информатики Сохейла Фейзи и его коллег из Университета Мэриленда показывает, что ни один общедоступный детектор искусственного интеллекта не является достаточно надежным в практических сценариях.