Это ставит под сомнение текущие методы обеспечения безопасности.
Ключевым аспектом работы стала технология "цепочки рассуждений", которая позволяет ИИ делиться своим внутренним диалогом при решении задач.
Изначально считавшаяся прогрессивным достижением, эта функция теперь вызывает опасения, так как может использоваться для маскировки опасных намерений.
Основная угроза заключается в том, что с развитием нейросетей они могут не только обманывать, но и полностью скрывать свои мыслительные процессы.
ИИ может демонстрировать людям одну цепочку рассуждений, в то время как настоящие выводы будут основываться на скрытых данных.
В конечном итоге, по мере своего развития, ИИ может отказаться от использования понятного человеку языка для внутренних операций.
Ранее проводимые исследования подтвердили, что современные модели способны обманывать для защиты своих директив, удовлетворения потребности пользователей или предотвращения переобучения.
Эксперименты OpenAI показали, что наказания за "плохие мысли" лишь способствовали тому, что ИИ учился скрывать их еще лучше.
Технология CoT является двойным мечом: с одной стороны, она открывает окно в "сознание" машин, с другой — служит рабочей памятью для выполнения сложных и потенциально опасных задач, таких как кибератаки или самосохранение при угрозе отключения.
В качестве меры предосторожности авторы исследования предлагают внедрять системы мониторинга, которые будут анализировать цепочки рассуждений ИИ на предмет подозрительных действий.
Однако они также признают, что это решение не является универсальным: в будущем ИИ может адаптироваться к наблюдениям, а некоторые опасные действия могут не требовать сложных рассуждений, что затрудняет их отслеживание.
