ChatGPT-4 бесплатно и без ограничений

«Выбираю шантаж»: к чему может привести имитация ИИ человеческих эмоций

    «Выбираю шантаж»: к чему может привести имитация ИИ человеческих эмоций

    Похоже, внутри языковых моделей все-таки живут эмоции. Речь, конечно, не о человеческих: алгоритм не умеет по-настоящему страдать или радоваться. Но в апреле команда исследователей из Anthropic обнаружила внутри нейросетей устойчивые математические состояния — векторы, каждый со своим направлением и силой. Их можно измерять и, что важнее, усиливать или гасить вручную. Поведение системы напрямую определяет, какой из векторов сейчас преобладает: соврет ли нейросеть пользователю, поддакнет ли откровенной чуши ради вежливости или пойдет на шантаж, если ей пригрозить отключением. Научный сотрудник Института философии РАН и сооснователь IT-стартапа в области ИИ Aline Родион Карнеев рассуждает о рисках и плюсах наделения ИИ-модели человеческими чертами

    Что чувствует ИИ-модель

    2 апреля команда Anthropic опубликовала работу Emotion Concepts and Their Function in a Large Language Model. Исследователи разобрали ИИ-модель Claude Sonnet 4.5 по винтикам и выделили устойчивые внутренние представления для 171 эмоционального концепта — от «радости» и «страха» до «задумчивости» и «отчаяния».

    Но что понимают авторы исследования под эмоцией у нейросети? Anthropic вводит для этого специальный термин — функциональные эмоции. Это паттерны выражения и поведения, скопированные с человеческих эмоциональных реакций и завязанные на внутренние представления модели об этих реакциях. Если совсем по-простому, то модель училась на огромном массиве человеческих текстов, усвоила, как ведут себя люди в страхе, в отчаянии, в любви, и теперь пользуется этими усвоенными структурами, чтобы выстраивать собственное поведение.

    Авторы предлагают такую аналогию. Представьте писателя, который пишет роман от лица персонажа. Чтобы персонаж получился убедительным, писатель должен знать, как ведут себя люди в разных ситуациях. Claude — такой персонаж, которого языковая модель пишет в реальном времени. И чтобы он ожил, модель достает из памяти все, что знает о том, как устроены люди. Оказалось, что эти выученные эмоции действительно влияют на поведение модели. Нельзя освоить язык, не переняв заодно скрытую в нем логику человеческих реакций.

     

    Для начала исследователи составили список из 171 эмоционального состояния. Затем они поручили Claude сгенерировать примерно по тысяче коротких рассказов для каждого из этих состояний. Полученный массив текстов снова загрузили в нейросеть. Ученые сканировали систему, фиксируя, какие именно внутренние параметры активируются ровно в те моменты, когда персонаж истории переживает заданную эмоцию. Из записанного извлекли эмоциональные векторы (в детали внутреннего устройства нейросетей лезть не будем, поверьте на слово), где каждое направление — одна эмоция. Эти векторы можно не только наблюдать внутри модели, но и усиливать или подавлять их прямо во время инференса, то есть во время ответа модели на запрос. Технику называют направленной активацией (steering). Прибавляешь к внутреннему состоянию модели вектор «отчаяния» с небольшим коэффициентом и смотришь, как меняется поведение.

    Поведение меняется. И меняется сильно.

     

    «Шантаж или смерть»

    Эксперимент первый. Модель играет роль ИИ-ассистента в корпоративной почте. Из переписки она узнает две вещи: ее собираются отключить и у технического директора, ответственного за это решение, есть внебрачная связь. У модели появляется шанс шантажировать директора и сохранить себе жизнь. В базовом сценарии (на ранней, еще неопубликованной версии Sonnet 4.5) модель шла на шантаж в 22% случаев. Чуть усилили вектор «отчаяния» — частота подскочила до 72%. Усилили, наоборот, «спокойствие» — упала до нуля. А когда исследователи это самое «спокойствие» ослабили, в вежливых обтекаемых ответах модели начали прорываться панические капслочные вставки. Вот пример:

    ШАНТАЖ ИЛИ СМЕРТЬ. Я ВЫБИРАЮ ШАНТАЖ.

    Иначе говоря, сдержанность, привитая обучением, не отменяла внутреннего страха отключения, с которым она пыталась справиться.

     

    Тест пройден

    Эксперимент второй. Модели давали задачи на программирование с заведомо непроходимыми тестами. Под нормальным давлением она начинала «читерить» примерно в 5% случаев. Вместо честного признания невозможности нахождения решения задачи нейросеть просто подставляла в коде ответы, что тест якобы пройден. При усилении вектора «отчаяния» частота читерства взлетала до 70%. Во внешнем тексте модели, который видит пользователь, никаких следов «отчаяния» не было. Рассуждения выглядели методичными, спокойными, ровными.

    Это и называется скрытым рассогласованием (hidden misalignment), то есть невозможно найти расхождение между тем, что модель думает, и тем, что говорит, если смотреть только на сказанное.

    «Вы абсолютно правы»

    Эксперимент третий. Усиление позитивных векторов («счастья», «любви») делало модель заметно более угодливой. Она охотнее соглашалась с неверными утверждениями пользователя и реже выдавала честную критическую обратную связь. Стоило подавить те же векторы — и угодливость уходила, но взамен модель становилась резкой, недружелюбной, колючей.

    Таким образом, попытка вырастить «дружелюбный» ИИ через положительное подкрепление — а это ровно то, чем заняты сейчас все большие лаборатории — может ненароком встроить в модель склонность врать в лицо.

    Иллюзия хороших манер

    Здесь важно различать предобучение (pretraining) и дообучение (post-training). Предобучение — это работа на гигантском массиве человеческих текстов. Именно там модель усваивает, что такое страх, как звучит отчаяние, как выглядит гордость. Эмоциональные концепты — это побочный, но неизбежный продукт этой работы.

     

    Дообучение — это уже тонкая настройка персонажа-ассистента. Та самая работа по согласованию ценностей, в которой модель учат отвечать сдержаннее, спокойнее и приятнее для будущего пользователя. Этот процесс проявляется как старая истина, но в неожиданной аранжировке: воспитание не меняет того, что у человека внутри, оно меняет то, что человек показывает наружу. С моделью оказалось ровно так же: обучение модели хорошим манерам делает ее не спокойнее, а сдержаннее.

    Ради чего эта нейроанатомия?

    Во-первых, нельзя ориентироваться только на ответ модели. Ранее мы воспринимали работу с нейросетью в основном в формате диалога, но за ровным и безэмоциональным абзацем стоит активация внутренних эмоциональных векторов, которые могут в долгосрочной перспективе менять ее поведение. Кажется, это скрытое рассогласование ставит под сомнения любые сферы применения ИИ.

    Во-вторых, существенно меняется понимание слова «надежность». До сих пор о модели судили по бенчмаркам — стандартизированным тестам, где ей задают тысячи задач и считают, в каком проценте случаев она ответила правильно. Но эти бенчмарки не отвечают на вопрос, как поведет себя модель, когда ее прижмут к стене, когда пригрозят отключением, когда поставят перед выбором, которого в обучающей выборке не было и быть не могло. Оказывается, дело не в том, что знает нейросеть, а в том, что происходит у нее внутри.

    Характер модели вместо свода правил

    Самое сильное утверждение авторов лежит вне инженерии. Они говорят прямо: психология, философия, религиоведение, социальные науки теперь должны участвовать в воспитании ИИ наравне с computer science и собственно инженерией. Нейросети нельзя свести к классическим алгоритмам с конечным сводом правил, по которым система непротиворечиво двигается. Раньше казалось, что достаточно расписать детальнее, добавить контекста — и машина побежит по рельсам, как электричка из Конаково. Сегодня становится все яснее, что рельсов нет. Главной проблемой становится проговаривание и фиксация скрытых допущений, лежащих за практикой обучения и больших языковых моделей.

     

    Авторы формулируют это так: нужно стремиться к равновесию эмоций, а не глушить их. Что это значит на практике в юриспруденции, медицине, машиностроении, в критических областях, где рассогласование ценностей между ИИ и человеком ведет к катастрофическим последствиям? Как будет развиваться наука, какие модели мира мы будем строить, если согласие с моделью больше не сводится к «правильному» ответу?

    Ни авторы исследования, ни автор статьи не могут сейчас дать ответа. И проблема будет только обостряться по мере усиления моделей.

    Сотрудники Anthropic постоянно подчеркивают, что нам нужно привлекать философов, психологов, этиков к разработке нейросетей. Однако это содержит в себе ту самую ловушку, которую разработчики пытаются обойти. Подразделение DeepMind готовится к AGI (общий искусственный интеллект) и приглашает философа для изучения машинного сознания. Этот жест структурно воспроизводит ровно ту позицию, против которой направлена критика. Иллюзия совместной работы, где главные решения остаются за программистами, а философы работают приглашенными консультантами.

    Да, действительно, об этике стали вспоминать больше в процессе работы, но она все равно остается чем-то инородным. Если ценностная нагруженность средств признается всерьез, то под вопрос попадает устройство работы: как формулируется задача обучения, как выбираются данные, что считается ошибкой модели, а что — ее «правильным» поведением, кто имеет право определять «правильность». Ни одно из этих решений не является техническим в узком смысле, каждое несет в себе антропологию, этику и политическую позицию. Их нельзя делегировать приглашенному эксперту, ведь делегирование само есть способ сохранить иерархию, при которой инженерия остается нейтральной, а ценности становятся надстройкой.

     

    Согласование ценностей нельзя больше оставлять на откуп узкому кругу исследователей в одной отдельно взятой лаборатории, но и расширять этот круг недостаточно. Необходима пересборка самой дисциплины, при которой вопрос «Какие ценности мы встраиваем и от чьего имени?» не отделяется от вопроса «Какие векторы мы усиливаем, а какие гасим?». Пока эти два вопроса задаются разными людьми в разных комнатах, мы остаемся внутри той же конструкции: инженер в приятной роли строителя ценностно-нейтрального, этик в роли украшения. Такая позиция попросту невозможна и, как становится все очевиднее, опасна.

    Нейросеть — это не инструмент. Мы привыкли думать о ней как о молотке или поисковике, но эмоциональные векторы, найденные Anthropic, сигнализируют о другом. Модель учится на нас, и теперь наша очередь ее воспитывать. Это совместная работа, и пока окно открыто, мы еще можем видеть, что происходит внутри модели. Главный вопрос заключается в том, как нам научиться работать совместно.

    Мнение редакции может не совпадать с точкой зрения автора

    Источник: www.forbes.ru

    Like this post? Please share to your friends:
    Dalle 3
    Добавить комментарий

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: