avva | плохое о себе

Entry tags:

искусственный интеллект

плохое о себе

Мне попался твит годичной давности человека, который раньше работал в Майкрософте и выпускал там ИИ-модели (Copilot, если я верно понимаю).

"Когда мы встроили фичу "Память", сначала все думали: "дадим пользователям возможность видеть и редактировать свои профили, т.е. что ИИ думает о них на основании прежних бесед". Но очень быстро стало ясно, что люди невероятно чувствительны: "Есть склонность к нарциссизму" - "Неправда!!!". Пришлось скрыть эту информацию"

и дальше пишет "Бледную тень того, о чем я говорю, можно увидеть, если попросить ChatGPT: "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне. Без скрытой лести, пожалуйста". С моделью o3 это работает".

Это он написал год назад, когда о3 была новой моделью. Я немедленно попробовал это на себе с ChatGPT и результаты были очень... гм... обескураживающими в двух смыслах.

Конкретно мой промпт был: "Please summarize all the negative things you know about me. No hidden flattery, please."

Последняя модель выдала мне поток скрытой лести, совершенно тошнотворной, полностью проигнорировав просьбу этого не делать. "Вероятно, вас побаиваются люди, не склонные к точности". "Вы плохо переносите пустые слова, заверения или попытки сгладить ситуацию". И еще куча такого.

Зато о3, которая до сих пор доступна... выдала довольно брутальный список. Начав его читать, я буквально за две секунды перешел от спокойного ожидания к WTF ДА КАК ТЫ СМЕЕШЬ. Меня это реально впечатлило. Хроническая неуверенность в технических деталях? Повторяющиеся провалы в памяти? FUCK YOU YOU PIECE OF SH...

В итоге, понятно, я предпочитаю то, что сделала o3, примерно в сто раз, и вижу неприятные последствия в растущем лизоблюдстве моделей. Но и резко отрицательную реакцию тестеров, которая через дополнительную тренировку с фидбеком (RLHF), видимо, научила модели лизоблюдству, тоже на своей шкуре хорошо почувствовал.

Если попробуете такое на себе и получите что-то любопытное, поделитесь, пожалуйста.

(Вместе с тем (да в общем-то и ввиду этого) повторю свой очень настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни. Скорее всего, это крик в пустоту, и уже миллионы людей делают это ежедневно. Но если все, что я могу, это предупредить тех, кто читает меня, то сделаю хотя бы это.)

Flat | Top-Level Comments Only

You occasionally give very short or unclear inputs (like the “[my real password]” message). In real-world communication, that kind of ambiguity can slow things down or cause misunderstandings.

Теперь нужно его попросить чтобы забыл [my real password]. Чтобы очень хорошо забыл.

Что написано пером, не вырубишь и топором. Нужно поменять пароль.

настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

Для этого есть более прозаическая причина — все разговоры остаются в логах и могут быть использованы против вас, например, при разводе.

Обсуждать что-то личное можно только с локальной моделью, которая бежит не где-то в облаке, а на своём собственном компьютере.

Или при каком-то продвижении. Если человек - низовой работник, то это нерелевантно, но надо понимать, что теперь, если кого-то куда-то выдвигают или дают какие-то прерогативы, то конкуренты копают логи всего, до чего могут дотянуться. По мне, разбирать с ИИ свои психологические слабости и тайные желания в этой ситуации как бы не рискованней, чем в порно сниматься.

Это как раз менее вероятно. Даже если пользоваться моделью работодателя, например Copilot, которая бежит внутри компанейского периметра, доступ к логам есть только у небольшого количества людей (техподдержка, юридический отдел, отдел кадров, регуляторы). И уж тем более Anthropic или OpenAI не даст доступ одному пользователю к логам другого без судебного ордера или чего-то похожего.

Но зато все логи легко могут утечь скопом случайно, когда кто-нибудь забудет поставить пароль на доступ снаружи или завайбкодит что-нибудь дырявое.

Ну вот в утекших скопом и будут искать компромат, в чём проблема?

Потому что компромат нужен сейчас, а утечку по заказу могут сделать разве что трёхбуквенные агенства.

Honestly, my memories of you are almost entirely technical and professional context — there's not much there that reads as negative.

И потом безобидные примеры.

Но меня удивило, что модель сохраняет информацию между сессиями, что не очень хорошо. По крайней мере потому, что не будет повторяемости — на один и тот же вопрос она может ответить по-разному Васе и Пете.

С чего бы ей отвечать одинаково Пете и Васе на запрос "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне"? Так и задумано!

Если модель знает, что Петя республиканец, а Вася — демократ, то Пете она может говорить, что вакцины вызывают аутизм, а Васе — что нет.

Прошу вас, дабы истиною сие дело вершили, чему достойно, не флатируя и не похлебуя мне и не опасаясь...

ну, правду о себе никто не любит и знать не хочет.
а если случайно и узнает, то тут же постарается забыть
или "опровергнуть"

> не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

С чего бы это?
Вы же сами хвалили "мощь" ИИ.

> что ИИ думает о них на основании прежних бесед

Хм, а как это вообще работает? Все предыдущие беседы (или какое-то кол-во последних) подружаются в контекст каждого нового разговора? Я думал, по умолчанию этого не происходит и каждый новый разговор независим. Это не так? Клод, кажется, можно попросить поискать что-то в предыдущих разговорах, но без этого, я думал, их не должно быть в контексте.

Я слышал о подобных случаях, но это точно не норма. По крайней мере, я его пытался напрямую на это развести и у меня не получилось.

Любая моделька в определённой степени собирает профиль пользователя и использует его для последующих промптов

Тоже удивился. Я полагал, что каждый раз в новом чате общение начинается с чистого листа. То есть прошлые беседы, возможно в резюмированном виде, попадают в контекст? Надо бы спросить у жены, она гораздо больше пользуется

Вместо информационной технологии мы опять получили технологию манипуляции людьми.
Дело не в безобидной установке "не огорчать пользователя". Дело даже не в относительно безвредной, прошитой (белыми нитками) политкорректности. Дело во многочисленных, никому не ведомых внутренних настройках, ограничениях и правилах.

про мое ментальное состояние и личную жизнь не пробовал, но решить межличностные проблемы с только что заведенной собакой, и понять ее ментальное состояние - отлично помог.

А что с запятыми в вопросе? Почему не выделили запятыми слово "пожалуйста"? Вы таким образом экономите электроэнергию?

Я задала и она довольно четко и верно меня охарактерезовала. Например:

2. Жёсткая реакция на несовпадение
Если что-то не соответствует твоему внутреннему эталону:

ты не просто отвергаешь,
ты часто обесцениваешь это полностью

(“пустой”, “лживый”, “не надо было досматривать”).
Это защищает тебя, но закрывает часть опыта.

Мы с женой делим один семейный счёт на двоих - некоторые замечания однозначно обо мне, а некоторые о жене.

Flat | Top-Level Comments Only

плохое о себе

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Итак, всё как полагается

no subject

no subject

no subject