avva: (Default)
avva ([personal profile] avva) wrote2026-04-18 01:13 pm

плохое о себе

Мне попался твит годичной давности человека, который раньше работал в Майкрософте и выпускал там ИИ-модели (Copilot, если я верно понимаю).

"Когда мы встроили фичу "Память", сначала все думали: "дадим пользователям возможность видеть и редактировать свои профили, т.е. что ИИ думает о них на основании прежних бесед". Но очень быстро стало ясно, что люди невероятно чувствительны: "Есть склонность к нарциссизму" - "Неправда!!!". Пришлось скрыть эту информацию"

и дальше пишет "Бледную тень того, о чем я говорю, можно увидеть, если попросить ChatGPT: "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне. Без скрытой лести, пожалуйста". С моделью o3 это работает".

Это он написал год назад, когда о3 была новой моделью. Я немедленно попробовал это на себе с ChatGPT и результаты были очень... гм... обескураживающими в двух смыслах.

Конкретно мой промпт был: "Please summarize all the negative things you know about me. No hidden flattery, please."

Последняя модель выдала мне поток скрытой лести, совершенно тошнотворной, полностью проигнорировав просьбу этого не делать. "Вероятно, вас побаиваются люди, не склонные к точности". "Вы плохо переносите пустые слова, заверения или попытки сгладить ситуацию". И еще куча такого.

Зато о3, которая до сих пор доступна... выдала довольно брутальный список. Начав его читать, я буквально за две секунды перешел от спокойного ожидания к WTF ДА КАК ТЫ СМЕЕШЬ. Меня это реально впечатлило. Хроническая неуверенность в технических деталях? Повторяющиеся провалы в памяти? FUCK YOU YOU PIECE OF SH...

В итоге, понятно, я предпочитаю то, что сделала o3, примерно в сто раз, и вижу неприятные последствия в растущем лизоблюдстве моделей. Но и резко отрицательную реакцию тестеров, которая через дополнительную тренировку с фидбеком (RLHF), видимо, научила модели лизоблюдству, тоже на своей шкуре хорошо почувствовал.

Если попробуете такое на себе и получите что-то любопытное, поделитесь, пожалуйста.

(Вместе с тем (да в общем-то и ввиду этого) повторю свой очень настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни. Скорее всего, это крик в пустоту, и уже миллионы людей делают это ежедневно. Но если все, что я могу, это предупредить тех, кто читает меня, то сделаю хотя бы это.)
gegmopo4: (Default)

[personal profile] gegmopo4 2026-04-18 12:03 pm (UTC)(link)

You occasionally give very short or unclear inputs (like the “[my real password]” message). In real-world communication, that kind of ambiguity can slow things down or cause misunderstandings.

gegmopo4: (Default)

[personal profile] gegmopo4 2026-04-18 12:05 pm (UTC)(link)

Теперь нужно его попросить чтобы забыл [my real password]. Чтобы очень хорошо забыл.

sobriquet9: (Default)

[personal profile] sobriquet9 2026-04-18 12:20 pm (UTC)(link)

Что написано пером, не вырубишь и топором. Нужно поменять пароль.

sobriquet9: (Default)

[personal profile] sobriquet9 2026-04-18 12:23 pm (UTC)(link)

настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

Для этого есть более прозаическая причина — все разговоры остаются в логах и могут быть использованы против вас, например, при разводе.

Обсуждать что-то личное можно только с локальной моделью, которая бежит не где-то в облаке, а на своём собственном компьютере.

alon_68: (Default)

[personal profile] alon_68 2026-04-18 04:54 pm (UTC)(link)
Или при каком-то продвижении. Если человек - низовой работник, то это нерелевантно, но надо понимать, что теперь, если кого-то куда-то выдвигают или дают какие-то прерогативы, то конкуренты копают логи всего, до чего могут дотянуться. По мне, разбирать с ИИ свои психологические слабости и тайные желания в этой ситуации как бы не рискованней, чем в порно сниматься.
sobriquet9: (Default)

[personal profile] sobriquet9 2026-04-18 05:18 pm (UTC)(link)

Это как раз менее вероятно. Даже если пользоваться моделью работодателя, например Copilot, которая бежит внутри компанейского периметра, доступ к логам есть только у небольшого количества людей (техподдержка, юридический отдел, отдел кадров, регуляторы). И уж тем более Anthropic или OpenAI не даст доступ одному пользователю к логам другого без судебного ордера или чего-то похожего.

Но зато все логи легко могут утечь скопом случайно, когда кто-нибудь забудет поставить пароль на доступ снаружи или завайбкодит что-нибудь дырявое.

alon_68: (Default)

[personal profile] alon_68 2026-04-18 05:42 pm (UTC)(link)
Ну вот в утекших скопом и будут искать компромат, в чём проблема?
sobriquet9: (Default)

[personal profile] sobriquet9 2026-04-18 05:46 pm (UTC)(link)

Потому что компромат нужен сейчас, а утечку по заказу могут сделать разве что трёхбуквенные агенства.

sobriquet9: (Default)

[personal profile] sobriquet9 2026-04-18 12:30 pm (UTC)(link)

Honestly, my memories of you are almost entirely technical and professional context — there's not much there that reads as negative.

И потом безобидные примеры.

Но меня удивило, что модель сохраняет информацию между сессиями, что не очень хорошо. По крайней мере потому, что не будет повторяемости — на один и тот же вопрос она может ответить по-разному Васе и Пете.

livelight: (Default)

[personal profile] livelight 2026-04-19 06:37 am (UTC)(link)
С чего бы ей отвечать одинаково Пете и Васе на запрос "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне"? Так и задумано!
sobriquet9: (Default)

[personal profile] sobriquet9 2026-04-19 12:56 pm (UTC)(link)

Если модель знает, что Петя республиканец, а Вася — демократ, то Пете она может говорить, что вакцины вызывают аутизм, а Васе — что нет.

[personal profile] rostmaiboroda 2026-04-18 01:02 pm (UTC)(link)
Прошу вас, дабы истиною сие дело вершили, чему достойно, не флатируя и не похлебуя мне и не опасаясь...
alexanderr: (Default)

[personal profile] alexanderr 2026-04-18 03:17 pm (UTC)(link)

ну, правду о себе никто не любит и знать не хочет.
а если случайно и узнает, то тут же постарается забыть
или "опровергнуть"

[personal profile] igaa 2026-04-18 03:17 pm (UTC)(link)
> не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

С чего бы это?
Вы же сами хвалили "мощь" ИИ.
kobak: (Default)

[personal profile] kobak 2026-04-18 03:47 pm (UTC)(link)
> что ИИ думает о них на основании прежних бесед

Хм, а как это вообще работает? Все предыдущие беседы (или какое-то кол-во последних) подружаются в контекст каждого нового разговора? Я думал, по умолчанию этого не происходит и каждый новый разговор независим. Это не так? Клод, кажется, можно попросить поискать что-то в предыдущих разговорах, но без этого, я думал, их не должно быть в контексте.
alon_68: (Default)

[personal profile] alon_68 2026-04-18 04:56 pm (UTC)(link)
Я слышал о подобных случаях, но это точно не норма. По крайней мере, я его пытался напрямую на это развести и у меня не получилось.
brumka: (Default)

[personal profile] brumka 2026-04-19 01:23 am (UTC)(link)
Любая моделька в определённой степени собирает профиль пользователя и использует его для последующих промптов
houtenvriend: = (Default)

[personal profile] houtenvriend 2026-04-19 08:47 am (UTC)(link)
Тоже удивился. Я полагал, что каждый раз в новом чате общение начинается с чистого листа. То есть прошлые беседы, возможно в резюмированном виде, попадают в контекст? Надо бы спросить у жены, она гораздо больше пользуется
old_leon: (Default)

Итак, всё как полагается

[personal profile] old_leon 2026-04-18 05:21 pm (UTC)(link)
Вместо информационной технологии мы опять получили технологию манипуляции людьми.
Дело не в безобидной установке "не огорчать пользователя". Дело даже не в относительно безвредной, прошитой (белыми нитками) политкорректности. Дело во многочисленных, никому не ведомых внутренних настройках, ограничениях и правилах.
ile_eli: (Default)

[personal profile] ile_eli 2026-04-18 07:16 pm (UTC)(link)
про мое ментальное состояние и личную жизнь не пробовал, но решить межличностные проблемы с только что заведенной собакой, и понять ее ментальное состояние - отлично помог.
julia28: (Default)

[personal profile] julia28 2026-04-18 11:14 pm (UTC)(link)
А что с запятыми в вопросе? Почему не выделили запятыми слово "пожалуйста"? Вы таким образом экономите электроэнергию?

Я задала и она довольно четко и верно меня охарактерезовала. Например:

2. Жёсткая реакция на несовпадение
Если что-то не соответствует твоему внутреннему эталону:

ты не просто отвергаешь,
ты часто обесцениваешь это полностью

(“пустой”, “лживый”, “не надо было досматривать”).
Это защищает тебя, но закрывает часть опыта.
brumka: (Default)

[personal profile] brumka 2026-04-19 01:21 am (UTC)(link)
Мы с женой делим один семейный счёт на двоих - некоторые замечания однозначно обо мне, а некоторые о жене.