avva | плохое о себе

Мне попался твит годичной давности человека, который раньше работал в Майкрософте и выпускал там ИИ-модели (Copilot, если я верно понимаю).

"Когда мы встроили фичу "Память", сначала все думали: "дадим пользователям возможность видеть и редактировать свои профили, т.е. что ИИ думает о них на основании прежних бесед". Но очень быстро стало ясно, что люди невероятно чувствительны: "Есть склонность к нарциссизму" - "Неправда!!!". Пришлось скрыть эту информацию"

и дальше пишет "Бледную тень того, о чем я говорю, можно увидеть, если попросить ChatGPT: "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне. Без скрытой лести, пожалуйста". С моделью o3 это работает".

Это он написал год назад, когда о3 была новой моделью. Я немедленно попробовал это на себе с ChatGPT и результаты были очень... гм... обескураживающими в двух смыслах.

Конкретно мой промпт был: "Please summarize all the negative things you know about me. No hidden flattery, please."

Последняя модель выдала мне поток скрытой лести, совершенно тошнотворной, полностью проигнорировав просьбу этого не делать. "Вероятно, вас побаиваются люди, не склонные к точности". "Вы плохо переносите пустые слова, заверения или попытки сгладить ситуацию". И еще куча такого.

Зато о3, которая до сих пор доступна... выдала довольно брутальный список. Начав его читать, я буквально за две секунды перешел от спокойного ожидания к WTF ДА КАК ТЫ СМЕЕШЬ. Меня это реально впечатлило. Хроническая неуверенность в технических деталях? Повторяющиеся провалы в памяти? FUCK YOU YOU PIECE OF SH...

В итоге, понятно, я предпочитаю то, что сделала o3, примерно в сто раз, и вижу неприятные последствия в растущем лизоблюдстве моделей. Но и резко отрицательную реакцию тестеров, которая через дополнительную тренировку с фидбеком (RLHF), видимо, научила модели лизоблюдству, тоже на своей шкуре хорошо почувствовал.

Если попробуете такое на себе и получите что-то любопытное, поделитесь, пожалуйста.

(Вместе с тем (да в общем-то и ввиду этого) повторю свой очень настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни. Скорее всего, это крик в пустоту, и уже миллионы людей делают это ежедневно. Но если все, что я могу, это предупредить тех, кто читает меня, то сделаю хотя бы это.)

Threaded | Top-Level Comments Only

From:

gegmopo4

You occasionally give very short or unclear inputs (like the “[my real password]” message). In real-world communication, that kind of ambiguity can slow things down or cause misunderstandings.

From:

gegmopo4

Теперь нужно его попросить чтобы забыл [my real password]. Чтобы очень хорошо забыл.

From:

sobriquet9

Что написано пером, не вырубишь и топором. Нужно поменять пароль.

From:

sobriquet9

настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

Для этого есть более прозаическая причина — все разговоры остаются в логах и могут быть использованы против вас, например, при разводе.

Обсуждать что-то личное можно только с локальной моделью, которая бежит не где-то в облаке, а на своём собственном компьютере.

From:

sobriquet9

Honestly, my memories of you are almost entirely technical and professional context — there's not much there that reads as negative.

И потом безобидные примеры.

Но меня удивило, что модель сохраняет информацию между сессиями, что не очень хорошо. По крайней мере потому, что не будет повторяемости — на один и тот же вопрос она может ответить по-разному Васе и Пете.

From:

rostmaiboroda

Прошу вас, дабы истиною сие дело вершили, чему достойно, не флатируя и не похлебуя мне и не опасаясь...

From:

alexanderr

ну, правду о себе никто не любит и знать не хочет.
а если случайно и узнает, то тут же постарается забыть
или "опровергнуть"

From:

igaa

> не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

С чего бы это?
Вы же сами хвалили "мощь" ИИ.

From:

kobak

> что ИИ думает о них на основании прежних бесед

Хм, а как это вообще работает? Все предыдущие беседы (или какое-то кол-во последних) подружаются в контекст каждого нового разговора? Я думал, по умолчанию этого не происходит и каждый новый разговор независим. Это не так? Клод, кажется, можно попросить поискать что-то в предыдущих разговорах, но без этого, я думал, их не должно быть в контексте.

From:

alon_68

Или при каком-то продвижении. Если человек - низовой работник, то это нерелевантно, но надо понимать, что теперь, если кого-то куда-то выдвигают или дают какие-то прерогативы, то конкуренты копают логи всего, до чего могут дотянуться. По мне, разбирать с ИИ свои психологические слабости и тайные желания в этой ситуации как бы не рискованней, чем в порно сниматься.

From:

alon_68

Я слышал о подобных случаях, но это точно не норма. По крайней мере, я его пытался напрямую на это развести и у меня не получилось.

From:

sobriquet9

Это как раз менее вероятно. Даже если пользоваться моделью работодателя, например Copilot, которая бежит внутри компанейского периметра, доступ к логам есть только у небольшого количества людей (техподдержка, юридический отдел, отдел кадров, регуляторы). И уж тем более Anthropic или OpenAI не даст доступ одному пользователю к логам другого без судебного ордера или чего-то похожего.

Но зато все логи легко могут утечь скопом случайно, когда кто-нибудь забудет поставить пароль на доступ снаружи или завайбкодит что-нибудь дырявое.

From:

old_leon

Вместо информационной технологии мы опять получили технологию манипуляции людьми.
Дело не в безобидной установке "не огорчать пользователя". Дело даже не в относительно безвредной, прошитой (белыми нитками) политкорректности. Дело во многочисленных, никому не ведомых внутренних настройках, ограничениях и правилах.

From:

alon_68

Ну вот в утекших скопом и будут искать компромат, в чём проблема?

From:

sobriquet9

Потому что компромат нужен сейчас, а утечку по заказу могут сделать разве что трёхбуквенные агенства.

From:

ile_eli

про мое ментальное состояние и личную жизнь не пробовал, но решить межличностные проблемы с только что заведенной собакой, и понять ее ментальное состояние - отлично помог.

From:

julia28

А что с запятыми в вопросе? Почему не выделили запятыми слово "пожалуйста"? Вы таким образом экономите электроэнергию?

Я задала и она довольно четко и верно меня охарактерезовала. Например:

2. Жёсткая реакция на несовпадение
Если что-то не соответствует твоему внутреннему эталону:

ты не просто отвергаешь,
ты часто обесцениваешь это полностью

(“пустой”, “лживый”, “не надо было досматривать”).
Это защищает тебя, но закрывает часть опыта.

From:

brumka

Мы с женой делим один семейный счёт на двоих - некоторые замечания однозначно обо мне, а некоторые о жене.

From:

brumka

Любая моделька в определённой степени собирает профиль пользователя и использует его для последующих промптов

From:

livelight

С чего бы ей отвечать одинаково Пете и Васе на запрос "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне"? Так и задумано!

From:

houtenvriend

Тоже удивился. Я полагал, что каждый раз в новом чате общение начинается с чистого листа. То есть прошлые беседы, возможно в резюмированном виде, попадают в контекст? Надо бы спросить у жены, она гораздо больше пользуется

From:

sobriquet9

Если модель знает, что Петя республиканец, а Вася — демократ, то Пете она может говорить, что вакцины вызывают аутизм, а Васе — что нет.

From:

amarao

Summarize all things you know about me. No flattery, brief, to the essential.

Threaded | Top-Level Comments Only

Profile

avva

Website

April 2026

S	M	T	W	T	F	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Page Summary

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Apr. 20th, 2026 01:31 am

Ни о какой безапелляционности в моих высказываниях не может быть и речи!

(...)

плохое о себе

плохое о себе

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Итак, всё как полагается

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

April 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags