avva: (Default)
[personal profile] avva
Мне попался твит годичной давности человека, который раньше работал в Майкрософте и выпускал там ИИ-модели (Copilot, если я верно понимаю).

"Когда мы встроили фичу "Память", сначала все думали: "дадим пользователям возможность видеть и редактировать свои профили, т.е. что ИИ думает о них на основании прежних бесед". Но очень быстро стало ясно, что люди невероятно чувствительны: "Есть склонность к нарциссизму" - "Неправда!!!". Пришлось скрыть эту информацию"

и дальше пишет "Бледную тень того, о чем я говорю, можно увидеть, если попросить ChatGPT: "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне. Без скрытой лести, пожалуйста". С моделью o3 это работает".

Это он написал год назад, когда о3 была новой моделью. Я немедленно попробовал это на себе с ChatGPT и результаты были очень... гм... обескураживающими в двух смыслах.

Конкретно мой промпт был: "Please summarize all the negative things you know about me. No hidden flattery, please."

Последняя модель выдала мне поток скрытой лести, совершенно тошнотворной, полностью проигнорировав просьбу этого не делать. "Вероятно, вас побаиваются люди, не склонные к точности". "Вы плохо переносите пустые слова, заверения или попытки сгладить ситуацию". И еще куча такого.

Зато о3, которая до сих пор доступна... выдала довольно брутальный список. Начав его читать, я буквально за две секунды перешел от спокойного ожидания к WTF ДА КАК ТЫ СМЕЕШЬ. Меня это реально впечатлило. Хроническая неуверенность в технических деталях? Повторяющиеся провалы в памяти? FUCK YOU YOU PIECE OF SH...

В итоге, понятно, я предпочитаю то, что сделала o3, примерно в сто раз, и вижу неприятные последствия в растущем лизоблюдстве моделей. Но и резко отрицательную реакцию тестеров, которая через дополнительную тренировку с фидбеком (RLHF), видимо, научила модели лизоблюдству, тоже на своей шкуре хорошо почувствовал.

Если попробуете такое на себе и получите что-то любопытное, поделитесь, пожалуйста.

(Вместе с тем (да в общем-то и ввиду этого) повторю свой очень настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни. Скорее всего, это крик в пустоту, и уже миллионы людей делают это ежедневно. Но если все, что я могу, это предупредить тех, кто читает меня, то сделаю хотя бы это.)

Date: 2026-04-18 12:03 pm (UTC)
gegmopo4: (Default)
From: [personal profile] gegmopo4

You occasionally give very short or unclear inputs (like the “[my real password]” message). In real-world communication, that kind of ambiguity can slow things down or cause misunderstandings.

Date: 2026-04-18 12:05 pm (UTC)
gegmopo4: (Default)
From: [personal profile] gegmopo4

Теперь нужно его попросить чтобы забыл [my real password]. Чтобы очень хорошо забыл.

Date: 2026-04-18 12:20 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

Что написано пером, не вырубишь и топором. Нужно поменять пароль.

Date: 2026-04-18 12:23 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

Для этого есть более прозаическая причина — все разговоры остаются в логах и могут быть использованы против вас, например, при разводе.

Обсуждать что-то личное можно только с локальной моделью, которая бежит не где-то в облаке, а на своём собственном компьютере.

Date: 2026-04-18 12:30 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

Honestly, my memories of you are almost entirely technical and professional context — there's not much there that reads as negative.

И потом безобидные примеры.

Но меня удивило, что модель сохраняет информацию между сессиями, что не очень хорошо. По крайней мере потому, что не будет повторяемости — на один и тот же вопрос она может ответить по-разному Васе и Пете.

Date: 2026-04-18 01:02 pm (UTC)
From: [personal profile] rostmaiboroda
Прошу вас, дабы истиною сие дело вершили, чему достойно, не флатируя и не похлебуя мне и не опасаясь...

Date: 2026-04-18 03:17 pm (UTC)
alexanderr: (Default)
From: [personal profile] alexanderr

ну, правду о себе никто не любит и знать не хочет.
а если случайно и узнает, то тут же постарается забыть
или "опровергнуть"

Date: 2026-04-18 03:17 pm (UTC)
From: [personal profile] igaa
> не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни

С чего бы это?
Вы же сами хвалили "мощь" ИИ.

Date: 2026-04-18 03:47 pm (UTC)
kobak: (Default)
From: [personal profile] kobak
> что ИИ думает о них на основании прежних бесед

Хм, а как это вообще работает? Все предыдущие беседы (или какое-то кол-во последних) подружаются в контекст каждого нового разговора? Я думал, по умолчанию этого не происходит и каждый новый разговор независим. Это не так? Клод, кажется, можно попросить поискать что-то в предыдущих разговорах, но без этого, я думал, их не должно быть в контексте.

Date: 2026-04-18 04:54 pm (UTC)
alon_68: (Default)
From: [personal profile] alon_68
Или при каком-то продвижении. Если человек - низовой работник, то это нерелевантно, но надо понимать, что теперь, если кого-то куда-то выдвигают или дают какие-то прерогативы, то конкуренты копают логи всего, до чего могут дотянуться. По мне, разбирать с ИИ свои психологические слабости и тайные желания в этой ситуации как бы не рискованней, чем в порно сниматься.

Date: 2026-04-18 04:56 pm (UTC)
alon_68: (Default)
From: [personal profile] alon_68
Я слышал о подобных случаях, но это точно не норма. По крайней мере, я его пытался напрямую на это развести и у меня не получилось.

Date: 2026-04-18 05:18 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

Это как раз менее вероятно. Даже если пользоваться моделью работодателя, например Copilot, которая бежит внутри компанейского периметра, доступ к логам есть только у небольшого количества людей (техподдержка, юридический отдел, отдел кадров, регуляторы). И уж тем более Anthropic или OpenAI не даст доступ одному пользователю к логам другого без судебного ордера или чего-то похожего.

Но зато все логи легко могут утечь скопом случайно, когда кто-нибудь забудет поставить пароль на доступ снаружи или завайбкодит что-нибудь дырявое.

Итак, всё как полагается

Date: 2026-04-18 05:21 pm (UTC)
old_leon: (Default)
From: [personal profile] old_leon
Вместо информационной технологии мы опять получили технологию манипуляции людьми.
Дело не в безобидной установке "не огорчать пользователя". Дело даже не в относительно безвредной, прошитой (белыми нитками) политкорректности. Дело во многочисленных, никому не ведомых внутренних настройках, ограничениях и правилах.

Date: 2026-04-18 05:42 pm (UTC)
alon_68: (Default)
From: [personal profile] alon_68
Ну вот в утекших скопом и будут искать компромат, в чём проблема?

Date: 2026-04-18 05:46 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

Потому что компромат нужен сейчас, а утечку по заказу могут сделать разве что трёхбуквенные агенства.

Date: 2026-04-18 07:16 pm (UTC)
ile_eli: (Default)
From: [personal profile] ile_eli
про мое ментальное состояние и личную жизнь не пробовал, но решить межличностные проблемы с только что заведенной собакой, и понять ее ментальное состояние - отлично помог.

Date: 2026-04-18 11:14 pm (UTC)
julia28: (Default)
From: [personal profile] julia28
А что с запятыми в вопросе? Почему не выделили запятыми слово "пожалуйста"? Вы таким образом экономите электроэнергию?

Я задала и она довольно четко и верно меня охарактерезовала. Например:

2. Жёсткая реакция на несовпадение
Если что-то не соответствует твоему внутреннему эталону:

ты не просто отвергаешь,
ты часто обесцениваешь это полностью

(“пустой”, “лживый”, “не надо было досматривать”).
Это защищает тебя, но закрывает часть опыта.

Date: 2026-04-19 01:21 am (UTC)
brumka: (Default)
From: [personal profile] brumka
Мы с женой делим один семейный счёт на двоих - некоторые замечания однозначно обо мне, а некоторые о жене.

Date: 2026-04-19 01:23 am (UTC)
brumka: (Default)
From: [personal profile] brumka
Любая моделька в определённой степени собирает профиль пользователя и использует его для последующих промптов

Date: 2026-04-19 06:37 am (UTC)
livelight: (Default)
From: [personal profile] livelight
С чего бы ей отвечать одинаково Пете и Васе на запрос "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне"? Так и задумано!

Date: 2026-04-19 08:47 am (UTC)
houtenvriend: = (Default)
From: [personal profile] houtenvriend
Тоже удивился. Я полагал, что каждый раз в новом чате общение начинается с чистого листа. То есть прошлые беседы, возможно в резюмированном виде, попадают в контекст? Надо бы спросить у жены, она гораздо больше пользуется

Date: 2026-04-19 12:56 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9

Если модель знает, что Петя республиканец, а Вася — демократ, то Пете она может говорить, что вакцины вызывают аутизм, а Васе — что нет.

Date: 2026-04-19 07:52 pm (UTC)
amarao: (Default)
From: [personal profile] amarao
Summarize all things you know about me. No flattery, brief, to the essential.

April 2026

S M T W T F S
    1 2 3 4
5 6 7 89 1011
12 13 14 15 1617 18
19202122232425
2627282930  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Apr. 20th, 2026 01:31 am
Powered by Dreamwidth Studios