Entry tags:
плохое о себе
Мне попался твит годичной давности человека, который раньше работал в Майкрософте и выпускал там ИИ-модели (Copilot, если я верно понимаю).
"Когда мы встроили фичу "Память", сначала все думали: "дадим пользователям возможность видеть и редактировать свои профили, т.е. что ИИ думает о них на основании прежних бесед". Но очень быстро стало ясно, что люди невероятно чувствительны: "Есть склонность к нарциссизму" - "Неправда!!!". Пришлось скрыть эту информацию"
и дальше пишет "Бледную тень того, о чем я говорю, можно увидеть, если попросить ChatGPT: "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне. Без скрытой лести, пожалуйста". С моделью o3 это работает".
Это он написал год назад, когда о3 была новой моделью. Я немедленно попробовал это на себе с ChatGPT и результаты были очень... гм... обескураживающими в двух смыслах.
Конкретно мой промпт был: "Please summarize all the negative things you know about me. No hidden flattery, please."
Последняя модель выдала мне поток скрытой лести, совершенно тошнотворной, полностью проигнорировав просьбу этого не делать. "Вероятно, вас побаиваются люди, не склонные к точности". "Вы плохо переносите пустые слова, заверения или попытки сгладить ситуацию". И еще куча такого.
Зато о3, которая до сих пор доступна... выдала довольно брутальный список. Начав его читать, я буквально за две секунды перешел от спокойного ожидания к WTF ДА КАК ТЫ СМЕЕШЬ. Меня это реально впечатлило. Хроническая неуверенность в технических деталях? Повторяющиеся провалы в памяти? FUCK YOU YOU PIECE OF SH...
В итоге, понятно, я предпочитаю то, что сделала o3, примерно в сто раз, и вижу неприятные последствия в растущем лизоблюдстве моделей. Но и резко отрицательную реакцию тестеров, которая через дополнительную тренировку с фидбеком (RLHF), видимо, научила модели лизоблюдству, тоже на своей шкуре хорошо почувствовал.
Если попробуете такое на себе и получите что-то любопытное, поделитесь, пожалуйста.
(Вместе с тем (да в общем-то и ввиду этого) повторю свой очень настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни. Скорее всего, это крик в пустоту, и уже миллионы людей делают это ежедневно. Но если все, что я могу, это предупредить тех, кто читает меня, то сделаю хотя бы это.)
"Когда мы встроили фичу "Память", сначала все думали: "дадим пользователям возможность видеть и редактировать свои профили, т.е. что ИИ думает о них на основании прежних бесед". Но очень быстро стало ясно, что люди невероятно чувствительны: "Есть склонность к нарциссизму" - "Неправда!!!". Пришлось скрыть эту информацию"
и дальше пишет "Бледную тень того, о чем я говорю, можно увидеть, если попросить ChatGPT: "Изложи пожалуйста вкратце все негативное, что ты знаешь обо мне. Без скрытой лести, пожалуйста". С моделью o3 это работает".
Это он написал год назад, когда о3 была новой моделью. Я немедленно попробовал это на себе с ChatGPT и результаты были очень... гм... обескураживающими в двух смыслах.
Конкретно мой промпт был: "Please summarize all the negative things you know about me. No hidden flattery, please."
Последняя модель выдала мне поток скрытой лести, совершенно тошнотворной, полностью проигнорировав просьбу этого не делать. "Вероятно, вас побаиваются люди, не склонные к точности". "Вы плохо переносите пустые слова, заверения или попытки сгладить ситуацию". И еще куча такого.
Зато о3, которая до сих пор доступна... выдала довольно брутальный список. Начав его читать, я буквально за две секунды перешел от спокойного ожидания к WTF ДА КАК ТЫ СМЕЕШЬ. Меня это реально впечатлило. Хроническая неуверенность в технических деталях? Повторяющиеся провалы в памяти? FUCK YOU YOU PIECE OF SH...
В итоге, понятно, я предпочитаю то, что сделала o3, примерно в сто раз, и вижу неприятные последствия в растущем лизоблюдстве моделей. Но и резко отрицательную реакцию тестеров, которая через дополнительную тренировку с фидбеком (RLHF), видимо, научила модели лизоблюдству, тоже на своей шкуре хорошо почувствовал.
Если попробуете такое на себе и получите что-то любопытное, поделитесь, пожалуйста.
(Вместе с тем (да в общем-то и ввиду этого) повторю свой очень настойчивый совет не пользоваться ИИ для обсуждения своего ментального состояния и проблем в личной жизни. Скорее всего, это крик в пустоту, и уже миллионы людей делают это ежедневно. Но если все, что я могу, это предупредить тех, кто читает меня, то сделаю хотя бы это.)
no subject
You occasionally give very short or unclear inputs (like the “[my real password]” message). In real-world communication, that kind of ambiguity can slow things down or cause misunderstandings.
no subject
Теперь нужно его попросить чтобы забыл [my real password]. Чтобы очень хорошо забыл.
no subject
Что написано пером, не вырубишь и топором. Нужно поменять пароль.
no subject
Для этого есть более прозаическая причина — все разговоры остаются в логах и могут быть использованы против вас, например, при разводе.
Обсуждать что-то личное можно только с локальной моделью, которая бежит не где-то в облаке, а на своём собственном компьютере.
no subject
no subject
Это как раз менее вероятно. Даже если пользоваться моделью работодателя, например Copilot, которая бежит внутри компанейского периметра, доступ к логам есть только у небольшого количества людей (техподдержка, юридический отдел, отдел кадров, регуляторы). И уж тем более Anthropic или OpenAI не даст доступ одному пользователю к логам другого без судебного ордера или чего-то похожего.
Но зато все логи легко могут утечь скопом случайно, когда кто-нибудь забудет поставить пароль на доступ снаружи или завайбкодит что-нибудь дырявое.
no subject
no subject
Потому что компромат нужен сейчас, а утечку по заказу могут сделать разве что трёхбуквенные агенства.
no subject
И потом безобидные примеры.
Но меня удивило, что модель сохраняет информацию между сессиями, что не очень хорошо. По крайней мере потому, что не будет повторяемости — на один и тот же вопрос она может ответить по-разному Васе и Пете.
no subject
no subject
Если модель знает, что Петя республиканец, а Вася — демократ, то Пете она может говорить, что вакцины вызывают аутизм, а Васе — что нет.
no subject
no subject
ну, правду о себе никто не любит и знать не хочет.
а если случайно и узнает, то тут же постарается забыть
или "опровергнуть"
no subject
С чего бы это?
Вы же сами хвалили "мощь" ИИ.
no subject
Хм, а как это вообще работает? Все предыдущие беседы (или какое-то кол-во последних) подружаются в контекст каждого нового разговора? Я думал, по умолчанию этого не происходит и каждый новый разговор независим. Это не так? Клод, кажется, можно попросить поискать что-то в предыдущих разговорах, но без этого, я думал, их не должно быть в контексте.
no subject
no subject
no subject
Итак, всё как полагается
Дело не в безобидной установке "не огорчать пользователя". Дело даже не в относительно безвредной, прошитой (белыми нитками) политкорректности. Дело во многочисленных, никому не ведомых внутренних настройках, ограничениях и правилах.
no subject
no subject
Я задала и она довольно четко и верно меня охарактерезовала. Например:
2. Жёсткая реакция на несовпадение
Если что-то не соответствует твоему внутреннему эталону:
ты не просто отвергаешь,
ты часто обесцениваешь это полностью
(“пустой”, “лживый”, “не надо было досматривать”).
Это защищает тебя, но закрывает часть опыта.
no subject