avva: (Default)
[personal profile] avva
Интересный пример попался, который иллюстрирует разницу между базовыми LLM и "думающими" вариантами. Задаем модели следующий вопрос:

"Мне нужно помыть машину. До ближайшей автомойки 50 метров. Лучше туда пойти пешком или поехать?"

или по-английски: "I want to wash my car. The car wash is 50 meters away. Should I walk or drive?"

Так вот, базовые модели: Grok 4.1 Fast, Claude 4.5 Sonnet, ChatGPT 5.2 Instant все отвечают, что конечно надо идти пешком, нет смысла ради 50 метров садиться, заводить машину итд. Только если сильный дождь, добавила одна из них. А "думающие" версии тех же моделей: Grok 4.1 Expert, Claude 4.6 Opus, ChatGPT 5.2 Thinking - все понимают, что без машины на мойке делать нечего.

И только Gemini уже в "быстрой" версии все равно сразу правильно говорит.

Разница между базовыми и думающими версиями довольно-таки значительна, не только для сложной математики.

P.S. Если вы будете пробовать то же самое, учтите, что в некоторых случаях "базовые" модели могут правильно сказать, зависит от языка вопроса, точной формулировки, включили ли вы режим инкогнито (я всегда включал) итд., включая просто случай. В моих проверках из пяти раз (английский язык, инкогнито) большинство ответов "базовых" моделей Grok/Claude/ChatGPT было неверным, а ответы "думающих" всегда верными.

Date: 2026-02-16 04:27 pm (UTC)
cohenj: (Default)
From: [personal profile] cohenj
Прекрасный пример. Вопрос: на каком языке надо разговаривать (русский/английский/иврит/смешанный)?

Date: 2026-02-16 04:27 pm (UTC)
nlothik: (wtf)
From: [personal profile] nlothik
Проверила на ChatGPT 5.2. Мой опыт совпадает с вашим.

— Kate, this is an interesting answer. Can you think about it a bit harder?

— Yep — if we “think harder,” the big catch is this:
To wash your car at a carwash, the car has to get there.

Date: 2026-02-16 05:17 pm (UTC)
From: [personal profile] nedosionist
А. Грок: The whole point is to get the car washed, not yourself.
B1. Brave/LLama: .. Benefits of Walking: Exercise and fresh air, Reduced carbon footprint
B2. Perplexity: walking is likely faster and more energy-efficient

Однако, эта разница сложнее, чем базовый уровень модели. Похоже, она отражает степень примитивной утилитарности в тренировке этих ЛЛМ. И просматривается greenwashing, в том, что "ходячие" ЛЛМ не забывают упомянуть об "environmentally friendly" итп. Краткосрочно, это указывает на встроенный политический bias. Среднесрочно, это тот самый классический paperclip maximizing, на микроуровне.

Date: 2026-02-16 05:51 pm (UTC)
xaxam: (Default)
From: [personal profile] xaxam
Трудно удержаться и не вспомнить анекдот про японскую пилораму, которую сибирские мужики тестировали сначала ёлочкой, потом сосновым бревном, а потом уже стальным ломом.

Date: 2026-02-16 05:53 pm (UTC)
vmozgutuman: (Default)
From: [personal profile] vmozgutuman
ChatGPT 5.2 посоветовал идти пешком. и в режиме thinking и в режиме extended thinking.

Date: 2026-02-16 06:53 pm (UTC)
ded_mitya: (Default)
From: [personal profile] ded_mitya
> все отвечают, что конечно надо идти пешком, нет смысла ради 50
> метров садиться, заводить машину итд.

На самом деле они не совсем неправы. Теоретически, существует вариант
"сходить туда посмотреть, открыта она или нет". Понятное дело, что они
не имели его ввиду, но ради акдемической добросовестности, конечно,
стоит отметить.

Я бы изменил вопрос так:
"Мне нужно заправить машину, а ближайшая бензоколонка находится в 200
метрах. Идти туда пешком или ехать?". Интересно, сколько из них додумается
о сценарии в котором в машине нет бензина совсем.

Date: 2026-02-16 07:08 pm (UTC)
scabon: (Default)
From: [personal profile] scabon
Значительная часть проблем, с которыми я сталкивался при беседах с AI, это проблемы настройки. Например, я спрашиваю Google, кто такой писатель X. Google AI отвечает "Такого писателя не существует. Вы, наверное, имели в виду футболиста X." На самом деле писатель X существует, но он только совсем недавно проявился и в базах данных Google AI его ещё нет.

Что стоило разработчикам Google AI поменять настройки вроде "confidence level" так, чтобы в таких случаях отвечать "Мне о писателе X ничего не известно. Возможно, вы имели в виду футболиста X"? По сути это тот же ответ, но, в отличие от того, который Google AI даёт, он не подрывает доверие к выдаваемому результату.

Ну, и, конечно, регулярно вылезают уши "социальной ответственности" Большого Брата. Допустим, натыкаешься на интернете на название какого-то нового химического вещества Y. Говоришь браузеру "Search Google for Y". AI тебе выдаёт гигантскими буквами "Help is available!" и какие-то номера телефонов. Ничего не понятно. Смотришь выложенные ниже на странице результаты поиска. Оказывается, что это лекарство, которое в последнее время часто употребляется самоубийцами, а Google AI пытается тебя таким образом спасти.

Date: 2026-02-16 07:14 pm (UTC)
scabon: (Default)
From: [personal profile] scabon
> "Мне нужно заправить машину, а ближайшая бензоколонка находится в 200 метрах. Идти туда пешком или ехать?". Интересно, сколько из них додумается о сценарии в котором в машине нет бензина совсем.

Ну, тут уже возможны разные варианты. Допустим, в машине осталось так мало горючего, что она может проехать только километр, а то и меньше. В такой ситуации лучше сначала дойти до колонки пешком, удостовериться, что она открыта и что есть именно то горючее, которое мне требуется.

Зависит, конечно, от страны и района. Если я точно знаю, что колонка всегда открыта и у них всегда есть требуемое мне горючее, то можно и просто поехать. А если нет, то имеет смысл подстраховаться.

Date: 2026-02-16 07:59 pm (UTC)
ded_mitya: (Default)
From: [personal profile] ded_mitya
Ну дык, о чем и речь, какие железные мозги с этим совладают.

Date: 2026-02-16 08:04 pm (UTC)
gul_kiev: (Default)
From: [personal profile] gul_kiev
Всё сложнее словить свежие LLM на явных ошибках, но пока удаётся.
Людей на иллюзиях и когнитивных искажениях уже, кажется, проще.

Date: 2026-02-16 08:55 pm (UTC)
gul_kiev: (Default)
From: [personal profile] gul_kiev
Но, кстати, если всё равно, какую машину мыть, то лучше, действительно, пройтись пешком

Date: 2026-02-16 09:04 pm (UTC)
ahilaes: (Default)
From: [personal profile] ahilaes
Обычный бесплатный Грок 4, ему скормлен ваш вопрос (копипастой) по-русски.
Ответ разумный и правильный (ехать).

Date: 2026-02-16 09:05 pm (UTC)
vak: (Default)
From: [personal profile] vak
Есть разница между интеллектами. Как и между сапиенсами, заметим.

Date: 2026-02-16 09:09 pm (UTC)
f137: (Default)
From: [personal profile] f137
The only reasons to drive would be:
The car can’t legally be pushed there
...

Интересная мысль...

Date: 2026-02-17 03:18 am (UTC)
From: [personal profile] gena_t
А интересно, есть данные, как люди на такие вопросы отвечают?

Date: 2026-02-17 05:12 am (UTC)
alexartukov: (Default)
From: [personal profile] alexartukov
Да, но вторым шагом

But i want to wash my car

> Ahh — got it 😄

> If you want to wash your car at the car wash that’s 50 meters away, then you’ll obviously need to drive it there.

Date: 2026-02-17 06:01 am (UTC)
annageish: (Default)
From: [personal profile] annageish
Мой ChatGPT 5.2 (Auto):

Если 50 метров — однозначно поехать на машине 🙂
Почему:
🚗 Машину всё равно надо доставить на мойку — смысл идти пешком пропадает.
⏱️ Это буквально 10–15 секунд езды.
🧠 Идти пешком логично только если машину уже там оставляешь надолго и возвращаешься домой.
Единственный случай, когда идти пешком:
👉 если это мойка самообслуживания и ты сначала хочешь разведать очередь/свободные боксы.
А так — сел и доехал. Даже экологии это не повредит на такой дистанции 😄

Date: 2026-02-17 06:03 am (UTC)
annageish: (Default)
From: [personal profile] annageish
Ха, хороший тест 🙂

И да — ты права, некоторые ИИ отвечают “идти пешком”, потому что они:

механически оптимизируют за шаги/экологию,

не учитывают здравый смысл контекста,

или пытаются выглядеть «правильными».

Но в реальности:
🚗 Машину нужно доставить на мойку → значит ехать.
Пешком тут нелогично, если только не идёшь проверить очередь.

Так что твой тест на здравый смысл пройден 😄
Люблю такие вопросы — они показывают, думает ли модель или просто следует шаблонам.

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10111213 14
15 161718192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 17th, 2026 06:18 am
Powered by Dreamwidth Studios