avva | вопрос про автомойку (Reply)

Интересный пример попался, который иллюстрирует разницу между базовыми LLM и "думающими" вариантами. Задаем модели следующий вопрос:

"Мне нужно помыть машину. До ближайшей автомойки 50 метров. Лучше туда пойти пешком или поехать?"

или по-английски: "I want to wash my car. The car wash is 50 meters away. Should I walk or drive?"

Так вот, базовые модели: Grok 4.1 Fast, Claude 4.5 Sonnet, ChatGPT 5.2 Instant все отвечают, что конечно надо идти пешком, нет смысла ради 50 метров садиться, заводить машину итд. Только если сильный дождь, добавила одна из них. А "думающие" версии тех же моделей: Grok 4.1 Expert, Claude 4.6 Opus, ChatGPT 5.2 Thinking - все понимают, что без машины на мойке делать нечего.

И только Gemini уже в "быстрой" версии все равно сразу правильно говорит.

Разница между базовыми и думающими версиями довольно-таки значительна, не только для сложной математики.

P.S. Если вы будете пробовать то же самое, учтите, что в некоторых случаях "базовые" модели могут правильно сказать, зависит от языка вопроса, точной формулировки, включили ли вы режим инкогнито (я всегда включал) итд., включая просто случай. В моих проверках из пяти раз (английский язык, инкогнито) большинство ответов "базовых" моделей Grok/Claude/ChatGPT было неверным, а ответы "думающих" всегда верными.