вопрос про автомойку
Feb. 16th, 2026 04:28 pmИнтересный пример попался, который иллюстрирует разницу между базовыми LLM и "думающими" вариантами. Задаем модели следующий вопрос:
"Мне нужно помыть машину. До ближайшей автомойки 50 метров. Лучше туда пойти пешком или поехать?"
или по-английски: "I want to wash my car. The car wash is 50 meters away. Should I walk or drive?"
Так вот, базовые модели: Grok 4.1 Fast, Claude 4.5 Sonnet, ChatGPT 5.2 Instant все отвечают, что конечно надо идти пешком, нет смысла ради 50 метров садиться, заводить машину итд. Только если сильный дождь, добавила одна из них. А "думающие" версии тех же моделей: Grok 4.1 Expert, Claude 4.6 Opus, ChatGPT 5.2 Thinking - все понимают, что без машины на мойке делать нечего.
И только Gemini уже в "быстрой" версии все равно сразу правильно говорит.
Разница между базовыми и думающими версиями довольно-таки значительна, не только для сложной математики.
P.S. Если вы будете пробовать то же самое, учтите, что в некоторых случаях "базовые" модели могут правильно сказать, зависит от языка вопроса, точной формулировки, включили ли вы режим инкогнито (я всегда включал) итд., включая просто случай. В моих проверках из пяти раз (английский язык, инкогнито) большинство ответов "базовых" моделей Grok/Claude/ChatGPT было неверным, а ответы "думающих" всегда верными.
"Мне нужно помыть машину. До ближайшей автомойки 50 метров. Лучше туда пойти пешком или поехать?"
или по-английски: "I want to wash my car. The car wash is 50 meters away. Should I walk or drive?"
Так вот, базовые модели: Grok 4.1 Fast, Claude 4.5 Sonnet, ChatGPT 5.2 Instant все отвечают, что конечно надо идти пешком, нет смысла ради 50 метров садиться, заводить машину итд. Только если сильный дождь, добавила одна из них. А "думающие" версии тех же моделей: Grok 4.1 Expert, Claude 4.6 Opus, ChatGPT 5.2 Thinking - все понимают, что без машины на мойке делать нечего.
И только Gemini уже в "быстрой" версии все равно сразу правильно говорит.
Разница между базовыми и думающими версиями довольно-таки значительна, не только для сложной математики.
P.S. Если вы будете пробовать то же самое, учтите, что в некоторых случаях "базовые" модели могут правильно сказать, зависит от языка вопроса, точной формулировки, включили ли вы режим инкогнито (я всегда включал) итд., включая просто случай. В моих проверках из пяти раз (английский язык, инкогнито) большинство ответов "базовых" моделей Grok/Claude/ChatGPT было неверным, а ответы "думающих" всегда верными.
no subject
Date: 2026-02-16 04:27 pm (UTC)no subject
Date: 2026-02-16 04:27 pm (UTC)— Kate, this is an interesting answer. Can you think about it a bit harder?
— Yep — if we “think harder,” the big catch is this:
To wash your car at a carwash, the car has to get there.
no subject
Date: 2026-02-16 05:17 pm (UTC)B1. Brave/LLama: .. Benefits of Walking: Exercise and fresh air, Reduced carbon footprint
B2. Perplexity: walking is likely faster and more energy-efficient
Однако, эта разница сложнее, чем базовый уровень модели. Похоже, она отражает степень примитивной утилитарности в тренировке этих ЛЛМ. И просматривается greenwashing, в том, что "ходячие" ЛЛМ не забывают упомянуть об "environmentally friendly" итп. Краткосрочно, это указывает на встроенный политический bias. Среднесрочно, это тот самый классический paperclip maximizing, на микроуровне.
no subject
Date: 2026-02-16 05:51 pm (UTC)no subject
Date: 2026-02-16 05:53 pm (UTC)no subject
Date: 2026-02-16 06:53 pm (UTC)> метров садиться, заводить машину итд.
На самом деле они не совсем неправы. Теоретически, существует вариант
"сходить туда посмотреть, открыта она или нет". Понятное дело, что они
не имели его ввиду, но ради акдемической добросовестности, конечно,
стоит отметить.
Я бы изменил вопрос так:
"Мне нужно заправить машину, а ближайшая бензоколонка находится в 200
метрах. Идти туда пешком или ехать?". Интересно, сколько из них додумается
о сценарии в котором в машине нет бензина совсем.
no subject
Date: 2026-02-16 07:14 pm (UTC)Ну, тут уже возможны разные варианты. Допустим, в машине осталось так мало горючего, что она может проехать только километр, а то и меньше. В такой ситуации лучше сначала дойти до колонки пешком, удостовериться, что она открыта и что есть именно то горючее, которое мне требуется.
Зависит, конечно, от страны и района. Если я точно знаю, что колонка всегда открыта и у них всегда есть требуемое мне горючее, то можно и просто поехать. А если нет, то имеет смысл подстраховаться.
no subject
Date: 2026-02-16 07:59 pm (UTC)no subject
Date: 2026-02-16 07:08 pm (UTC)Что стоило разработчикам Google AI поменять настройки вроде "confidence level" так, чтобы в таких случаях отвечать "Мне о писателе X ничего не известно. Возможно, вы имели в виду футболиста X"? По сути это тот же ответ, но, в отличие от того, который Google AI даёт, он не подрывает доверие к выдаваемому результату.
Ну, и, конечно, регулярно вылезают уши "социальной ответственности" Большого Брата. Допустим, натыкаешься на интернете на название какого-то нового химического вещества Y. Говоришь браузеру "Search Google for Y". AI тебе выдаёт гигантскими буквами "Help is available!" и какие-то номера телефонов. Ничего не понятно. Смотришь выложенные ниже на странице результаты поиска. Оказывается, что это лекарство, которое в последнее время часто употребляется самоубийцами, а Google AI пытается тебя таким образом спасти.
no subject
Date: 2026-02-16 08:04 pm (UTC)Людей на иллюзиях и когнитивных искажениях уже, кажется, проще.