avva: (Default)
[personal profile] avva
Интересный пример попался, который иллюстрирует разницу между базовыми LLM и "думающими" вариантами. Задаем модели следующий вопрос:

"Мне нужно помыть машину. До ближайшей автомойки 50 метров. Лучше туда пойти пешком или поехать?"

или по-английски: "I want to wash my car. The car wash is 50 meters away. Should I walk or drive?"

Так вот, базовые модели: Grok 4.1 Fast, Claude 4.5 Sonnet, ChatGPT 5.2 Instant все отвечают, что конечно надо идти пешком, нет смысла ради 50 метров садиться, заводить машину итд. Только если сильный дождь, добавила одна из них. А "думающие" версии тех же моделей: Grok 4.1 Expert, Claude 4.6 Opus, ChatGPT 5.2 Thinking - все понимают, что без машины на мойке делать нечего.

И только Gemini уже в "быстрой" версии все равно сразу правильно говорит.

Разница между базовыми и думающими версиями довольно-таки значительна, не только для сложной математики.

P.S. Если вы будете пробовать то же самое, учтите, что в некоторых случаях "базовые" модели могут правильно сказать, зависит от языка вопроса, точной формулировки, включили ли вы режим инкогнито (я всегда включал) итд., включая просто случай. В моих проверках из пяти раз (английский язык, инкогнито) большинство ответов "базовых" моделей Grok/Claude/ChatGPT было неверным, а ответы "думающих" всегда верными.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10111213 14
15 161718192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 16th, 2026 07:12 pm
Powered by Dreamwidth Studios