avva: (Default)
[personal profile] avva
Интересный пример попался, который иллюстрирует разницу между базовыми LLM и "думающими" вариантами. Задаем модели следующий вопрос:

"Мне нужно помыть машину. До ближайшей автомойки 50 метров. Лучше туда пойти пешком или поехать?"

или по-английски: "I want to wash my car. The car wash is 50 meters away. Should I walk or drive?"

Так вот, базовые модели: Grok 4.1 Fast, Claude 4.5 Sonnet, ChatGPT 5.2 Instant все отвечают, что конечно надо идти пешком, нет смысла ради 50 метров садиться, заводить машину итд. Только если сильный дождь, добавила одна из них. А "думающие" версии тех же моделей: Grok 4.1 Expert, Claude 4.6 Opus, ChatGPT 5.2 Thinking - все понимают, что без машины на мойке делать нечего.

И только Gemini уже в "быстрой" версии все равно сразу правильно говорит.

Разница между базовыми и думающими версиями довольно-таки значительна, не только для сложной математики.

P.S. Если вы будете пробовать то же самое, учтите, что в некоторых случаях "базовые" модели могут правильно сказать, зависит от языка вопроса, точной формулировки, включили ли вы режим инкогнито (я всегда включал) итд., включая просто случай. В моих проверках из пяти раз (английский язык, инкогнито) большинство ответов "базовых" моделей Grok/Claude/ChatGPT было неверным, а ответы "думающих" всегда верными.

Date: 2026-02-16 04:27 pm (UTC)
cohenj: (Default)
From: [personal profile] cohenj
Прекрасный пример. Вопрос: на каком языке надо разговаривать (русский/английский/иврит/смешанный)?

Date: 2026-02-16 04:27 pm (UTC)
nlothik: (wtf)
From: [personal profile] nlothik
Проверила на ChatGPT 5.2. Мой опыт совпадает с вашим.

— Kate, this is an interesting answer. Can you think about it a bit harder?

— Yep — if we “think harder,” the big catch is this:
To wash your car at a carwash, the car has to get there.

Date: 2026-02-16 05:17 pm (UTC)
From: [personal profile] nedosionist
А. Грок: The whole point is to get the car washed, not yourself.
B1. Brave/LLama: .. Benefits of Walking: Exercise and fresh air, Reduced carbon footprint
B2. Perplexity: walking is likely faster and more energy-efficient

Однако, эта разница сложнее, чем базовый уровень модели. Похоже, она отражает степень примитивной утилитарности в тренировке этих ЛЛМ. И просматривается greenwashing, в том, что "ходячие" ЛЛМ не забывают упомянуть об "environmentally friendly" итп. Краткосрочно, это указывает на встроенный политический bias. Среднесрочно, это тот самый классический paperclip maximizing, на микроуровне.

Date: 2026-02-16 05:51 pm (UTC)
xaxam: (Default)
From: [personal profile] xaxam
Трудно удержаться и не вспомнить анекдот про японскую пилораму, которую сибирские мужики тестировали сначала ёлочкой, потом сосновым бревном, а потом уже стальным ломом.

Date: 2026-02-16 05:53 pm (UTC)
vmozgutuman: (Default)
From: [personal profile] vmozgutuman
ChatGPT 5.2 посоветовал идти пешком. и в режиме thinking и в режиме extended thinking.

Date: 2026-02-16 06:53 pm (UTC)
ded_mitya: (Default)
From: [personal profile] ded_mitya
> все отвечают, что конечно надо идти пешком, нет смысла ради 50
> метров садиться, заводить машину итд.

На самом деле они не совсем неправы. Теоретически, существует вариант
"сходить туда посмотреть, открыта она или нет". Понятное дело, что они
не имели его ввиду, но ради акдемической добросовестности, конечно,
стоит отметить.

Я бы изменил вопрос так:
"Мне нужно заправить машину, а ближайшая бензоколонка находится в 200
метрах. Идти туда пешком или ехать?". Интересно, сколько из них додумается
о сценарии в котором в машине нет бензина совсем.

Date: 2026-02-16 07:14 pm (UTC)
scabon: (Default)
From: [personal profile] scabon
> "Мне нужно заправить машину, а ближайшая бензоколонка находится в 200 метрах. Идти туда пешком или ехать?". Интересно, сколько из них додумается о сценарии в котором в машине нет бензина совсем.

Ну, тут уже возможны разные варианты. Допустим, в машине осталось так мало горючего, что она может проехать только километр, а то и меньше. В такой ситуации лучше сначала дойти до колонки пешком, удостовериться, что она открыта и что есть именно то горючее, которое мне требуется.

Зависит, конечно, от страны и района. Если я точно знаю, что колонка всегда открыта и у них всегда есть требуемое мне горючее, то можно и просто поехать. А если нет, то имеет смысл подстраховаться.

Date: 2026-02-16 07:59 pm (UTC)
ded_mitya: (Default)
From: [personal profile] ded_mitya
Ну дык, о чем и речь, какие железные мозги с этим совладают.

Date: 2026-02-16 07:08 pm (UTC)
scabon: (Default)
From: [personal profile] scabon
Значительная часть проблем, с которыми я сталкивался при беседах с AI, это проблемы настройки. Например, я спрашиваю Google, кто такой писатель X. Google AI отвечает "Такого писателя не существует. Вы, наверное, имели в виду футболиста X." На самом деле писатель X существует, но он только совсем недавно проявился и в базах данных Google AI его ещё нет.

Что стоило разработчикам Google AI поменять настройки вроде "confidence level" так, чтобы в таких случаях отвечать "Мне о писателе X ничего не известно. Возможно, вы имели в виду футболиста X"? По сути это тот же ответ, но, в отличие от того, который Google AI даёт, он не подрывает доверие к выдаваемому результату.

Ну, и, конечно, регулярно вылезают уши "социальной ответственности" Большого Брата. Допустим, натыкаешься на интернете на название какого-то нового химического вещества Y. Говоришь браузеру "Search Google for Y". AI тебе выдаёт гигантскими буквами "Help is available!" и какие-то номера телефонов. Ничего не понятно. Смотришь выложенные ниже на странице результаты поиска. Оказывается, что это лекарство, которое в последнее время часто употребляется самоубийцами, а Google AI пытается тебя таким образом спасти.

Date: 2026-02-16 08:04 pm (UTC)
gul_kiev: (Default)
From: [personal profile] gul_kiev
Всё сложнее словить свежие LLM на явных ошибках, но пока удаётся.
Людей на иллюзиях и когнитивных искажениях уже, кажется, проще.

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10111213 14
15 161718192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 16th, 2026 08:04 pm
Powered by Dreamwidth Studios