avva: (Default)
[personal profile] avva
https://catpad.livejournal.com/594966.html

[personal profile] catpad скормил новой модели от OpenAI, o1-preview (заявляют, что она умеет делать 'reasoning', размышления) две логические задачки, и она дала правильные ответы, в отличие от других моделей.

Но я подозреваю, что модель отвечала по шпаргалке - т.е. знает ответ из своих тренировочных данных - а свои рассуждения подгоняла под ответ.

Вот транскрипт чата про вторую задачку, непростую логическую задачку от Смаллиана, даже с мета-рассуждением (хотя мета-рассуждение в ней довольно простое): https://chatgpt.com/share/66e51f7a-0100-8009-8e75-dcdc85b0c27d

o1 дает правильный ответ, но рассуждения мне кажутся малоосмысленными, в конечном счете утверждается "именно этот ответ не противоречит условиям", что даже если верно, не является доказательством.

Я решил поэкспериментировать, и изменил полностью текст задачи, оставив суть такой же. Сюжет, герои, вместо комнат дорожки для боулинга, вместо номеров комнат я дал им случайные буквенные названия, и изменил порядок инструкций. (я это делал вручную, и хотя дважды перепроверил, мог где-то ошибиться. Если кто-то хочет проверить, то соотношение комнат/дорожек такое: 1-O,2-Y,3-I,4-P,5-T,6-R,7-H,8-C,9-E. Сообщите мне, если найдете ошибку)

Результат - o1-preview отвечает неправильно, вместо объяснений несет какую-то чушь: https://chatgpt.com/share/66e537bb-e058-8008-8860-68414005b042

В общем, проблема галлюцинации LLMов не решается этой последней "размышляющей" моделью, и по-видимому она не может отличить размышления от симуляции размышлений при подгонке к известным/ожидаемым ответам. Но вполне допускаю, что она несет в себе улучшение в сравнении с предыдущими моделями.

Также, в случае использования любого сколько-нибудь публичного материала надо исходить из того, что модель видела это во время тренировки.

Update: ту же самую задачу правильно решает Claude 3 Sonnet - лучшая модель от Antropic - со второго раза. "Со второго раза" означает, что сначала он дает неправильный ответ и неверное решение, я ему говорю "но это совершенно неправильно, подумай еще раз", без подробностей, и тогда он выдает правильное решение.

o1-preview тоже решает ее со второго раза, при таких же условиях. Интересно, что обе модели делают одну и ту же неаккуратность в решениях, это реально очень странно. Обе говорят "Дорожка C не может быть нормальной, значит она неудачная" - что в принципе верно, но требует рассмотрения ее текста (она не может быть удачной); в других местах решения в такой же ситуации обе модели подробно расписывают это, а здесь почему-то нет.

Так что я должен признать, что o1-preview - но и существующая Claude 3 Sonnet - скорее всего могут решать логические задачки такого типа ("скорее всего" потому что паттерн-матчинг на известную им задачу Салливана с таким кол-вом изменений в условии считаю маловероятным). С другой стороны, я сам решил задачу, чтобы проверить их решения, и должен взять назад слова о том, что она непростая, там достаточно просто все разворачивается после того, как принимаешь, что 8-я комната непустая (потому что если она пустая, из этого нельзя сделать никаких выводов).
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

April 2025

S M T W T F S
   1 2 3 45
6 7 89 10 11 12
1314 15 1617 1819
2021 2223242526
27282930   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Apr. 23rd, 2025 10:47 am
Powered by Dreamwidth Studios