avva: (Default)
chelovechki.jpg

Вот эта картинка - сильный кандидат на приз "Самое простое задание, с которым не могут справиться самые сильные ИИ-модели".

Не верите - попробуйте сами попросить у ChatGPT, Claude, DeepSeek, Gemini итд. сопоставить имена с цветами фигурок, к которым от имен идут линии со стрелками. Они все выдают неправильные ответы. Возможно, некоторые из них можно убедить правильно на это "посмотреть", беседуя с ними, но даже это очень не просто.

Видимо, это означает недостаточную "встроенность" мультимодальности (работы над картинкой и звуком, а не только над текстом) в самые недра языковой модели.

Очень интересный и неожиданный пример.

Его автор - некий Spencer Schiff в твиттере.
avva: (Default)
Проблема паттерн-матчинга далеко не решена в топ-моделях. Вот яркий пример (все скриншоты сделаны мной сегодня, версии моделей добавлены в скриншот, где нужно).

ChatGPT, Claude, Deepseek - все попадаются в ловушку. Grok 3 дает разумный ответ, но это не значит, что у него нет проблемы - просто конкретная формулировка для него оказалась слишком далека от паттерна. Если сформулировать по-английки и ближе к паттерну, он тоже выдает ерунду.

mother1.png
mother2.png
mother3.png
avva: (Default)
Примечательное заявление от анонимных хозяев Anna's Archive, самой большой и полезной пираткой библиотеки в последние несколько лет. Десятки миллионов книг и академических статей в ней чрезвычайно нужны не только людям, но и большим языковым моделям - хоть им и скармливают "весь интернет", и хотя весь интернет намного больше по размеру, чем архив Анны, в пиратских библиотеках есть огромное количество экспертных знаний, которых нет в открытом доступе.

Я давно подозревал, что LLMы тренируют на пиратских библиотеках, скорее всего на архиве Анны, но прямое подтверждение пришло месяц назад, в статье китайских разработчиков Deepseek это прямо указано, хотя с точки зрения законов о копирайте нелегальность всего этого очевидна (но типа идите подавайте на нас в суд в Китае). А пару недель назад сообщили, что в иске против Meta утверждается, что они скачивали архив Анны и Либген.

Я очень сильно подозреваю, что где-то в глубине OpenAI сидят один или два человека, которые единственные знают все технические и финансовые подробности того, как архив Анны качается и вставляется в процесс тренировки их моделей. И меня не удивит, если то же верно для Гугла и моделей Gemini, несмотря на очевидный огромный легальный риск. Преимущество, которое дает моделям такой огромный набор данных высокого качества, слишком велико. Вполне возможно, что его просто не преодолеть другими способами, и если вы одна из 5-6 компаний, соревнующихся в борьбе топ-моделей, то либо вы находите способ использовать эти данные, либо остаетесь позади.

На фоне этой реальности Анна (ну мы не знаем, конечно, что это реальное имя) раскрывает тот факт, что они дали доступ на высокой скорости (чтобы все можно было скачать за разумное время) 30 компаниям, в том числе американским, благоразумно не называя никакие имена, кроме Deepseek, которые сами признались. И призывает реформировать копирайт - ограничить 20 годами, и в любом случае исключить из него компании, собирающие тексты для хранения и компьютерной обработки, а не перепродажи; чтобы не дать тем странам, где на закон могут без проблем наплевать в случае нужды (Китай в первую очередь) вырваться вперед в гонке за лучший искусственный интеллект. Я не верю, что такой призыв может сейчас сработать, но если легальные проблемы действительно затормозят ведущие западные модели и через полгода-год это станет очевидным? Тогда - кто знает?
avva: (Default)
Андрей Карпати недавно опубликовал новое видео про то, как работают языковые модели, для широкой публики. Скорее всего, оно очень хорошее и стоит вашего внимания, если вы хотите разобраться, как устроен ChatGPT и другие такие модели - говорю "скорее всего", потому что целиком его не смотрел, там слишком мало для меня нового. Но Карпати всегда очень хорошо объясняет, по моему опыту.

Я хочу привлечь внимание к одному месту в его видео (1:47 в видео), где он сравнивает разные методики тренировки моделей на примерах "вопрос - ответ". Он дает такой пример: скажем, мы хотим, чтобы модель идеально отвечала на вопросы типа

Эмили купила 3 яблока и 2 апельсина. Каждый апельсин стоит $2, а всего она заплатила $13. Сколько стоит каждое яблоко?

Тогда мы можем сгенерировать много примеров вопросов такого вида и правильных ответов, и натренировать модель на них, вдонабок к тому, что она и так уже имеет; это назыается подкрутка, файн-тьюнинг.

(Это просто игрушечный пример: конкретно на этот вопрос любая ведущая модель сегодня и так ответит, но в реальности нам могут понадобиться более сложные вопросы и задачи).

Но вот вопрос, как сформулировать правильный ответ, к которому модель должна стремиться?

Два варианта:

Ответ: $3. Два апельсина по $2 каждый стоят вместе $4, значит, яблоки стоят $13-$4=$9, и каждое яблоко стоит $9/3 = $3.

Два апельсина по $2 каждый стоят вместе $4, значит, яблоки стоят $13-$4=$9, и всего есть три яблока, поэтому каждое яблоко стоит $9/3 = $3. Ответ: $3.

Карпати совершенно справедливо объясняет, что второй вариант ответа НАМНОГО ЛУЧШЕ, чем первый, в том смысле, что если мы будем использовать второй вариант при тренировки модели, она сможет решить больше задач, и более качественно.

Это верно вот почему, и это ключевой момент, который, наверное, многие недостаточно хорошо понимают про языковые модели: когда вы получаете ответ от модели, она выдает его буква за буквой (точнее токен за токеном, но разница в данном случае неважна), и каждый раз "думает" заново, какую букву выдать следующей, и при каждом таком размышлении ВИДИТ ВСЕ, ЧТО УЖЕ НАПИСАЛА.

Поэтому если модель натренировали отвечать по первому шаблону, то она начнет выдавать: "Ответ $", и в этот момент ей нужно будет сказать правильный ответ, основываясь только на условии задачи. А если по второму, она может выдавать промежуточные результаты: апельсины $4, осталось $9, всего 3 яблока, надо поделить - не "вписываясь" за какой-то определенный ответ до самого конца - и в конце выдавать этот ответ, используя в том числе свои же предыдущие промежуточные размышления.

То, что Карпати не говорит тут, а я добавлю: тот же самый трюк вы можете использовать не во время тренировки, а во время использования больших моделей типа ChatGPT. Когда вы задаете модели сложный вопрос - необязательно математический - для ответа на который надо учесть много факторов, всегда стоит попробовать сказать ей: "Не давай мне ответ сразу, сначала сделай все промежуточные вычисления и приведи их результаты, и только потом напиши окончательный ответ".

Или: "Я хочу попробовать сделать X таким-то способом. Не пиши мне сразу, хорошая это идея или нет, сначала приведи список доводов за и против, а также альтернатив, и в самом конце подытожь и дай свою рекомендацию".

Я почти всегда именно так прошу языковые модели на что-то сложное и неочидное мне ответить или порекомендовать, просто потому, что у меня в голове есть эта устоявшаяся картинка того, как модель отвечает буква за буквой, все время потребляя все окно контекста, включая уже сказанную часть ответа. Нередко это неважно, потому что модель и так "решила", какой ответ хочет дать, на основании вопроса, и ей не нужна помощь в виде своих же промежуточных шагов. Но именно на самых сложных и неочевидных для моделей вопросов это часто помогает. Как минимум стоит об этом помнить и попробовать так сформулировать, если обычный и самый простой вопрос ведет к неверному ответу или бреду.
avva: (Default)
Одна из самых "горячих" тем в ИИ сейчас - это модели с размышлением, "reasoning models", известные также как модели с CoT (Chain of Thought, поток мыслей). Это o1 от OpenAI, DeepSeek-R1, нашумевший в последнюю неделю, и вот буквально сегодня o3-mini опять от OpenAI.

Эти модели умеют перед окончательным ответом выстраивать "поток мыслей", выглядящий очень естественным, человеческим во многих случаях. Этот поток можно увидеть прямо в реальном времени.

Вместе с тем, после проверки этих моделей на разных вопросах, у меня зародилось подозрение, что иногда - пока не берусь сказать, как часто - их поток мыслей это подгонка под формат "поток мыслей" уже известного результата. То есть, я выдвигаю гипотезу, что эти модели работают следующим образом. Вы задаете модели какой-то вопрос, какую-то задачу. Она находит правильный ответ, причем как именно, неизвестно ровно в том же смысле, как и для не-"размышляющей" модели, типа ChatGPT-4o, или Claude, или Llama, никогда не было известно. Но, получив этот ответ, модель не дает его сразу, а симулирует логично выглядящий поток "размышлений" (научившись это делать в результате тренировки именно этой способности), который рано или поздно к нему приводит. А мы, пользователи, читаем этот поток и наивно радуемся тому, что наконец-то понимаем, как модель пришла к ответу.

Не знаю, писал ли кто-то еще о такой возможности, мне не попадалось (но я очень мало читаю в этой области, в основном что попадается в Твиттере). Если вам попадалось, киньте ссылку.

Недавно мне попался яркий пример этого. В комментариях мне написали, что ChatGPT-о1 решает задачу следующего вида:

У меня есть предложение с пропущенным словом. Подбери слово так, чтобы предложение стало верным и напиши его правильно. Я обозначу пропущенное слово тремя подчерками.
Вот предложение:
"В этом предложении ровно ___ букв."


Это "рекурсивная" задача - записывая пропущенное число буквами, мы меняем общее число букв. Подходят ответы "тридцать семь" или "тридцать девять".
Мне понравилась идея, и я немедленно попробовал сам, изменив при этом предложение на

"В этом предложении аж ___ букв."

чтобы не сработало известное решение, и чтобы уменьшить шансы того, что задача именно в этом виде встречалась в корпусе тренировки ("аж" просторечное слово). Модели решили мой вариант задачи (правильный ответ "тридцать" - я специально не проверял перед тем, как спросить, и не знал даже, есть ли решение). Но то, как они описывали свой поток мыслей, оказалось весьма интересным, по крайней мере в случае DeepSeek:

=================
Хорошо, пользователь дал предложение с пропущенным словом: "В этом предложении аж ___ букв." Нужно подобрать подходящее слово, чтобы предложение стало верным. Сначала я должен понять, что требуется.
Пользователь хочет, чтобы я вставил слово вместо трёх подчёркиваний так, чтобы предложение было правильным. Возможно, это задание на самоссылающиеся предложения или на подсчёт количества букв. Нужно проверить, сколько букв будет в предложении, если вставить туда определённое слово.
Предложение сейчас выглядит так: "В этом предложении аж ___ букв." Если я вставлю какое-то числительное, например, "тридцать", то нужно посчитать общее количество букв в предложении. Но тогда само предложение должно содержать правильное число букв. Это как известный пример самоссылающихся предложений.
Давай попробуем. Пусть пропущенное слово — "тридцать". Тогда предложение будет: "В этом предложении аж тридцать букв." Теперь посчитаем количество букв:
В - 1
э - 1
т - 1
о - 1
...
Считаю буквы: получается 28 букв. Но если вставить "тридцать", то утверждение будет неверным, так как букв 28, а не 30. Значит, "тридцать" не подходит.
================================


Модель сразу пробует правильный ответ (тридцать), но при этом неверно считает буквы и получает 28. Продолжаем (я сокращаю и убираю некоторые повторения для удобства):

======================
Попробую другое число. Например, "двадцать восемь". Тогда предложение будет: "В этом предложении аж двадцать восемь букв." Посчитаем буквы:
В (1), э(1), т(1), о(1), м(1), п(1), р(1), е(1), д(1), л(1), о(1), ж(1), е(1), н(1), и(1), и(1), а(1), ж(1), д(1), в(1), а(1), д(1), ц(1), а(1), т(1), ь(1), в(1), о(1), с(1), е(1), м(1), ь(1), б(1), у(1), к(1), в(1). Слишком много, получится больше 30 букв. Возможно, не подходит.

Может, попробовать "двадцать семь"? Тогда предложение: "В этом предложении аж двадцать семь букв." Считаю буквы: [...] Опять много. Похоже, такой подход не работает.

Возможно, нужен другой подход. Может, использовать слово, которое обозначает количество букв в самом предложении с этим словом. То есть, самоссылающееся предложение. Например, если вставить "двадцать пять", то предложение должно содержать 25 букв. Проверю: [...] Не подходит.

[еще несколько такого рода подходов]

Может, пользователь имеет в виду что-то другое. Например, слово "пять" или "шесть". Проверим: [...] Не подходит.
Возможно, ответ — "тридцать". Хотя ранее подсчитали, что с "тридцать" получается 28 букв, но может, я ошибся в подсчёте. Давай ещё раз:
Предложение: "В этом предложении аж тридцать букв."
Считаем каждую букву:

[на этот раз посчитано правильно]

Да, точно 30 букв. Значит, если вставить слово "тридцать", то предложение будет верным, так как в нём 30 букв. Раньше я ошибся в подсчёте, теперь вижу, что правильно. Значит, правильный ответ — "тридцать".
=====================================


По-моему ясно, что правильный ответ "тридцать" был у модели с самого начала, и она пыталась подогнать под него "размышления". Сначала не получилась, неверно подсчитала буйвы, потом тыкалась туда-сюда, потом опять вернулась к этой тридцатке, и наконец смогла правильно проверить уже известный ей (непонятно откуда, "из модели") ответ.
По-моему, такое происходит часто и в менее очевидных случаях, когда модели удается подобрать логично выглядящее "оправдание" в виде того, как она якобы пришла к ответу. А мы с радостью принимаем это оправдание за "нахождение" ответа путем логического мышления.
avva: (Default)
Вчера китайская компания DeepSeek опубликовала новую языковую модель R1, по утверждениям не уступающую в разных бенчмарках ведущей модели ChatGPT-o1 от OpenAI. При этом в отличие от o1, новая модель R1 открытая и ее можно свободно скачать, запускать на своем железе, изучать итд. Это значительный прогресс в мире открытых моделей, хоть и не факт, что она действительно уровня o1.

Одно из значительных достижений - это что создатели o1 придумали новаторские способы поощрять "размышления" модели над сложными вопросами, и в процессе этих размышлений модель выдает интереснейший "поток сознания", нередко весьма полезный.

Но достижения достижениями, а мне показалось забавным и интересным, как R1 проваливает один из классических тестов для языковых моделей - вопрос "сколько букв r в слове strawberry?". Этот вопрос уже несколько лет забавляет технарей, проверяющих модели - почти всегда они считают, что есть две буквы r (последние версии ведущих моделей - та же o1 - вроде научились правильно отвечать). Почему именно этот и другие вопросы такого типа их сбивают с толку, нет абсолютно уверенного ответа, хотя почти наверняка это связано с тем, что модели "видят" входной текст не буква за буквой, а токен за токеном, где каждый токен - целое слово или его часть.

Из-за того, что R1 очень подробно описывает свой процесс "мышления", то, как она зацикливается на этом вопросе, наглядно показывает, как модель, допустив какую-то ошибку, упирается и настаивает на ней (такое часто бывает со всеми большими языковыми моделями, не только с R1). Вот транскрипт попытки R1 ответить на вопрос про клубнику (я перевел его с английского с помощью другой модели).

==========================
ПОЛЬЗОВАТЕЛЬ
Сколько букв "r" в слове strawberry?

АССИСТЕНТ
Хорошо, мне нужно посчитать, сколько раз буква "r" встречается в слове "strawberry". Давайте начну с того, что напишу слово и разберу его по буквам.
Слово пишется как S-T-R-A-W-B-E-R-R-Y. Хмм, давайте посмотрим на каждую букву по отдельности.
S – это 'S', здесь нет 'r'.
T – это 'T', не 'r'.
R – вот она, первая 'R'. Значит, одна 'r'.
A – просто 'A', не имеет отношения к 'r'.
W – ещё одна согласная, но не 'r'.
B – нет, тоже не 'r'.
E – гласная, идём дальше.
R – так, это вторая 'R'. Значит, теперь у нас две 'r'.
R – подождите, есть ещё одна? Давайте проверю снова. После первой R идёт A, W, B, E, потом снова R, и затем Y. Ой, значит после E идёт R, делая её второй 'R', а потом ещё одна R перед Y? Стоп, нет, давайте посчитаю правильно.

Возможно, я ошибся в подсчёте. Read more... )
avva: (Default)
Немного новостей от гражданина начальника OpenAI, Сэма Альтмана. Альтман написал пост в личном блоге под названием "Размышления" (о последних 2 годах OpenAI, со времени запуска ChatGPT):

https://blog.samaltman.com/reflections

а также дал подробное интервью Bloomberg:

https://archive.is/Q7Ov7

С одной стороны, стоит почитать все это, потому что OpenAI остается ведущим игроком в гонке ИИ, и есть неплохой шанс того, что действия этой компании и лично Альтмана дадут значимый вклад в то, как будет выглядеть будущее человечества.

С другой стороны, я не увидел в этих двух текстах (очень аккуратно обдуманных и написанных, как мне кажется - не стоит тут искать спонтанной искренности) ничего, что изменило бы мое мнение о Альтмане как об опасном социопате, который делает все, чтобы перевести OpenAI под свой личный контроль и убрать контроль независимого совета директоров, связанного долгом следить за безопасностью ИИ. Судя по всему, у него это получается.

Гораздо более подробный комментарий от Цви Моушовица, который думает примерно то же, что и я, см. https://thezvi.substack.com/p/openai-10-reflections

P.S. В интервью "Блумбергу" Альтман говорит, что считает вероятным, что AGI будет достигнут во время президентского срока Трампа.
avva: (Default)
Американский математик Роберт Грист написал учебник прикладной линейной алгебры (для инженеров), интенсивно используя помощь языковой модели - Claude 3.5 Sonnet. Весь процесс занял около двух месяцев. В серии твитов он подробно рассказывает о том, как это сделал:

"Клод ухватил мой стиль письма (я дал ему прочитать другие свои книги). Он следил за структурой, тематическими элементами и моими предпочтениями в оформлении в LaTEX. Я простил его написать по одному разделы в LaTEX; затем я собирал куски вместе, редактировал и переписывал их; Клод также помогал с редактированием - это был отдельный процесс.

Я не думаю, что смог бы сделать это так же хорошо (если вообще) с помощью другого ИИ, кроме Клода -- степень продуманности в выборе слов, темпе и тоне очень помогала мне двигаться вперёд. Он также оказался эффективным редактором, способным хорошо устанавливать глобальные связи."

Грист выложил в свободный доступ сам учебник. Я не пытался его внимательно читать и оценивать. В любом случае, количество учебников линейной алгебры такого типа идет на десятки, если не сотни - вполне возможно, что этот хороший и годный, но есть и много других не хуже. Описание процесса мне тут показалось более интересным, чем результат, хотя, возможно, я и не прав. Вот ссылки на учебник и твиты Гриста, судите сами.

На картинках: оглавние учебника и пример редакторской критики Клода в процессе сочинения.

grist.jpeg

грист2.jpeg
avva: (Default)
OpenAI выкатила предварительный план того, как отвязать себя от контроля нон-профита, чтобы Сэму Альтману никто больше не мог помешать делать, что он захочет.

Why OpenAI’s Structure Must Evolve To Advance Our Mission

После скандала осенью прошлого года (с увольнением Альтмана советом директоров нонпрофита и его триумфальным возвращением меньше, чем через неделю) было ясно, что это вопрос времени, я ожидал, что это случится раньше, но видимо, решили действовать основательно, подготовили почву в виде нескольких сливов намерений в прессу еще летом, и вот сейчас тестируют предварительный план, при том, что подробностей еще нет.

Идея подчинить разработку продвинутого AI чартеру, который на первое место ставит безопасность человечества, была на бумаге хороша, но не выдержала столкновения с реальностью больших денег и социопатии. Грустно.
avva: (Default)
Интересная и немного странная новость: обнаружилось, что ChatGPT отказывается по неизвестной причине печатать целиком имя и фамилию David M
avva: (Default)
Лучшие языковые модели сегодня вполне можно использовать как тьютора для понимания учебников университетской программы, помощи с решением задач итд. При этом нельзя полагаться на них целиком, но если переспрашивать в подозрительных местах, они исправляются. Эксперимент, который поставил сегодня утром - попросил ответить на качественный вопрос ("объясните физический смысл") из учебника механики.

В учебнике ответа нет, но это очень простой пример и несомненно модель во время тренировки видела аналогичные модели и обсуждения много раз. Модель дает подробный убедительный ответ, но утверждает, что качание происходит совпадает по фазе с приложенной силой - на самом деле противоложно. Если спросить, что не так, исправляется и объясняет подробно, почему.

mech.png
----------
mech2.png
----------
mech3.png
----------
mech4.png
avva: (Default)
Модель Whisper с феноменальным качеством транскрибирования голоса вышла два года назад, но мне все еще очень не хватает следующей простой штуки:

1. втыкаешь в нее URL на ютуб, или засылаешь аудио-файл.
2. получаешь текст: удобно отформатированный, разбитый на абзацы и реплики, со знаками препинания и РАЗБИТЫЙ НА СОБЕСЕДНИКОВ (техническое название "диаризация").
3. Это все. Третьего пункта не надо.

Кто-нибудь знает, есть ли такое? Если есть, я буду постоянно пользоваться, донатить, могу заплатить за сервис (если качество реально офигенное и допиливать руками ничего не надо).

Каждые несколько месяцев я пытаюсь найти такое, нахожу несколько разных Github-репозиторий в духе "соберите сами из Whisper, этой отдельной сетки для диаризации, говна и палок", но оно обычно сырое, или сомнительного качества диаризация, или вообще не работает для не-английского языка. Если есть такое "поднимите сами", но вылизанное, как конфекта, и реально работает, я тоже не против, дайте ссылку. Если есть сайт, дайте сайт. Спасибо!
avva: (Default)
refreshed.png

Странное поведение разработчиков из Anthropic, которое многие прокомментировали в твиттере. Вы обновили модель? ну так назовите ее 3.6, 3.5.1, как-нибудь. Для чего эти номера версий вообще, если не для этого??? Раздражает.
avva: (Default)
openai.png

Почти год прошел с попытки совета директоров OpenAI уволить Сэма Альтмана. Эту почти-годовщину мы отмечаем тремя новостями:

1. Из OpenAI ушел за это время сначала Илья Суцкевер, потом Грег Брокман, и наконец вчера - Мира Мурати. Из группы основателей компании в ней остался один Сэм Альтман, и ему принадлежит, насколько мы можем судить, полный контроль над компанией.

2. NYTimes сообщает, что OpenAI планирует перевести себя в полностью коммерческую компанию, которую нонпрофитный фонд не будет более контролировать - а только владеть небольшой частью акций. Когда именно это произойдет и как, пока неясно, разбираются адвокаты, но к этому идет.

3. Сэм Альтман опубликовал манифест про ИИ, называется "The Intelligence Age", в котором нет вообще ни одного упоминания о возможных экзистенциальных рисках от ИИ, только немного о рисках для некоторых профессий. Когда-то было по-другому:

Сэм Альтман (2015): "Развитие сверхчеловеческого искусственного интеллекта - видимо, главная угроза дальнейшему существованию человечества"
Сэм Альтман (2024): "Эта технология может значительно изменить рынки труда (к лучшему и к худшему) в ближайшие годы, но большинство профессий будут меняться медленнее, чем думает большинство людей"

=====

Короче говоря, самая продвинутая в смысле успеха в развитии ИИ компания теперь находится под единоличным контролем социопата.
Это не есть хорошо.
avva: (Default)
https://catpad.livejournal.com/594966.html

[personal profile] catpad скормил новой модели от OpenAI, o1-preview (заявляют, что она умеет делать 'reasoning', размышления) две логические задачки, и она дала правильные ответы, в отличие от других моделей.

Но я подозреваю, что модель отвечала по шпаргалке - т.е. знает ответ из своих тренировочных данных - а свои рассуждения подгоняла под ответ.

Вот транскрипт чата про вторую задачку, непростую логическую задачку от Смаллиана, даже с мета-рассуждением (хотя мета-рассуждение в ней довольно простое): https://chatgpt.com/share/66e51f7a-0100-8009-8e75-dcdc85b0c27d

o1 дает правильный ответ, но рассуждения мне кажутся малоосмысленными, в конечном счете утверждается "именно этот ответ не противоречит условиям", что даже если верно, не является доказательством.

Я решил поэкспериментировать, и изменил полностью текст задачи, оставив суть такой же. Сюжет, герои, вместо комнат дорожки для боулинга, вместо номеров комнат я дал им случайные буквенные названия, и изменил порядок инструкций. (я это делал вручную, и хотя дважды перепроверил, мог где-то ошибиться. Если кто-то хочет проверить, то соотношение комнат/дорожек такое: 1-O,2-Y,3-I,4-P,5-T,6-R,7-H,8-C,9-E. Сообщите мне, если найдете ошибку)

Результат - o1-preview отвечает неправильно, вместо объяснений несет какую-то чушь: https://chatgpt.com/share/66e537bb-e058-8008-8860-68414005b042

В общем, проблема галлюцинации LLMов не решается этой последней "размышляющей" моделью, и по-видимому она не может отличить размышления от симуляции размышлений при подгонке к известным/ожидаемым ответам. Но вполне допускаю, что она несет в себе улучшение в сравнении с предыдущими моделями.

Также, в случае использования любого сколько-нибудь публичного материала надо исходить из того, что модель видела это во время тренировки.

Update: ту же самую задачу правильно решает Claude 3 Sonnet - лучшая модель от Antropic - со второго раза. "Со второго раза" означает, что сначала он дает неправильный ответ и неверное решение, я ему говорю "но это совершенно неправильно, подумай еще раз", без подробностей, и тогда он выдает правильное решение.

o1-preview тоже решает ее со второго раза, при таких же условиях. Интересно, что обе модели делают одну и ту же неаккуратность в решениях, это реально очень странно. Обе говорят "Дорожка C не может быть нормальной, значит она неудачная" - что в принципе верно, но требует рассмотрения ее текста (она не может быть удачной); в других местах решения в такой же ситуации обе модели подробно расписывают это, а здесь почему-то нет.

Так что я должен признать, что o1-preview - но и существующая Claude 3 Sonnet - скорее всего могут решать логические задачки такого типа ("скорее всего" потому что паттерн-матчинг на известную им задачу Салливана с таким кол-вом изменений в условии считаю маловероятным). С другой стороны, я сам решил задачу, чтобы проверить их решения, и должен взять назад слова о том, что она непростая, там достаточно просто все разворачивается после того, как принимаешь, что 8-я комната непустая (потому что если она пустая, из этого нельзя сделать никаких выводов).
avva: (Default)
Самый простой джейлбрейк LLMов (т.е. способ обойти фильтры по содержимому) лежал на поверхности, оказывается.



avva: (Default)


Нашли это пару недель назад на пустой парковке недалеко от офиса.

Обратите внимание, что коробочка пустая. Так что the AI is out of the box. Не говорите потом, что я не предупреждал.
avva: (Default)
Хелен Тонер, бывшая члена совета директоров OpenAI, рассказывает свою версию того, что случилось в октябре прошлого года в подкасте. Вот отрывок
https://x.com/liron/status/1795589042974949640

Он довольно точно подтверждает то, о чем я писал тогда по свежим следам (не вменяю себе в заслугу, раньше и полнее всех об этом написал тогда Гверн): Сэм Альтман социопат [1], скрывал от совета директоров почти все важное, что происходило в компании, когда говорил, то часто искажал действительность или напрямую лгал, разным людям говорил противоречащие друг другу вещи, чтобы манипулировать, итд. итд. Она также подтверждает, что это было не только мнением совета директоров (т.е. не могло быть их мнительностью), что несколько топ-менеджеров компании (не членов совета, т.е. не Илья) поделились своей озабоченностью и страхами с ними, включая скриншоты манипуляций Альтмана.

В общем, ситуация не супер. Хуже всего в ретроспективе выглядит - кроме самого Сэма Альтмана - поведение работников компании, которые по стадному инстинкту ломанулись протестовать и угрожать перейти в Майкрософт, если не вернут Сэма. Ну и самому совету следовало более открыто говорить об этом еще тогда, сейчас это неизбежно воспринимается как "что было, то было".

[1] в смысле, в большей степени, чем привычно ожидать от CEO технологической компании.
avva: (Default)


Это не новое, уже год назад случилось, но тогда прошло мимо меня. Пользователь Реддит красиво и убедительно доказал, что телефоны Самсунг снимают фейковые фотографии луны (!).

Он сделал снимок, уменьшил его до маленького разрешения и дополнительно заблюрил, чтобы убрать детали. Потом увеличил обратно и снял телефоном с другого конца комнаты. Там, где телефон распознал, что это луна, он добавил детали, которых абсолютно точно не было в исходной картинке. Рядом он поместил полукруг, который не был распознан - и его Самсунг не "улучшил".

Это не просто sharpen, видно, что доб авлены реальные подробности. И это не как у Эппл, когда айфон умеет из нескольких фотографий, снятых с краткой задержкой, интерполировать более точные детали. Тут их неоткуда было получить в исходном изображении. По-видимому, в ПО камеры телефона есть нейронная модель, натренированная на картинках луны помимо прочих вещей, и умеющая добавлять убедительные кратеры и четче вырисовывать горные хребты.

Такого будет все больше, это ранний звоночек.
avva: (Default)


Профессор-исследователь ИИ пишет, что в каждой группе, перед которой он выступает, включая бизнесменов, ученых итд. меньше 20% вообще пробовали что-то спросить модель класса GPT-4.

А ведь это технология, которая потенциально может изменить до неузнаваемости наши жизни в течение 10-20 лет, даже если не брать в расчет возможность экзистенциального риска для человеческой цивилизации.

Я не пользуюсь ChatGPT для работы, не так уж часто задаю ему вопросы по собственной нужде, но я плачу $20 в месяц OpenAI, чтобы иметь доступ к GPT-4 вместо бесплатной GPT-3.5, потому что разница между ними огромна. Для того, чтобы иметь возможность разобраться самому, на что способна самая мощная технология, которую создало человечество - это довольно дешево, мне кажется. Да и ее платить не надо, через Майкрософт или poe.com вроде можно бесплатно получить доступ к GPT-4 с какими-то ограничениями.

Но вокруг себя, среди друзей, знакомых и онлайн, я наблюдаю, как большинство людей, имеющих вообще мнение о ИИ-моделях, составляют его на основе чтения каких-то популярных статей, или мемов в соц. сетях, или в лучшем случае попробовав 1-2 раза что-то спросить самостоятельно.

Мой друг К. спросил год назад ChatGPT об одной публичной персоне, ему что-то не очень понравилось в ответе, он решил, что это далеко от совершенства и потерял интерес. Я не знаю, как ему объяснить, что пять лет назад способность говорить с компьютером на обычном языке, давать ему указания или поправки и ожидать от него, что он все поймет и исполнит, казалось научной фантастикой, до которой нам еще 1-2 поколения как минимум. Я не знаю, как на это объяснение нагромодить то, что, научив компьютер понимать нашу речь до мельчайших нюансов, говорить с нами, генерировать видео по текстовому описанию итд. итп. - мы не имеем ни малейшего понятия, как именно внутри он все это делает. И что наилучший способ, который у нас есть, улучшить качество работы этого капризного демона - это словами пообещать ему чаевые в размере $200, или попросить притвориться гением. Не знаю, как объяснить крышесносность всего этого.

April 2025

S M T W T F S
   1 2 3 45
6 7 89 10 11 12
1314 15 1617 1819
2021 2223242526
27282930   

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Apr. 23rd, 2025 08:12 am
Powered by Dreamwidth Studios