avva | о новых грядущих агентах

"Welcome to the Era of Experience" - интересная статья Дэвида Сильвера и Рича Саттона. Не знаю ничего о Сильвере, но Саттон - известный специалист в области AI, автор нашумевшей статьи 2019 года "Горький урок" (The Bitter Lesson), о том, как в области AI простые и общие методы снова и снова побеждают попытки внести в систему "знания".

В этой статье авторы пишут о том, что эпоха LLM-моделей является по их мнению определенного рода тупиком на пути к суперинтеллекту - потому что в отличие от предыдущих очень впечатляющих достижений середины 2010-х эти модели намного меньше "учатся на собственных ошибках", или говоря техническим языком меньше занимаются reinforcement learning.

GPT, которая пассивно учится на всем корпусе написанных человечеством текстов, походит на AlphaGo, которая пассивно училась на всем корпусе сыгранных мастерами игр в Го. Но через пару лет после AlphaGo новая модель AlphaZero полностью отвергла накопленный человечеством опыт, вместо этого сыграла сотню-другую миллионов игр сама с собой, и научилась играть намного лучше AlphaGo. Где аналог такого в области LLM-моделей? Сильвер и Саттон полагают, что его пока нет, но скоро появится, и это не будет очередная вариация темы "тренировать предсказание следующего токена в текстовом потоке", а что-то новое; какие-то модели, которые будут напрямую контактировать с "средой", и получать от нее богатый обратный поток, непрерывно на нем тренируясь.

Я скептически отношусь к любому предсказанию будущего, но мысли, высказанные в этой статье о настоящем и о наиболее многообещающих направлениях развития, заслуживают внимания. Мне тоже кажется, что главенствующее сейчас направление языковых моделей не сможет дойти до суперинтеллекта без радикально новых идей (и "размышляющие модели" на эту роль не подходит, как постепенно становится ясно). Направление взаимодействующего с реальностью агента кажется заманчивым, но как это технически будет воплощено, зависит от неизвестных пока открытий - возможно, не особо сложных, как идея трансформеров была не особо сложной - но тем не менее пока неизвестных.

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Ни о какой безапелляционности в моих высказываниях не может быть и речи!

(...)

о новых грядущих агентах

о новых грядущих агентах

Profile

February 2026

Most Popular Tags

Style Credit

Expand Cut Tags