avva | про LLMы

Во-первых, вот потрясающая совершенно трехмерная визуализация того, как работают LLMы, с кучей подробностей, интерактивная!

https://bbycroft.net/llm

Во-вторых, Андрей Карпати недавно записал одночасовую лекцию для широкой публики о том, что такое LLMы и как они устроены:

https://www.youtube.com/watch?v=zjkBMFhNj_g

Есть слайды: https://drive.google.com/file/d/1pxx_ZI7O-Nwl7ZLNk5hI3WzAsTLwvNU7/view
а также русская текстовая выжимка (сильно укороченная).

Как обычно, Карпати очень хорошо объясняет. Есть только одно место, которое мне очень не нравится: когда он говорит, что LLMы натренированы "предсказывать следующее слово", показывает это на фразе "a cat sat on a" (четвертый слайд), объясняет, почему это обязывает их выучить много фактов (страница из википедии, пятый слайд) и сравнивает языковую модель с сжатой копией Интернета. Я знаю, что это популярная метафора, но мне она кажется исключительно дезориентирующей, вносящей путаницу и непонимание. Как можно одновременно представлять себе модель как "сжатую копию Интернета" и знать, что у нее можно, например, попросить отредактировать в желаемом стиле написанный тобой длинный текст, нигде в интернете не встречающийся? Или перевести с любого языка на любой опять-таки совершенно новый текст? Я уже не говорю про решение задачек и написание кода, но даже собственно языковые способности LLMов очевидно показывают несостоятельность этой метафоры, почему же она остается популярной?

Я бы вообще предложил поменьше объяснять в терминах "предсказывает следующее слово, исходя из корпуса текстов, на которых натренирована". Да, буквально говоря это предложение на 100% верно. Но у любого человека, который не имел дела с LLMами и не разбирался подробно в их возможностях или процедуре их тренировки это создает очень неправильное *впечатление* о том, что на самом деле делает сеть. Эту фразу очень, очень легко и заманчиво понять в голове как некий туманный пробег по статистике разных слов и фраз и выбор наиболее частого слова по статистике (пресловутый "стохастический попугай"). Но такое понимание глубоко и фундаментально недооценивает способности языковых моделей и искажает то, как работает сама модель во время "предсказания".