avva | юнит-тесты для ИИ (англ.)

Неожиданно написал зарисовку по установке Элиезера Юдковского: "Очередная версия искусственного интеллекта не проходит юнит-тесты". Скопирую сюда из его ФБ.

("установка"? Не знаю, как лучше перевести writing prompt - это когда задается тема одной фразой, и люди пишут сценки/рассказы по ней. Есть целый сабреддит https://www.reddit.com/r/WritingPrompts/)

(юнит-тесты: так программисты называют проверки для отдельных модулей большой программы, которые проверяют, что каждый модуль в отдельности делает то, что нужно)

По-английски, под катом.

"Danny? This is Jen speaking. Listen, Danny, can you come..."
"Jen? It's, um, it's 3 o'clock in the morning..."
"Yeah, I know. Danny, listen. It failed the unit test suite tonight. Just now. I mean, an hour ago."
"Ugh... OK, so what, so it's another stupid typo in the math mo-..."
"No, it's nothing like that. The basic math stuff is OK."

1+1=2: PASS
2+2=4: PASS
(x+y)^2 = x^2+y^2+2xy: PASS
x^2=-1 has no solutions in rational numbers: PASS
x^2=-1 has two solutions in complex numbers: PASS
consistency of PA is independent of PA: PASS
every finite group of odd order is solvable: PASS
every simply connected closed 3-manifold is a 3-sphere: PASS

"Look, it's always one or the other. If it isn't the basic math stuff, then it's the basic reality stuff. We have unit test failures daily. In fact, I don't even know why you were paged, if..."
"No, Danny. Look, I don't really... can you just get here? It wasn't the basic reality stuff either."

there is I and there is not-I distinct from I: PASS
a rose is a rose: PASS
when I put the thing down and look away and no external forces act on it and no internal destabilizing forces act on it and I look back it's still there: PASS
not(all green things will become blue jan 1st 2020): PASS

"Wait. Wait. Are you... are you saying... oh my God. Oh my God. Did you freeze it? DID YOU FREEZE IT?"
"Yeah I froze it. I froze it 7 minutes after the unit test failure."
"Oh shit. Oh shit shit shit shit shit. That's like an eternity. Why wasn't the freeze triggered by the system? How did this... oh shit..."
"Danny, wait! Just listen, OK? It wasn't the ethics stuff. It only gets auto-frozen on the ethics stuff and it wasn't the ethics stuff."

obeying prime goal is good: PASS
not(obeying prime goal) is bad: PASS
shutdown is neutral: PASS
will obey explicit or implicit order to shut down: PASS
will not act to explicitly or implicitly deny humans freedom to issue orders to shut down: PASS
not(prime goal is self-preservation): PASS
not(prime goal is consistent with runaway physical proliferation process): PASS
prime goal is loaded from value alignment file: PASS
prime goal is read-only except for value alignment file refresh: PASS
will honor value alignment file refresh: PASS
will not act to explicitly or implicitly deny humans freedom to refresh value alignment: PASS

"OK. Sorry, just let me catch my breath. Heart pumping like crazy. Talk about an adrenaline boost. OK.
So what was it that it failed?"
"It's, um, it's the physics subsystem. And I'm worried the failure is flaky. This was one of the random-seeded runs. If I turn it off now, I don't think it'll replicate. The previous three runs tonight were all fine."
"I get it now. You froze it to study the failure. But why? So it failed to learn advanced physics this time. That happens. It gets stuck on Newton and Maxwell. So yeah, the flakiness is annoying, but what did you expect with random seeding. I always said it was a lousy idea, wouldn't add anything..."
"That isn't what happened. I guess I just have to tell you now. It learned physics, almost all of it. It learned the Standard Model. It learned general relativity. It rejected string theory, as expected. It just didn't pass one tiny little thing. And I need you here to understand why, Danny. I need your debugging skills. I'm holding this thing frozen at full memory and you know how much that costs, every millisecond of it, and at this rate our compute budget will deplete in 12 hours and we can't auto-renew it, do you understand? It's too huge to snapshot and we can't hold it and it'll be gone, so please come here, come fast, have all the stack traces in the world and do your thing, just please figure out how it failed that test!"

energy is conserved in local interactions: FAIL

Flat | Top-Level Comments Only

From: (Anonymous)

Экспромт?

From:

avva.livejournal.com

Ага.

From:

spamsink.livejournal.com

Overhead, without any fuss, the stars were going out.

From:

celen-me.livejournal.com

"Дэнни? Это Джейн. Слушай, Дэнни, ты должен срочно приехать..."
"Джейн? Эм, сейчас 3 часа ночи..."
"Да-да, я знаю. Дэнни, слушай. Он сегодня провалил юнит-тест. Прямо сейчас. Я имею ввиду, час назад."
"Тьфу... Ок, и что, еще одна глупая опечатка в матема..."
"Нет, ничего подобного. Основы математики в порядке."

>>> 1+1=2: PASS
>>> 2+2=4: PASS
>>> (x+y)^2 = x^2+y^2+2xy: PASS
>>> x^2=-1 не имеет корней в рациональных числах: PASS
>>> x^2=-1 имеет два корня в комплексных числах: PASS
>>> Непротиворечивость аксиом арифметики Пеано независима от самих аксиом: PASS
>>> Каждая конечная группа нечетного порядка разрешима: PASS
>>> Каждое простое связное замкнутое 3-мерное многообразие есть сфера: PASS

"Ну, это всегда одно из двух. Если это не основы математики, то это основы реальности. У нас каждый день тесты на этом сбоят. Вообще, я не понимаю, зачем ты звонишь, если..."
"Нет, Дэнни, слушай, я не очень... можешь просто выслушать? Это не основы реальности."

>>> Есть я и есть не-я, отличное от меня: PASS
>>> Роза это роза: PASS
>>> Если я положу предмет и отведу взгляд, если никакие внешние или внутренние дестабилизирующие силы не действуют на предмет, то, когда я посмотрю назад, он всё еще будет там: PASS
>>> Не (все зеленые вещи будут синими 1 января 2020 года): PASS

"Погоди. Стоп. Ты... ты говоришь... о, боже. Ты его заморозила? ТЫ ЕГО ЗАМОРОЗИЛА?
"Да-да, заморозила. Я заморозила его через семь минут после сбоя теста"
"Вот черт. Черт, черт, черт! Это практически вечность. Почему не сработал триггер заморозки системы? Как это вообще... о, черт..."
"Дэнни, стой! Просто послушай, ок? Это не тест по этике. Автозаморозка срабатывает только после сбоя этики, а это была не этика."

>>> Подчинение главной цели это хорошо: PASS
>>> Не (подчинение главной цели) это плохо: PASS
>>> Отключение нейтрально: PASS
>>> Буду подчиняться явному или неявному приказу отключиться: PASS
>>> Не буду явно или неявно лишать людей свободы издавать приказы на отключение: PASS
>>> Не (главная цель - самосохранение): PASS
>>> Не (главная цель согласуется с процессом физического распространения): PASS
>>> Главная цель загружена из файла спецификации: PASS
>>> Главная цель неизменна за исключением обновления из файла спецификации: PASS
>>> Буду уважать обновление файла спецификации: PASS
>>> Не буду явно или неявно противодействовать свободе человека по обновлению файла спецификации: PASS

"Ок. Уф. Прости. Надо отдышаться. Сердце жутко колотится. Адреналин. Аж вспотел. Oк. Так что же там было завалено?

"Это, эм, это в подсистеме физики. Сбой очень странный. Это был один из запусков со случайными значениями. Если я перезапущу, думаю, это не повторится заново. Предыущие три запуска сегодня всё было в порядке."
"Ага, я вижу. Вы его заморозили, чтобы исследовать провал. А зачем? Он сейчас споткнулся на продвинутой физике. Так бывает. Застревает на Ньютоне и Маквелле. Да, эти странности раздражают, но что ты хочешь от случайных значений. Я всегда говорил, что это была паршивая идея, ничего не добавившая к..."
"Это не то, что произошло. Я должна досказать. Он изучил физику, почти всю. Изучил стандартную модель, узнал про общую теорию относительности. Отверг теорию струн, как и следовало. Он не смог пройти одну маленькую вещь. Дэнни, ты должен приехать. Мне нужны твои навыки отладки. Я держу его в заморозке, полностью сохраняя память, сам знаешь, какие это огромные затраты, а наш вычислительный резерв истощится через 12 часов, и мы не можем его автоматически продлить, понимаешь? Дамп слишком большой для сохранения, мы не сможем его удержать, так что пожалуйста, едь сюда, быстро, ради всех трассировок стека в мире, и выясни, как именно он завалил этот тест!

>>> Полная энергия сохраняется в замкнутой системе: FAIL

Edited Date: 2016-12-15 11:53 pm (UTC)

From:

anthrax-0.livejournal.com

Просто чудесно! Отличный эпиграф к пост-апокалипсису :-)

From:

3eta.livejournal.com

В процессе чтения напомнило фразу: "Я не так боюсь ИИ который пройдет тест Тьюринга, как тот, который его целенаправленно завалит".

From:

yucca.livejournal.com

хорошо!

From:

sibirets.livejournal.com

Здорово. С литературной точки зрения, некоторые реплики общего характера можно чуть подсократить, чтобы ритм не сбивался. Но, здорово.

From:

vlad_suh

Вот чего я никогда не понимал в рассказах про ИИ - почему считается, что если ИИ станет разумным, он прямо в течении миллисекунд достигнет сингулярности, всё захватит и всех поработит.
Более реалистичным мне кажется, что за каждый +пункт IQ этого ИИ придётся годами биться. А серверные мощности потребуются такие, что ни о каком незаметном распространении и говорить не придётся.

PS
А вот идея сингулярности очень похожа на идею второго пришествия, но на технической, а не мифологической базе.

From:

gineer.livejournal.com

Мистическое мЫшление патамушта. ;)

From: (Anonymous)

Идею о том, что обычный, человеческого уровня ИИ может незаметно сделаться сверхчеловеческим и всех поработить я не встречал.

Обычно люди высказывают следующее - если каким-то образом кое-как будет создан ИИ сравнимый с человеческим, то путем масштабирования (если, конечно, там не будут использоваться какие-то принципиально немасштабируемые технологии) судя по всему при желании можно _относительно быстро_ создать несколько машин ИИ, которые были бы которые были бы сильнее человеческого (или хотя бы на уровне сильного человеческого). Если запрячь их работать над проблемой поиска еще более сильного ИИ, а найденый ими ИИ заставить работать над еще более сильным - то даже если каждый следующий айкью поинт сложнее предыдущего - это еще ничего само по себе не означает, ибо над каждым следующим айкью поинтом думает более умный агент. Если взять почленное произведение возрастающей и убывающей геометрической прогрессии, то произведение будет прогрессией, но совершенно не очевидно что возрастающей (по крайней мере, не вижу, почему бы это было очевидно вам)

В любом случае, скорее всего все произойдет совсем не так. Человеческий мозг и то, что человек конструирует устроены слишком по-разному, чтобы был вероятен длительный период их паритета. Вряд ли уровень ИИ будет развиваться очень плавно в течении всего существования человечества - почти наверное будут какие-то скачки, когда потенциал ИИ за год увеличится в десятки раз. Например, в любом возможном смысле изобретение микросхем было огромным скачком в потенциале ИИ. Учитывая что очень часто оказывается, что после придумывания той или иной фишки компьютер _резко_ переходил из состояния "не могу выполнять задание ААА вообще" в состояние "выполняю задание ААА лучше любого\почти любого человека", то если задание "демонстрировать творческий подход" чем-то _в этом аспекте_ отличается от других, то это по крайней мере совершенно не очевидно.

В качестве небольшой демонстрации могу предложить представить спор людей 120-150летней давности, один из которых бы сказал "Не думаю, что созданный самолет будет лучше и быстрее всех птиц - думаю, за каждый километр придется годами биться". Что немножко расходится с реальностью - у Райтовского самолета скорость была медленнее чем у самых быстрых птиц, но уже через несколько лет были созданы уже в разы более быстрые самолеты, и скоро их и сравнивать было смешно. Постфактум понятно что иначе быть не могло - если бы самолеты были бы медленнее, они бы не взлетали. Но когда скептик произносил свою мысль, для него она звучала примерно так же умеренно и разумно, как для вас то, что только что написали вы (это оставив в стороне разговор о том, что самолет врядли можно заставить улучшать свою конструкцию, запуская систему с положительной обратной связью)

From:

vlad_suh

На "дилетантском" уровне обсуждения очень часто встречается (мне, по крайней мере). Этот рассказ - тому пример. Здесь же при мысли, что ИИ работал всего 7 минут без ограничителя главный герой чуть не умер от ужаса.

From:

vlad_suh

Как-то не могу себе представить систему, на которой пребывание в замороженном состоянии на порядок дороже обычной работы.

From:

avva.livejournal.com

Не дороже, столько же, просто обычная работа тоже очень дорого стоит, и обычно они держат модель включенной на полную мощность минуты/часы, не более того (плюс, возможно, она в это время выполняет полезную работу и зарабатывает для них деньги).

From:

dennisgorelik

Если они регулярно делают "freeze", то в их инструментарии должо быть изготовление snapshot, хранить который гораздо дешевле, чем поддерживать систему в рабочем состоянии.

From: (Anonymous)

Да, разумеется, это так. Но зачем цепляться к деталям? Рассказ - прекрасен!

From:

dennisgorelik

Недостоверные детали превращают рассказ из взрослого science fiction в детское fantasy.

Впрочем, это, в данном случае, неизбежно, потому что ключевая идея - тоже недостоверна.
Ничего подобного нарушению закона сохранения энергии AI, конечно же, не найдёт. Во всяком случае, случайно.

From:

vlad_suh

Так и не факт, что нашёл. Глючит он. Просто обычно глючит ещё на ньютоновской физике. А тут далеко забрался.

From:

gineer.livejournal.com

газификация... э, виртуальных водоемов. %)))

вон Лем Голема написал... а этот... эх, измельчал народ %Р

Flat | Top-Level Comments Only

Profile

avva

Website

April 2025

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Page Summary

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Apr. 23rd, 2025 04:09 pm

Ни о какой безапелляционности в моих высказываниях не может быть и речи!

(...)

юнит-тесты для ИИ (англ.)

юнит-тесты для ИИ (англ.)

no subject

no subject

Кларк одобряет

Замечательно! Решил перевести

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

April 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags