перл и три бага
Oct. 18th, 2003 06:19 pmСегодня один из классических багов Перла привёл к тому, что в только что созданные журналы/коммьюнити невозможно было отправить записи, в течение 5 часов примерно. То есть баг не самого перла как языка, а типичный баг в программах на нём: в данном случае, путаница между 0 и undef.
Однако, несмотря на такие баги, отдельное значение undef в Перле себя оправдало, по-моему.
Другой типичный баг, который время от времени всплывает в исходниках ЖЖ, связан с тем фундаментальным фактом, что в Перле нет отдельных типов строк и чисел; скаляр в Перле может содержать целое число, или действительное число, или строку, и переводить одно в другое в зависимости от контекста. Но это значит, в частности, что проверка if("0") не проходит, т.к. "0" это то же самое, что 0, т.е. false. Для строк, возможно, удобнее было бы иметь другой критерий истинности, при котором любая непустая строка истинна, а пустая - ложна, но не получается. Из-за забывания этого иногда получаются баги.
Третий баг возникает как раз вследствие единственного нарушения вышеописанного принципа. Оператор & (двоичный and) действует по-разному в зависимости от того, что расположено внутри скаляров, на которые он действует: числа или строки.
Почему результаты разные? Потому что & действует на двоичное представление скаляра, не пытаясь привести его к канонической форме (которая в данном случае должна быть численной, конечно). Когда выполняется 12 & 5, выходит двоичный and между 1100 и 0101; результат - 0100, 4. Когда же выполняется "12" & "5", происходит двоичный and между ASCII-представлением строки "12", т.е.
00110001 00110010 , и ASCII-представлением строки "5", т.е. 00110101 . В результате выходит то же, самое, что "1" & "5", т.к. второму байту строки "12" ничего не соответствует в строке "5"; а
"1" & "5" выходит 00110001, т.е. "1", что корректно преобразуется при надобности в 1.
Таким образом, "x" & "y" и x & y дают одинаковый результат, если x и y - цифры от 0 до 9 (это выходит благодаря тому, что ASCII-представления цифр 0..9 начинаются с 48, т.е. совпадают с самими цифрами в четырёх последних двоичных регистрах), но если числа выходят за предел 0..9, результаты выходят разными.
Особенно больно это бьёт по разработчику, если он использует & для вычисления двоичной маски секьюрити, скажем, в целях обеспечения привилегированного доступа к какому-то объекту. Если при этом его числа, с которыми он делает &, на самом деле не числа, а в данный момент строки (например, потому, что их вернул модуль доступа к БД, всегда возвращающий строки, или Перл их внутри перевёл в строки для какой-то операции, того же print), то результат операции будет неверен, и легко может случиться так, что непривилегированный юзер получит доступ к объекту (всё это касается и двоичного or, кстати, т.е. оператора |, но он используется намного реже на практике, так что редко случаются баги с ним).
Четвёртый... пусть будет на баг, а kludge довольно забавный внутри Перла.
Цитируя документацию функции ioctl:
То же верно ещё для нескольких функций, являющихся перловскими обложками для системных функций: они возвращают обычно результат системной функции или undef в случае ошибки, но, если системная функция возвращает 0 и это для неё не ошибка, они возвращают "0 but true", таким образом пытаясь предотвратить второй баг, описанный выше: если неосторожный разработчик напишет
if(ioctl(...)), то это сработает, т.к. "0 but true" истинно, в отличие от "0"; а если нужно перевести в числовой контекст, то "0 but true" переведётся в 0:
Но если мы запускаем perl с опцией -w (warnings), то обычно перевод строки с не-числовым "мусором" в число выдаёт предупреждение:
А со строкой "0 but true" это не происходит, как и обещано в документации выше:
И это верно только для этой строки. На уровне исходников Перла это происходит так. В файле sv.c, имплементирующем операции со скалярами (sv=scalar value), есть функция looks_like_number(). Её вызывают, когда нужно определить, можно ли перевести данную строку в число; она смотрит на строку, и возвращает ноль, если эта строка не представляет из себя число, и ненулевое значение в обратном случае, причём тогда она возвращает значение, указывающее на то, какую функцию надо использовать для перевода данной строки в число (atol() для целых чисел, atof() для действительных). И вот, в этой функции, когда она уже проверила, выглядит ли строка как целое или действительное число, и вернула соответствующие значения в таких случаях, и уже совсем готова возвращать 0, указывая на неудачу, там стоит:
Классический пример того, что по-английски называют kludge, по-моему.
Однако, несмотря на такие баги, отдельное значение undef в Перле себя оправдало, по-моему.
Другой типичный баг, который время от времени всплывает в исходниках ЖЖ, связан с тем фундаментальным фактом, что в Перле нет отдельных типов строк и чисел; скаляр в Перле может содержать целое число, или действительное число, или строку, и переводить одно в другое в зависимости от контекста. Но это значит, в частности, что проверка if("0") не проходит, т.к. "0" это то же самое, что 0, т.е. false. Для строк, возможно, удобнее было бы иметь другой критерий истинности, при котором любая непустая строка истинна, а пустая - ложна, но не получается. Из-за забывания этого иногда получаются баги.
Третий баг возникает как раз вследствие единственного нарушения вышеописанного принципа. Оператор & (двоичный and) действует по-разному в зависимости от того, что расположено внутри скаляров, на которые он действует: числа или строки.
$ perl -e 'print 12 & 5;' 4 $ perl -e 'print "12" & "5";' 1
Почему результаты разные? Потому что & действует на двоичное представление скаляра, не пытаясь привести его к канонической форме (которая в данном случае должна быть численной, конечно). Когда выполняется 12 & 5, выходит двоичный and между 1100 и 0101; результат - 0100, 4. Когда же выполняется "12" & "5", происходит двоичный and между ASCII-представлением строки "12", т.е.
00110001 00110010 , и ASCII-представлением строки "5", т.е. 00110101 . В результате выходит то же, самое, что "1" & "5", т.к. второму байту строки "12" ничего не соответствует в строке "5"; а
"1" & "5" выходит 00110001, т.е. "1", что корректно преобразуется при надобности в 1.
Таким образом, "x" & "y" и x & y дают одинаковый результат, если x и y - цифры от 0 до 9 (это выходит благодаря тому, что ASCII-представления цифр 0..9 начинаются с 48, т.е. совпадают с самими цифрами в четырёх последних двоичных регистрах), но если числа выходят за предел 0..9, результаты выходят разными.
Особенно больно это бьёт по разработчику, если он использует & для вычисления двоичной маски секьюрити, скажем, в целях обеспечения привилегированного доступа к какому-то объекту. Если при этом его числа, с которыми он делает &, на самом деле не числа, а в данный момент строки (например, потому, что их вернул модуль доступа к БД, всегда возвращающий строки, или Перл их внутри перевёл в строки для какой-то операции, того же print), то результат операции будет неверен, и легко может случиться так, что непривилегированный юзер получит доступ к объекту (всё это касается и двоичного or, кстати, т.е. оператора |, но он используется намного реже на практике, так что редко случаются баги с ним).
Четвёртый... пусть будет на баг, а kludge довольно забавный внутри Перла.
Цитируя документацию функции ioctl:
The return value of "ioctl" (and "fcntl") is as follows:
if OS returns: then Perl returns:
-1 undefined value
0 string "0 but true"
anything else that number
Thus Perl returns true on success and false on failure, yet you
can still easily determine the actual value returned by the
operating system:
$retval = ioctl(...) || -1;
printf "System returned %d\n", $retval;
The special string "0 but true" is exempt from -w complaints
about improper numeric conversions.
То же верно ещё для нескольких функций, являющихся перловскими обложками для системных функций: они возвращают обычно результат системной функции или undef в случае ошибки, но, если системная функция возвращает 0 и это для неё не ошибка, они возвращают "0 but true", таким образом пытаясь предотвратить второй баг, описанный выше: если неосторожный разработчик напишет
if(ioctl(...)), то это сработает, т.к. "0 but true" истинно, в отличие от "0"; а если нужно перевести в числовой контекст, то "0 but true" переведётся в 0:
$ perl -e 'print "0 but true" + 5;' 5
Но если мы запускаем perl с опцией -w (warnings), то обычно перевод строки с не-числовым "мусором" в число выдаёт предупреждение:
$ perl -w -e 'print "12garbage" + 5;' Argument "12garbage" isn't numeric in addition (+) at -e line 1. 17
А со строкой "0 but true" это не происходит, как и обещано в документации выше:
$ perl -w -e 'print "0 but true" + 5;' 5
И это верно только для этой строки. На уровне исходников Перла это происходит так. В файле sv.c, имплементирующем операции со скалярами (sv=scalar value), есть функция looks_like_number(). Её вызывают, когда нужно определить, можно ли перевести данную строку в число; она смотрит на строку, и возвращает ноль, если эта строка не представляет из себя число, и ненулевое значение в обратном случае, причём тогда она возвращает значение, указывающее на то, какую функцию надо использовать для перевода данной строки в число (atol() для целых чисел, atof() для действительных). И вот, в этой функции, когда она уже проверила, выглядит ли строка как целое или действительное число, и вернула соответствующие значения в таких случаях, и уже совсем готова возвращать 0, указывая на неудачу, там стоит:
if (len == 10 && memEQ(sbegin, "0 but true", 10))
return IS_NUMBER_TO_INT_BY_ATOL;
return 0;
Классический пример того, что по-английски называют kludge, по-моему.
no subject
Date: 2003-10-20 02:52 am (UTC)no subject
Date: 2003-10-20 06:43 am (UTC)no subject
Date: 2003-10-20 06:57 am (UTC)А С как раз идеально подходит для создания крайне компактных и быстрых кусков кода, ценой сильного снижения производительности программера. На C хорошо и правильно писать драйвера и ядро ОС :-) Возможно, и ядро БД, например. А прочее надо писать на чём-то другом, факт. Вон у того же оракла все инструменты, кроме совсем уж консольных утилит, на Java и написаны :-)
Кстати, кто-то С пытался уже подправить -- не помню уже ссылки, но попадался компилятор подмножества C, дающий большую safety. Ну и запретить char* и strcat как класс ;-)
no subject
Date: 2003-10-20 07:28 am (UTC)no subject
Date: 2003-10-20 07:35 am (UTC)Или, точнее: что бы вы поменяли в C, чтобы было строже?
У меня ровно 2 мысли: отдельный тип для boolean и уход от null-terminated строк. Боюсь, всё остальное нужно.
no subject
Date: 2003-10-20 07:37 am (UTC)no subject
Date: 2003-10-20 08:16 am (UTC)Но с самой зари C строки обрабатывались именно так. Imho, строки со счётчиком и внятная стандартная библиотека для них куда лучше. Есть же совершенно вменяемый posix-овский стандарт для file I/O.
Впрочем, уезжание указателей за границы массива происходит не только со строками :-\
Так что трансформируем пожелание в другое:
введение отдельного типа массивов, не эквивалентного указателям, и возможность включать bounds check.
no subject
Date: 2003-10-21 10:06 am (UTC)A bounds check будет противоречить идее C и С++: «я за вас ещё и думать должен? Вам надо, вы и контролируйте, а я буду только делать то, что приказано»
no subject
Date: 2003-10-20 10:16 am (UTC)Скорее всего я сейчас это запощу и через минуту захочу ещё что-то добавить. :)
no subject
Date: 2003-10-21 06:01 am (UTC)4 -- тоже можно, не слишком оно тяжело реализуется. Удобнее, чем обработка сигналов :-)
5 -- нельзя запрещать произвольную pointer arithmetics, поскольку тогда будет очень грустно писать драйверы к memory-mapped устройствам. Массивы, знающие свой размер, можно отнести в стандартную библиотеку, вместе со строками, hashtables, b-trees и прочими полезными в хозяйстве контейнерами. Такой stdcont.h :-)
6 -- наследование как в modula-3 и oberon? Ну, не помешало бы, наверное. Хотя, признаться, и так можно на C писать вполне в ОО-стиле, см. тот же GTK :-)
no subject
Date: 2003-10-21 06:40 am (UTC)5. Почему? Ведь memory-maped устройства тоже работают по принципу массивов (хотя и без специальных "размер в первом слове"). Наверное можно что-то придумать для таких случаев. Не хочется делать bounds-aware массивы библиотечными а не встроенными. Библиотечные будут хуже оптимизироватся компилятором, а это именно очень надо.
6. Нет. Это я сам придумал пока писал. :) Можно, конечон, писать "в стиле". Можно и вообже ничего плохого не делать. Но делают. :( ОО-стиль навюзывает некую дисциплину. Это полезно. :)