avva: (Default)
avva ([personal profile] avva) wrote2007-02-13 04:52 pm

программистское

Пишу на ассемблере! Просто чуть ли не "бойцы вспоминают минувшие дни".


       .text
.globl readcounter
readcounter:
        pushl   %ebx
        pushl   %ecx
        subl    %eax, %eax
        cpuid
        rdtsc
        pushl   %eax
        pushl   %edx
        subl    %eax, %eax
        cpuid
        popl    %edx
        popl    %eax
        popl    %ecx
        popl    %ebx
        ret
        .size   readcounter, .-counter

[identity profile] alta-voce.livejournal.com 2007-02-13 03:12 pm (UTC)(link)
В минувшие дни какой-то не такой ассемблер был.

[identity profile] avva.livejournal.com 2007-02-13 03:12 pm (UTC)(link)
Что да то да :(

[identity profile] alta-voce.livejournal.com 2007-02-13 03:19 pm (UTC)(link)
Почему грустный смайлик?

Тот самый классический ассемблер я ненавидела, а другой известный тебе бывший программер очень даже любил.

[identity profile] slobin.livejournal.com 2007-02-13 03:19 pm (UTC)(link)
А я так и не выучил ассемблера защищённого режима. На реалмодовом 8086 писал довольно много. До этого на PDP-11 и совсем немножко на 360 и 8080.

... Эстетически мотивированное любопытство ...

[identity profile] avva.livejournal.com 2007-02-13 03:22 pm (UTC)(link)
Намного проще, чем реалмод, надо сказать :) после того, как привыкнешь.

[identity profile] slobin.livejournal.com 2007-02-13 03:30 pm (UTC)(link)
Легко верю. Понимаете, реалмодовый я выучил спьяну. ;-) Нет, не бухой в зюзю, но после пятидесяти грамм водки. Просто после красивого и логичного PDP я откровенно боялся в ЭТО залезать, а так стало море по колено.

... She sells the seashells on the seashore ...

[identity profile] vacuite.livejournal.com 2007-02-13 03:23 pm (UTC)(link)
юзай насм, там интеловская семантика

[identity profile] avva.livejournal.com 2007-02-13 03:27 pm (UTC)(link)
спасибо, мне своей головной боли хватает.

subl %eax, %eax

[identity profile] aburachil.livejournal.com 2007-02-13 03:29 pm (UTC)(link)
Это означает eax:=0 ? В наше время гламурнее было писать для этого "xor a" ;-)

Re: subl %eax, %eax

[identity profile] avva.livejournal.com 2007-02-13 03:33 pm (UTC)(link)
Да, но sub готичнее, ведь он включает в себя глубокую мысль: "ибо прах ты и в прах возвратишься" (Бытие 3:19), а xor это что - так фигня какая-то побитовая.

глубокую мысль

[identity profile] aburachil.livejournal.com 2007-02-13 03:54 pm (UTC)(link)
ash to ash
bash to bash

Re: subl %eax, %eax

[identity profile] nice-beaver.livejournal.com 2007-02-13 04:30 pm (UTC)(link)
Ксор быстрее (во всяком случае, раньше был)

Re: subl %eax, %eax

[identity profile] comnimh.livejournal.com 2007-02-18 11:15 pm (UTC)(link)
Короче. И сейчас короче.

Re: subl %eax, %eax

[identity profile] potan.livejournal.com 2007-02-13 05:07 pm (UTC)(link)
У меня даже была гипотеза, что xor жрет меньше энергии, чем sub :-)

[identity profile] ygam.livejournal.com 2007-02-14 05:22 am (UTC)(link)
Энергию жрет стирание информации, а не вычисления.

[identity profile] potan.livejournal.com 2007-02-14 08:19 am (UTC)(link)
Это все философия.
Реально жрет энергию текущий по проводам ток и перезаряд емкостей.
В реализации вычитания проводов заметно больше, чем в реализации побитовых операций.

[identity profile] ygam.livejournal.com 2007-02-16 12:17 am (UTC)(link)
Я пошутил.

offtopic

[identity profile] nagunak.livejournal.com 2007-02-13 03:47 pm (UTC)(link)
http://soamo.livejournal.com/2541619.html

[identity profile] avva.livejournal.com 2007-02-13 03:49 pm (UTC)(link)
Знаю, спасибо :)

[identity profile] centralasian.livejournal.com 2007-02-13 08:04 pm (UTC)(link)
это на самом деле мне юзерпик. он же нарисовал верблюда.

[identity profile] avva.livejournal.com 2007-02-13 08:06 pm (UTC)(link)
Бери, если Соамо разрешит и ты хочешь. Мне он не очень понравился, увы (хотя вообще очень люблю его стиль).

[identity profile] centralasian.livejournal.com 2007-02-13 08:27 pm (UTC)(link)
а я ему там и намекнул, мол, можно ли менору на тюбетейку махнуть
(deleted comment)

[identity profile] avva.livejournal.com 2007-02-13 03:50 pm (UTC)(link)
Это AT&T синтаксис, его понимает gcc.

Мне вот интересно,

(Anonymous) 2007-02-13 05:22 pm (UTC)(link)
а вот 64-разрядные регистры как сейчас называются? Особенно как выглядит программа для интелей (пусть и дуо).

[identity profile] avva.livejournal.com 2007-02-13 05:30 pm (UTC)(link)
rax, rcx, rdx, rbx, rsp, rbp, rsi, rdi, r8, r9, r10, r11, r12, r13, r14, and r15.

В общем, как обычно выглядит. eax это нижняя половина rax итд.
Основные инструкции те же.

[identity profile] iratus.livejournal.com 2007-02-13 04:00 pm (UTC)(link)
ну функция возвращает cpuid или артачится :)))

[identity profile] avva.livejournal.com 2007-02-13 05:09 pm (UTC)(link)
вовсе нет :)

[identity profile] unbe.livejournal.com 2007-02-13 05:42 pm (UTC)(link)
А зачем второй cpuid?

[identity profile] avva.livejournal.com 2007-02-13 05:50 pm (UTC)(link)
А зачем первый? Затем же.

[identity profile] unbe.livejournal.com 2007-02-13 06:15 pm (UTC)(link)
Это первое упоминание о втором cpuid, которое я увидел. Везде пишут, что надо только до. Зачем чистить OOO pipeline после?

[identity profile] avva.livejournal.com 2007-02-13 06:27 pm (UTC)(link)
Потому что "нечестно", ведь сразу после первого запускается pipeline опять, и во время самого замера уже плетет свои гнусные сети со следующими инструкциями. Самое чистое решение - оборвать точку замера с двух сторон. Это даст самую чистую картину поведения. Конечно, с прагматической точки зрения второй обрыв далеко не так важен, как первый, это верно - что оно там успеет сделать, практически ничего.
Но как-то симметричнее и последовательнее так, по-моему. А что касается самих затрат, я все равно буду учитывать (примерные) затраты на cpuid при калибровке результатов, так какая уж разница, один раз или два.

[identity profile] unbe.livejournal.com 2007-02-13 07:08 pm (UTC)(link)
Я, конечно, не знаю, что именно и как нужно измерить, но мне кажется, второй cpuid сделает только хуже. Он не повлияет на численный результат (в eax:edx то же значение, что и было бы без него), а даст, по сути, только задержку уже после измерения, причем не постоянную, а плавающую. Где смысл? :)

[identity profile] avva.livejournal.com 2007-02-13 08:01 pm (UTC)(link)
Идея в том, что результат тот же, но если вы после этого повторяете тот же процесс (который изначально замеряли), или еще что-нибудь, что хотите измерить, то разница между следующим значением и этим будет немножко нечестная, потому что CPU начал загружать все в pipelines, prefetch queues итд. итп. еще до того, как закончилась операция rdtsc. Ваше следующее измерение будет чуть меньше реального; подобно тому, как если бы вы не делали первый cpuid, это измерение могло быть меньше реального.

[identity profile] unbe.livejournal.com 2007-02-13 08:54 pm (UTC)(link)
Я понял, просто не согласен. OOO execution - это нормальный режим работы, и именно в нем получается "реальный" результат. После cpuid часть кода будет выполнена в ненормальных условиях, то есть, потенциально, с другой скоростью. Эта часть может быть из двух кусков - тот, что внутри readcounter, и тот, что снаружи. Первый можно попытаться скомпенсировать при расчетах, второй нельзя. Еще один cpuid просто удлинняет этот второй кусок, делая измерение менее точным.

Проще говоря, если даже в случае без 2го cpuid будет какое-то "убыстрение" (хотя неясно, относительно чего), то в случае с ним будем замедление, которое гораздо труднее учесть.

Против "подобно тому...": первый cpuid делается только чтобы избежать OOO исполнения самого rdtsc. OOO исполнения чего нужно избежать после rdtsc?

Извините, что так длинно :)

[identity profile] avva.livejournal.com 2007-02-18 11:28 pm (UTC)(link)
Совершенно не надо извиняться. На самом деле спасибо, вы меня убедили :) уберу второй cpuid.

[identity profile] malaya-zemlya.livejournal.com 2007-02-14 02:11 am (UTC)(link)
Во-первых, RDTSC синхронизирует pipeline.
Во-вторых, задержка у него самого меняется 90 до 120 циклов в зависимости от знака зодиака и погоды на Марсе, так что абсолютной точности не добиться.

http://softwarecommunity.intel.com/ISN/Community/en-US/forums/thread/30226599.aspx

[identity profile] shamany.livejournal.com 2007-02-14 03:26 am (UTC)(link)
она вообще была недокументированной долго. а то, что задержка меняется, конечно, она же от конвейера зависит практически напрямую!

[identity profile] malaya-zemlya.livejournal.com 2007-02-14 05:02 am (UTC)(link)
Я имел ввиду, что второй CPUID тут мало что может поменять.

[identity profile] avva.livejournal.com 2007-02-18 11:29 pm (UTC)(link)
Да, убедили :) эх, симметричнее было!

[identity profile] madfire.livejournal.com 2007-02-13 05:48 pm (UTC)(link)
at&t синтаксис придумали нечеловеки..

[identity profile] avva.livejournal.com 2007-02-13 05:50 pm (UTC)(link)
Да :( никогда не привыкну, изверги.

[identity profile] djuffin.livejournal.com 2007-02-13 06:04 pm (UTC)(link)
Все у AT&T по-другому. То два плюсика к C дорисуют, то проценты к регистрам.

[identity profile] faceted-jacinth.livejournal.com 2007-02-13 10:56 pm (UTC)(link)
О, я правильно понял, что делает этот код.

Разные Люди советуют всё-таки использовать АПИ (под виндой - QueryPerformanceFrequency/QueryPerformanceCounter), которые вешаются на какой-то другой счётчик, насколько я понял, потому что Есть Нюансы. Оно, конечно, гораздо тормознее (когда я мерял, вызов QueryPerformanceCounter занимал несколько тысяч тактов), но его ж и не нужно часто вызывать.

Из нюансов -- проблемы на многопроцессорных системах (рекомендуется выставлять аффинити тому треду, которому нужно это всё мерять и раздавать окружающим) и на некоторых мобильных процессорах, которые самопроизвольно роняют тактовую частоту при высоком айдл тайме.

[identity profile] avva.livejournal.com 2007-02-18 11:28 pm (UTC)(link)
С мобильными процессорами я сам убедился забавным образом - чтобы проверить таймер, обернул им вызов сначала sleep(1), а потом usleep(1). Сон длиной в одну микросекунду дал правильную тактовую частоту процессора, а длиной в секунду - в три раза меньше, совершенно последовательно.

И про многопроцессоры понимаю. И про другие счетчики знаю, но спасибо все равно :) (но я в основном на линуксе запускать буду. но там тоже есть). Я в основном для самоудовлетворения, плюс все-таки для некоторых конкретных целей (сравнения нескольких разных алгоритмов на многих наборах исходных данных, причем алгоритмы бегут быстро, на однопроцессорной машине и в среднем намного быстрее, чем может переключиться контекст на другой тред - а такие редкие исключения можно убрать усреднением по медиане нескольких результатов; и все это для улучшения своего собственного понимания) хорошо подходит.

[identity profile] ygam.livejournal.com 2007-02-14 05:20 am (UTC)(link)
Кстати, ты написал memcached? Возможно, его будут использовать в Амазоне.

[identity profile] avva.livejournal.com 2007-02-18 11:23 pm (UTC)(link)
Я написал. Если можешь рассказать подробнее, расскажи (можно письмом), любопытно. Если нет - тоже нормально. Последние 2 года я почти не занимался его развитием, хотя возможно вернусь к этому, если будет время.

[identity profile] ygam.livejournal.com 2007-02-19 01:16 am (UTC)(link)
Я просто подписан на внутреннюю рассылку caching-interest, и там обсуждаются сравнительные преимущества и недостатки одного inhouse пакета и memcached.