avva: (Default)
[personal profile] avva

Неделю назад купил себе ноутбук (не могу написать "новый ноутбук", т.к. своего до сих пор никогда не было, это первый). ThinkPad R50e. Совершенно не супер-крутой и "навороченный", но это мне и не нужно; все, что мне нужно, в нем есть с лихвой.

Решил дать еще один шанс Линуксу (после того, как на домашнем компьютере новом я перешел на Windows), и установил Ubuntu Linux на ноутбуке. В основном мне хотелось попробовать, потому что так и не смог привыкнуть к Thunderbird в качестве почтовой программы на Windows (а другие еще хуже); т.е. я мог пользоваться, но все же заметно медленнее и менее продуктивно, чем с любимым mutt'ом (это почтовая программа, которая вообще не графическая, но очень хорошо продумана и невероятно удобна для чтения и работы с большим количеством почты).

Результаты превзошли ожидания во много раз. Во-первых, Ubuntu Linux встал на моем ноутбуке с инсталляционной CD-шки без единой проблемы и не задавая мне ни одного нетривиального вопроса: все сделал, все распознал, все решил сам и установил и поднял (ну, попросил подтвердить, что я хочу заново разметить жесткий диск разве что). Нашел и сконфигурировал обычную и WiFi-сеть, итд. Сам поставил на десктоп иконку, следящую за состоянием батареи ноутбука. А когда я перехожу выключаю его из электросети и перехожу в автономный режим и наоборот, он это распознает и за кулисами переводит все файловые системы в режим работы noatime (т.е. так, чтобы когда только читаешь файлы, ничего не пишешь, информация об этом не записывалась обратно на диск, позволяя его намного реже разгонять и экономя энергию). Это меня особенно впечатлило. Мне для всего этого не пришлось и пальцем пошевельнуть.

Далее (это уже для любителей Юникса специально), мне очень нравится, как в Убунту устроена работа с рутом (привилегированным режимом). По умолчанию у аккаунта root пароля вообще нет, и зайти в него невозможно, зато тот аккаунт "главного юзера", который создан при установке системы, настроен для sudo, и все, что нужно делать рутом, делается из него через sudo с вводом своего пароля; пароль запоминается на 15 минут вперед, так что все время набирать не надо. Это очень умное и правильное решение. Нет лишнего отдельного пароля, нет соблазна и повода заходить рутом вообще.

Со спамом забавно получается.

Раньше я пользовался пакетом SpamAssassin (еще раньше я пользовался фильтровкой почтового провайдера, но она тоже очень слабая была). После долгой и настойчивой байесовской тренировки он стал отлавливать процентов 70 спама, что тоже очень плохо, т.к. я этого добра получаю штук 300 в день. SpamAssassin - довольно мощная штука (жаль еще, что медленная очень); наверняка можно было поковыряться и настроить всякие параметры, чтобы было лучше, но у меня руки хронически не доходили до этого. Потом я перешел на Windows полтора месяца назад, и решил, что дам шанс Thunderbird. У него свой встроенный отлов спама, тоже байесовский (для тех, кто не знает: речь идет о вероятностных алгоритмах, опирающихся на частоту слов, причем не конкретных ключевых спамовых слов, а любых вообще. Их, как правило, нужно натренировать на начальном объеме почты, показав, что спам, а что нет, а дальше они сами сортируют, себя самообучают еще лучше распознавать, и только нужно их поправлять, если не так распознали). К сожалению, после долгой и упорной тренировки он стабильно начал находить 50% спама. Причем там подкрутить уже особо нечего, или я не нашел.

На новом ноутбуке я решил попробовать что-то новое, и установил Bogofilter. Результаты меня ошеломили. Я натренировал его один раз на первых 700 письмах. Это было неделю назад. С тех пор он обработал много тысяч писем и ошибся три раза в сторону "думаю, что не спам, но ошибаюсь" и один раз в сторону "думаю, что спам, но ошибаюсь" (причем это было письмо от робота почтовой рассылки, так что неудивительно и нестрашно). Моей проблемы со спамом как не бывало. Очень, очень доволен и рекомендую. Я установил версию, для базы данных использующую SQLite (вместо Berkeley DB более стандартной), и запускаю его с опциями -u (важно! заставляет его не просто классифицировать каждое письмо, но и учитывать его в базе данных сразу) и -p (чтобы он вставлял заголовок, указывающий на его решение, а потом это уже расходится в разные ящики у меня на основании этого).

Тут вот что интересно - мне, по крайней мере, интересно. По мере моего знакомства с программами, отсеивающими спам вероятностным, "байесовским" способом несколько раз менялось моя, как бы это сказать, внутренняя картинка самого такого подхода, мой внутренний вердикт как бы. Вначале я, не пробуя сам такие программы, находил эту идею интересной и многообещающей. Вот, думал я, здорово как. Пусть спаммеры по-разному искажают слова и вставляют бессмысленные символы, чтобы обойти простые фильтры, все равно глупые статистические фильтры - именно глупые, а не умные, в том вся соль, что им ничего не нужно знать о том, что такое спам и какие слова он любит, а нужно только натренировать - все равно их победят. С математикой не поспоришь. Или поспоришь, но проиграешь.

Потом я начал пользоваться одной такой программой, одной из самых известных, и результаты меня не то чтобы вдодхновили. И, незаметно, но твердо, мое мнение о всем классе таких программ, о таком методе изменилось. Я стал думать примерно так: что да, отличная идея, в теории замечательная, но увы, увы, суровая практика все-таки ее опровергает. Спаммеры становятся все изощреннее и изощреннее. Часто спам их вообще состоит из цитат из классики или других книг, а собственно спамная часть запрятана в нескольких HTML-тагах с картинками; как такое распознаешь? Плюс огромное количество случайно сгенерированных слов и фраз, которые они добавляют, видимо может захламлить любую базу данных. Ну и так далее.

И вот я сменил программу, и новая работает именно так, как должна была работать старая - с эффективностью если не 100%, то больше 99.9, не преувеличивая. Как же быстро мое мнение метнулось обратно! я мгновенно нашел в уме контраргументы против всех аргументов, которые уже выстроил "в пользу" победы спаммеров. Опять математика у меня в мыслях торжествует над беспомощными ворами нашего времени, и опять это происходит как бы из общих соображений, как и спаммеры раньше "побеждали" из общих соображений.

Этот процесс подспудного нахождения "теоретических" объяснений окружающей реальности, когда подстраиваешь внутреннюю картину мира под внешнюю и делаешь вид, что так и было, происходит все время, конечно; но не всегда удается столь очевидным образом поймать себя за руку. Дело ведь не в том, что я менял собственные убеждения под давлением фактов; это-то как раз правильно и необходимо делать. Дело в том, что я менял их под влиянием совершенно недостаточных фактов, очень мелких и мелочных и ничего на самом деле не значащих (например, того, что не работала как следует одна программа из десяти возможных, причем еще такая, которая требует тщательной настройки, а я ее не настраивал). Зато они были рядом, в непосредственной досягаемости.

Page 1 of 3 << [1] [2] [3] >>

В защиту SpamAssassin'а

Date: 2006-03-12 04:37 pm (UTC)
From: [identity profile] zeev.livejournal.com
У нас (RedHat Linux) стоит spamassassin, который каждый пользователь может обучать на своих письмах. Я два года назад обучил его на массиве размером порядка 2*200 писем (точных чисел не помню, могу провраться раза в два). С тех пор ошибок "думаю, что спам, на самом деле нет" было примерно 5; ошибки в обратную сторону чаще (порядка 1 в день), но ИМХО не так критичны - по тексту быстро понимаешь, что пришел спам. Естественно, в случае всех ошибок я SpamAssassin дообучал.

Общий масштаб бедствия в последнее время - 5--10 полезных писем в день, 200 спамных. ИМХО КПД SpamAssassin'а в данном случае близок к идеальному, главный плюс (в отличие от mail.ru, gmail.com, ...) - все под моим контролем.

Да, есть еще одна проблема - procmail настроен так, что письма от MailerDaemon'а кладет в неспамный ящик принудительно, с этим ничего сделать нельзя. Причем regexp, проверяющий, не от демона ли письмо, написан с большим запасом. :( Большой простор для действий спаммеров. :((

Date: 2006-03-12 04:48 pm (UTC)
From: [identity profile] masio.livejournal.com
а вот Нелли что в каррент мьюзик стоит - это первый альбом что ли? он тоже хороший?..

Date: 2006-03-12 04:51 pm (UTC)
From: [identity profile] avva.livejournal.com
Первый. Не такой хороший, на мой взгляд, как второй, но тоже ничего. Напишите мне почтой, если не можете его найти? Я не хочу в ЖЖ целый альбом выкладывать.

Date: 2006-03-12 04:53 pm (UTC)
From: [identity profile] avva.livejournal.com
Ага. Ну да я и не то чтобы наезжаю на SpamAssassin. Подозреваю, на самом деле, что если бы я подкрутил там threshold value несколько раз, и другие опции, то все бы отлично заработало не хуже, чем сейчас Bogofilter у меня. Дело только в том, что я ненавижу подкручивать, особенно когда не имеешь точно представления о том, что именно подкручиваешь; да и времени жалко было на это.

Date: 2006-03-12 04:53 pm (UTC)
From: [identity profile] masio.livejournal.com
:)
да нет, мне только рекомендация нужна, я по своим каналам уж скачаю:)
вы просто теперь за неё в каком-то смысле в ответе... :)

Date: 2006-03-12 04:55 pm (UTC)
From: [identity profile] ex-gregbg715.livejournal.com
«Далее (это уже для любителей Юникса специально), мне очень нравится, как в Убунту устроена работа с рутом (привилегированным режимом). По умолчанию у аккаунта root пароля вообще нет, и зайти в него невозможно, зато тот аккаунт "главного юзера", который создан при установке системы, настроен для sudo, и все, что нужно делать рутом, делается из него через sudo с вводом своего пароля; пароль запоминается на 15 минут вперед, так что все время набирать не надо. Это очень умное и правильное решение. Нет лишнего отдельного пароля, нет соблазна и повода заходить рутом вообще.»

Точно так же работает Mac OS X. Интересно, кто у кого идею спер ;)

Date: 2006-03-12 04:56 pm (UTC)
From: [identity profile] lordakryl.livejournal.com
за объяснение рутового механизма в Убунту спасибо, долго не мог понять, куда делся мой root :)

Date: 2006-03-12 04:57 pm (UTC)
From: [identity profile] cmm.livejournal.com
"поймать себя за извилину"

Date: 2006-03-12 05:03 pm (UTC)
From: [identity profile] avva.livejournal.com
:)

Мне там нравится "David" и вот эта "It's A Pose".

Date: 2006-03-12 05:04 pm (UTC)
From: [identity profile] masio.livejournal.com
спасибо:))

Date: 2006-03-12 05:09 pm (UTC)
From: [identity profile] dikem.livejournal.com
Все бы хорошо, но решив проблему сортировки спама, не получается решить проблему паразитного трафика.

Date: 2006-03-12 05:27 pm (UTC)
From: [identity profile] ex-ex-zhuzh.livejournal.com
Во как! Спасибо за информацию. Будем применять в деле.

Date: 2006-03-12 05:27 pm (UTC)
From: [identity profile] vazovsky.livejournal.com
mutt есть и под Windows

Date: 2006-03-12 05:28 pm (UTC)
From: [identity profile] avva.livejournal.com
Знаю... но как-то это не так и не то...

Date: 2006-03-12 05:29 pm (UTC)
From: [identity profile] kuchin.livejournal.com
У меня сейчас основной ящик gmail.com - туда каждый день сваливается примерно 50-100 писем в спам, из них буквально пару раз было "думаю, что спам, но ошибаюсь", и раз в день или раз в несколько дней "думаю, что не спам, но ошибаюсь". Ничего не настраивал :) Письма как на английском, так и на русском. Мне не особо мешает что нужно раз в пару дней удалять одно письмо...

Date: 2006-03-12 05:29 pm (UTC)
From: [identity profile] avva.livejournal.com
Хорошая фраза. Именно так.

Date: 2006-03-12 05:31 pm (UTC)
From: [identity profile] avva.livejournal.com
Я всерьез размышлял о том, чтобы перейти на гмейл.ком в качестве главного адреса, но все-таки решил пока не.

Date: 2006-03-12 05:32 pm (UTC)
From: [identity profile] avva.livejournal.com
Спасибо, улыбнулся ;)

Date: 2006-03-12 05:40 pm (UTC)
From: [identity profile] kuchin.livejournal.com
Всегда можно попробовать, например на время настроить форвард всех писем туда, и работать с ними оттуда - через тот же POP3.

П.С. Я пользуюсь Outlook - в силу необходимости, как минимум мне нужна синхронизация данных (самое смешное что всех данных, _кроме_ почты) с моим смартфоном i-mate JAM.

Date: 2006-03-12 05:53 pm (UTC)
stas: (Default)
From: [personal profile] stas
bogofilter я гоняю уже года три, и не нарадуюсь. Притом что теоретически он вроде должен действительно всякие HTMLи и цитаты из классиков плохо ловить - практически он их таки очень неплохо ловит, и при это false positives у него очень низкие - в основном если кто-то незнакомый (типа банка) решит письмо прислать всё в бирюльках и картинках. Подозреваю, что применив всякие эвристики из spamassasin, можно довести это дело до совершенства - но он сам по себе настолько хорош, что просто лень :)

Date: 2006-03-12 07:02 pm (UTC)
From: [identity profile] eth0-blog.livejournal.com
Приятно такое читать :)

Вообще, как писал Уилсон, в каждом человеке есть "думающий" и "доказывающий". Чтобы "думающий" не надумал - если он действительно в это поверил, то "доказывающий" докажет это с беспрецендентой точностью логики. ;)

Date: 2006-03-12 07:18 pm (UTC)
From: [identity profile] bugabuga.livejournal.com
А да, кстати, они уже развернули "Gmail для вашего домена" или всё ещё в мелких бетах?:) (учитывая что их предложение мелкому бизнесу отправлять заявки на этот сервис было на слашдоте, желающих там лет на пять набежало)

Date: 2006-03-12 07:30 pm (UTC)
From: [identity profile] people2005.livejournal.com
а это лучше Dell?

Date: 2006-03-12 07:41 pm (UTC)
From: [identity profile] tnt23.livejournal.com
А хостить домены когда начнут уже? :)

Date: 2006-03-12 07:55 pm (UTC)
From: [identity profile] andreylv.livejournal.com
а чем еще Линукс лучше? он цепляет меньше вирусов?
Page 1 of 3 << [1] [2] [3] >>

December 2025

S M T W T F S
  123 4 56
78 9 10 11 1213
1415 1617181920
21 22 23 24 2526 27
2829 3031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 31st, 2025 12:49 pm
Powered by Dreamwidth Studios