о вероятности и статистике
Mar. 5th, 2008 02:49 amТеория вероятности и статистика - одна из наиболее неприятных для меня дыр в моем образовании. Я помню только самые начала теории вероятности, а статистику вообще никогда и не учил, кроме того, что нахватался по верхам. Мне хотелось бы это исправить, но не очень понятно, как: даже если найти время, чтобы почитать одну-две хорошие книги, неясно, что помешает этому всему забыться через полгода.
Недавно в одной дискуссии (опять во внутренней рассылке на работе; я часто в последнее время ссылаюсь на такого рода источники, но что поделать - у нас работает много очень умных и интересных людей, и процветает внутренняя культура обсуждений в почтовых рассылках) было высказано мнение, что программа обучения computer science должна включать в себя обязательный курс статистики (моя не включала). Другая участница дискуссии заметила, что вообще не понимает, как можно быть инженером, и не знать, что такое power law distribution или confidence intervals. Что ж, если это верно, пора сдавать свою лицензию и удаляться на покой: я не понимаю (на нормальном техническом уровне, а не "смутно представляю") ни того, ни другого.
Недавно в одной дискуссии (опять во внутренней рассылке на работе; я часто в последнее время ссылаюсь на такого рода источники, но что поделать - у нас работает много очень умных и интересных людей, и процветает внутренняя культура обсуждений в почтовых рассылках) было высказано мнение, что программа обучения computer science должна включать в себя обязательный курс статистики (моя не включала). Другая участница дискуссии заметила, что вообще не понимает, как можно быть инженером, и не знать, что такое power law distribution или confidence intervals. Что ж, если это верно, пора сдавать свою лицензию и удаляться на покой: я не понимаю (на нормальном техническом уровне, а не "смутно представляю") ни того, ни другого.
no subject
Date: 2008-03-05 02:06 am (UTC)no subject
Date: 2008-03-05 02:22 am (UTC)Отмечу только, что в обыденной жизни ещё полезно знать, какими свойствами должна обладать выборка, чтобы отражать генеральную совокупность. А то много раз встречал: проведёт какой-нибудь очень популярный жж=юзер опрос среди своих френдов и потом объявляет "80 процентов рунета cчитают, что...". А иногда даже "солидные" издания (вроде Взгляда)такую чушь перепечатывают.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2008-03-05 02:12 am (UTC)no subject
Date: 2008-03-05 02:14 am (UTC)no subject
Date: 2008-03-05 03:18 am (UTC)no subject
Date: 2008-03-05 04:27 am (UTC)no subject
Date: 2008-03-05 04:39 am (UTC)no subject
Date: 2008-03-05 04:43 am (UTC)no subject
Date: 2008-03-05 06:21 am (UTC)no subject
Date: 2008-03-05 06:38 am (UTC)no subject
Date: 2008-03-05 07:31 am (UTC)no subject
Date: 2008-03-05 07:43 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2008-03-05 10:10 am (UTC)В лично моей повседневной жизни - теорвер и матстатистика являются наиболее (в скобках, прописью: самыми-самыми) востребованными разделами математики.
Ну, то есть, на уровне, - даже если ты конченный гуманитарий, - то в адаптированном для дебилов курсе математики - ограничься теорвером и матстатистикой, - хотя бы чтобы свои же косо не смотрели, - не говоря уж о практической пользе...
no subject
Date: 2008-03-05 11:00 am (UTC)я например, окончил мехмат и работаю программистом, и никогда за 13 лет не использовал их вообще нигде. посему и удивляюсь.
(no subject)
From:(no subject)
From:no subject
Date: 2008-03-05 11:03 am (UTC)no subject
Date: 2008-03-05 11:04 am (UTC)no subject
Date: 2008-03-05 11:03 am (UTC)ничего личного, но
Date: 2008-03-05 08:03 pm (UTC)Re: ничего личного, но
From:no subject
Date: 2008-03-05 11:51 am (UTC)Еще есть очень хорошая книжка Секея "Парадоскы теории вероятности". С одной стороны - как игрушки-головоломки все эти знания, а с другой стороны - если возникает чувство, что мы все совсем неправильно понимаем в этом мире (не только в программировании), то наверное имеет смысл обратить внимание.
Кто бы мог подумать что 35 человек в одной комнате почти гарантированно имеют хотя бы пару людей с одинаковым днем рождения!
Программирование - далеко не зрелая наука, и многими вещами мы не пользуемся поскольку не знаем о них. Этот перекос надо все-таки не забывать.
no subject
Date: 2008-03-05 12:08 pm (UTC)1) Недавний флейм по поводу результатов предпоследних выборов. Получив данные о результатах голосования и явки по отдельным участкам многие попытались сделать "квалифицированное" заключение, что на тех участках где явка выше (возможно по причине манипуляций) там и процент голосов за Единую Россию выше. Не могу сказать, что меня показанные данные убеждали, но глубоко я не копал, если честно
2) Судебная ошибка в случае с Sally Clark, когда "эксперт" заявил что вероятность "самопроизвольной" смерти двух детей в одной семье равна 1/75 млн. поскольку вероятность смерти одного ребенка 1/8500. Этот эксперт просто возвел вероятность в квадрат, не учтя достаточно высокую возможную корелляции двух смертей в одной семье. Не говоря уже о том, что даже 1/75 млн шанс совсем не означает, что мать детей была виновата. Ведь в Америке и Англии почти каждая такая смерть ребенка будет зарегистрирована, а значит, вероятность того, что женщина невиновна, даже в случае независимых вероятностей, близка к 1. И на поверку оказывается, что такое с ног на голову поставленное использование вероятности с матстатистикой наблюдается в судебных разбирательствах довольно часто (особенно если суд присяжных...).
Я хотел этим показать, что мы не пользуемся теорвером по той причине, что не знаем, что им можно и нужно пользоваться, и обостряется проблема тем, что именно вероятность люди понимают почти всегда неверно, даже при наличии ученой степени именно в матстатистике.
Профессорам матстатистики предлагали простую задачку в неформальной беседе: в каком из двух роддомов (маленьком или большом) более вероятно родились за одну ночь 60% девочек? Практически все отвечают - в большом скорее всего. Вот и думайте как хотите.
Ну про Monty Hall задачу я вообще молчу.
(no subject)
From:(no subject)
From:(no subject)
From:Programmers Need To Learn Statistics Or I Will Kill Them All
Date: 2008-03-05 01:31 pm (UTC)no subject
Date: 2008-03-05 03:50 pm (UTC)http://www.amazon.com/Introduction-Probability-Inductive-Logic/dp/0521775019/ref=sr_1_2?ie=UTF8&s=books&qid=1204732164&sr=8-2
no subject
Date: 2008-03-05 04:43 pm (UTC)доверительный интервал --- это просто (хотя мало кто правильно понимает), если у вас есть мнение, что некоторая случайная величина определённым образом распределена, то если вы возьмёте одно её значение оно с какой-то фиксированной (стандартно 95%) вероятностью попадёт в этот интервал, который можно посчитать при помощи простой формулы зная среднее и дисперсию распределения. применяется вместе с проверкой гипотезы.
power law distribution не такай нужная штука, это вам понадобится только если вы хвостами распределений занимаетесь или вам попадётся феномен этим законом описываемый, не уверен что у программистов технологического типа это часто встречается.
no subject
Date: 2008-03-05 08:01 pm (UTC)Там фундаментальные вещи расписаны широко и глубоко, с подробными библиографическими ссылками.
от Больших Чисел, bayes law, и log likelihood, через bias/variance, до No Free Lunch & Ugly Duckling theorems.
Там мало непосредственно алгоритмов для классификаторов (и совсем туго с их реализациями, даже на уровне обсуждения), но именно "понималку" прокачивает здорово.
no subject
Date: 2008-03-05 08:39 pm (UTC)no subject
Date: 2008-03-05 09:34 pm (UTC)Нам в институте давали довольно порядочно тервера, но не очень хорошо привязывали его к практике. Потому, когда начало надобиться, оказалось, что сильно забыто.
Ещё бы давали больше про вычислительную сложность и около -- крайне практически ценно, а пришлось узнавать не только самому, но и много позже, чем надо.
о внутренних рассылках
Date: 2008-03-06 12:43 am (UTC)Re: о внутренних рассылках
Date: 2008-03-06 02:59 am (UTC)Re: о внутренних рассылках
From:no subject
Date: 2008-03-06 08:13 pm (UTC)no subject
Date: 2008-03-08 12:13 pm (UTC)Далее, теорвер плюс статистика -- очень объемная область знаний. Поэтому надо представлять более детально, что хочется понимать и уметь. Например комбинаторные задачи, столь любимые многими -- это вообще вещь в себе, и, имхо, к остальной ТВ отношение мало имеющая. Чтобы их решать, ТВ знать почти не надо. Более того, хорошее знание ТВ совершенно не гарантирует умение их решать.
Я более-менее врубился в теоретические построения ТВ, когда прослушал курс "математические основы теории вероятностей". Когда привыкаешь работать с аксиоматикой (сигма-алгебрами и мерами в частности), понимаешь измеримость и интеграл Лебега -- ТВ перестает быть чем-то магическим и непонятным. Ничего в упомянуты вещах сильно сложного нет, но нужно определенное время чтобы свыкнуться.
На прикладном уровне вся эта механика остается за кадром (в случае случайных процессов, например, эта механика становится еще и реально тяжеловесной), поэтому можно, на самом деле, и не вникать. По себе знаю, что лишние знания порой даже мешают:) Имхо можно много понять про теорвер изучая, например, quantitative finance. Изучать теорвер через прикладную область или начать с этого даже в чем-то лучше -- в этом случае это просто инструмент и не ждешь каких-то откровений (трудно выразить, но в контексте ТВ мысль надеюсь понятна). Хорошая книжка -- Baxter и Rennie, есть в инете.
Статистика как предмет весьма специфична и стройной теории, на мой взгляд, не образует -- куча слабо связанных между собой областей. Понять базовые вещи, типа точечных оценок, доверительных интервалов и проверки гипотез -- ничего сложного нет. Другое дело применять статистику -- это, на мой взгляд, искусство и достигается только практикой.
Про power law distribution участница дискуссии явно перегнула. Есть намного более употребительный термин fat/heavy tails, который я бы еше понял. В общем случае, означает значимо большую вероятность больших отклонений по сравнению с нормальным законом (есть разные толкования, в узком смысле может означать именно power law decay). Неплохо понимать что есть случаи, когда, например, не существует матожидание или дисперсия и нельзя их оценивать. Или что закон больших чисел или ЦПТ могут не работать. Но в жизни это скорее экзотика за исключением пары-тройки специфических областей.
Неплохие лекции по теорверу:
http://www.nsu.ru/mmf/tvims/chernova/tv/index.html
no subject
Date: 2008-03-09 07:50 pm (UTC)no subject
Date: 2008-03-08 08:56 pm (UTC)1. Доверительные интервалы для человека с незамыленным взглядом кажутся странным фокусом и нужно иметь некоторую уверенность в своих знаниях, чтобы поверить, что так оно и есть. Идея была придумана в те времена, когда табулирование таблицы квантилей было сложнвм делом и направлена она именно на оптимизацию этого момента. Сейчас таких проблем нет и можно было бы говорить о вероятностях вместо уровней значимости, если бы не традиция. Может и есть книжки по статистике, в которых это объясняется, но я таких не встречал.
2. Метод максимального правдоподобия (вероятно, самый часто используемый во всей статистике) тоже вызывает недоумение, что легко объяснимо. Этот метод фактически основывается на предельном случае формулы Байеса, а полный вариант соответствующей теории называется уже статистической идентификацией и далеко выходит за пределы известных курсов. И снова соответствующие комментарии почти никогда не прсачиваются в учебники.
Так что статистика остается одной из самых эзотерических областей математики. В ней сохраняется представительный набор сведений, передаваемых только устно от учителя к ученику.
no subject
Date: 2008-03-08 08:59 pm (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2008-03-10 11:47 am (UTC)Слушать приятнее чем читать
Date: 2008-05-21 02:01 pm (UTC)http://videolectures.net/bootcamp07_keller_bss/
Re: Слушать приятнее чем читать
Date: 2008-05-21 02:08 pm (UTC)