avva: (Default)
[personal profile] avva
Теория вероятности и статистика - одна из наиболее неприятных для меня дыр в моем образовании. Я помню только самые начала теории вероятности, а статистику вообще никогда и не учил, кроме того, что нахватался по верхам. Мне хотелось бы это исправить, но не очень понятно, как: даже если найти время, чтобы почитать одну-две хорошие книги, неясно, что помешает этому всему забыться через полгода.

Недавно в одной дискуссии (опять во внутренней рассылке на работе; я часто в последнее время ссылаюсь на такого рода источники, но что поделать - у нас работает много очень умных и интересных людей, и процветает внутренняя культура обсуждений в почтовых рассылках) было высказано мнение, что программа обучения computer science должна включать в себя обязательный курс статистики (моя не включала). Другая участница дискуссии заметила, что вообще не понимает, как можно быть инженером, и не знать, что такое power law distribution или confidence intervals. Что ж, если это верно, пора сдавать свою лицензию и удаляться на покой: я не понимаю (на нормальном техническом уровне, а не "смутно представляю") ни того, ни другого.

Date: 2008-03-05 02:06 am (UTC)
From: [identity profile] http://users.livejournal.com/__rico/
про confidence intervals думаю понимаете, просто не отдаете себе в этом отчета :) power law distribution - не знаю, почему отнесено к фундаментальным вещам, никаких откровений знание этого распределения не дает. Гораздо важнее имхо знать закон больших чисел и центральную предельную теорему.

Date: 2008-03-05 02:22 am (UTC)
From: [identity profile] gaus.livejournal.com
Согласен.

Отмечу только, что в обыденной жизни ещё полезно знать, какими свойствами должна обладать выборка, чтобы отражать генеральную совокупность. А то много раз встречал: проведёт какой-нибудь очень популярный жж=юзер опрос среди своих френдов и потом объявляет "80 процентов рунета cчитают, что...". А иногда даже "солидные" издания (вроде Взгляда)такую чушь перепечатывают.

(no subject)

From: [identity profile] bougakov.livejournal.com - Date: 2008-03-05 08:43 am (UTC) - Expand

(no subject)

From: [identity profile] knastya.livejournal.com - Date: 2008-03-05 12:53 pm (UTC) - Expand

(no subject)

From: [identity profile] ivan-gandhi.livejournal.com - Date: 2008-03-05 04:40 am (UTC) - Expand

(no subject)

From: [identity profile] migmit.vox.com - Date: 2008-03-05 09:02 am (UTC) - Expand

(no subject)

From: [identity profile] deni-ok.livejournal.com - Date: 2008-03-05 09:10 am (UTC) - Expand

(no subject)

From: [identity profile] timur0.livejournal.com - Date: 2008-03-05 09:50 am (UTC) - Expand

(no subject)

From: [identity profile] dr-math.livejournal.com - Date: 2008-03-05 04:47 am (UTC) - Expand

Date: 2008-03-05 02:12 am (UTC)
From: [identity profile] neatfires.livejournal.com
После N лет самообразования у меня создалось устойчивое впечатление, что усваивается лучше всего, когда учишься в своем темпе, в соответствии со своими приоритетами и углубляешься настолько, насколько кажется нужным. Когда есть время просто откинуться в кресле и за полчаса или час напряжения полностью сомкнуть цепь рассуждений, а не гнаться за количеством нарешанных задач. Поэтому, если вы всерьез возьметесь за свои "черные дыры", то рискуете запомнить их гораздо лучше, чем несчастные студенты точных наук, у которых математика из ушей лезет. Кто ищет, тот найдет.

Date: 2008-03-05 02:14 am (UTC)
From: [identity profile] neatfires.livejournal.com
*запомнить их содержимое

Date: 2008-03-05 03:18 am (UTC)
From: [identity profile] anril.livejournal.com
на самом деле, четко надо знать некоторый базис, который можно изложить в одной главе хорошей книги. ессно, в стиле, понятном только для знающих математику. все остальное не статистикам знать и постоянно помнить вовсе не нужно. здравый смысл плюс ключевые основы - этого обычно достаточно.

Date: 2008-03-05 04:27 am (UTC)
From: [identity profile] cherniavska.livejournal.com
Есть же разные семинары полезные. Я, вот кстати, недавно посетила Winter Institute on Statistical Literacy for Librarians - очень интересных три дня. Наверняка можно найти и удаленный подробный курс и поучиться немного, если хочется. Дело полезное.

Date: 2008-03-05 04:39 am (UTC)
From: [identity profile] ivan-gandhi.livejournal.com
Хм. А я вот всю жизнь не верил ни в доверительные интервалы, ни в хи квадрат.

Date: 2008-03-05 04:43 am (UTC)
From: [identity profile] abvgd.livejournal.com
теория вероятностей полезна в быту: она помогает не бояться летать на самолетах и препятствует хождению на выборы

Date: 2008-03-05 06:21 am (UTC)
From: [identity profile] white-lee.livejournal.com
Насчет статистики очень (очень!) рекомендую посмотреть лекцию Peter Donnelly на TED: how juries are fooled by statistics. Практических знаний она не прибавит, но это абсолютный must-see.

Date: 2008-03-05 06:38 am (UTC)
From: [identity profile] buddha239.livejournal.com
Вроде был год теорвера и пол - статистики; моих знаний теорвера хватит на пол-часа объяснений, а матстат не помню вообще.:)

Date: 2008-03-05 07:31 am (UTC)
From: [identity profile] kingoleg.livejournal.com
теория вероятностей

Date: 2008-03-05 07:43 am (UTC)

(no subject)

From: [identity profile] rakshas.livejournal.com - Date: 2008-03-05 09:20 am (UTC) - Expand

(no subject)

From: [identity profile] kingoleg.livejournal.com - Date: 2008-03-05 09:46 am (UTC) - Expand

(no subject)

From: [identity profile] rakshas.livejournal.com - Date: 2008-03-05 10:33 am (UTC) - Expand

Date: 2008-03-05 10:10 am (UTC)
From: [identity profile] sanches.livejournal.com
Очень странно-то, - на самом-то деле.

В лично моей повседневной жизни - теорвер и матстатистика являются наиболее (в скобках, прописью: самыми-самыми) востребованными разделами математики.

Ну, то есть, на уровне, - даже если ты конченный гуманитарий, - то в адаптированном для дебилов курсе математики - ограничься теорвером и матстатистикой, - хотя бы чтобы свои же косо не смотрели, - не говоря уж о практической пользе...

Date: 2008-03-05 11:00 am (UTC)
From: [identity profile] orleanz.livejournal.com
а можете обьяснить, как Вы используете теорвер и матстат в "повседневной" жизни?

я например, окончил мехмат и работаю программистом, и никогда за 13 лет не использовал их вообще нигде. посему и удивляюсь.

(no subject)

From: [identity profile] sanches.livejournal.com - Date: 2008-03-05 11:18 am (UTC) - Expand

(no subject)

From: [identity profile] tretiy3.livejournal.com - Date: 2008-03-05 09:32 pm (UTC) - Expand

Date: 2008-03-05 11:03 am (UTC)
From: [identity profile] zhuchok.livejournal.com
а зачем Вам статистика? у Вас есть конкретные задачи? проблемы нужно решать по мере поступления :)) если разговор идет о расчете каких-то конкретных величин, то конечно...а если нет, может не стоит голову забивать?

Date: 2008-03-05 11:04 am (UTC)
From: [identity profile] orleanz.livejournal.com
горячо поддерживаю, см. мои постинги выше и ниже

Date: 2008-03-05 11:03 am (UTC)
From: [identity profile] orleanz.livejournal.com
Анатолий, Вы сами, Ваша конкретная персона, и Ваш этот постинг - прекрасное доказательство того, что теорвер и матстат не нужны программисту.

ничего личного, но

Date: 2008-03-05 08:03 pm (UTC)
From: [identity profile] pingva.livejournal.com
this is quite disgusting, on multiple levels.

Re: ничего личного, но

From: [identity profile] orleanz.livejournal.com - Date: 2008-03-06 03:18 pm (UTC) - Expand

Date: 2008-03-05 11:51 am (UTC)
From: [identity profile] yury-rlx.livejournal.com
Самое время упомянуть "Одураченных случайностью" и "Черного Лебедя" Талеба.
Еще есть очень хорошая книжка Секея "Парадоскы теории вероятности". С одной стороны - как игрушки-головоломки все эти знания, а с другой стороны - если возникает чувство, что мы все совсем неправильно понимаем в этом мире (не только в программировании), то наверное имеет смысл обратить внимание.

Кто бы мог подумать что 35 человек в одной комнате почти гарантированно имеют хотя бы пару людей с одинаковым днем рождения!

Программирование - далеко не зрелая наука, и многими вещами мы не пользуемся поскольку не знаем о них. Этот перекос надо все-таки не забывать.

Date: 2008-03-05 12:08 pm (UTC)
From: [identity profile] yury-rlx.livejournal.com
До кучи хотел добавить еще пару недавних примеров с матстатистикой в повседневной жини.

1) Недавний флейм по поводу результатов предпоследних выборов. Получив данные о результатах голосования и явки по отдельным участкам многие попытались сделать "квалифицированное" заключение, что на тех участках где явка выше (возможно по причине манипуляций) там и процент голосов за Единую Россию выше. Не могу сказать, что меня показанные данные убеждали, но глубоко я не копал, если честно

2) Судебная ошибка в случае с Sally Clark, когда "эксперт" заявил что вероятность "самопроизвольной" смерти двух детей в одной семье равна 1/75 млн. поскольку вероятность смерти одного ребенка 1/8500. Этот эксперт просто возвел вероятность в квадрат, не учтя достаточно высокую возможную корелляции двух смертей в одной семье. Не говоря уже о том, что даже 1/75 млн шанс совсем не означает, что мать детей была виновата. Ведь в Америке и Англии почти каждая такая смерть ребенка будет зарегистрирована, а значит, вероятность того, что женщина невиновна, даже в случае независимых вероятностей, близка к 1. И на поверку оказывается, что такое с ног на голову поставленное использование вероятности с матстатистикой наблюдается в судебных разбирательствах довольно часто (особенно если суд присяжных...).

Я хотел этим показать, что мы не пользуемся теорвером по той причине, что не знаем, что им можно и нужно пользоваться, и обостряется проблема тем, что именно вероятность люди понимают почти всегда неверно, даже при наличии ученой степени именно в матстатистике.

Профессорам матстатистики предлагали простую задачку в неформальной беседе: в каком из двух роддомов (маленьком или большом) более вероятно родились за одну ночь 60% девочек? Практически все отвечают - в большом скорее всего. Вот и думайте как хотите.

Ну про Monty Hall задачу я вообще молчу.

(no subject)

From: [identity profile] avva.livejournal.com - Date: 2008-03-06 09:25 am (UTC) - Expand

(no subject)

From: [identity profile] yury-rlx.livejournal.com - Date: 2008-03-06 10:10 am (UTC) - Expand

(no subject)

From: [personal profile] stas - Date: 2008-03-06 10:29 pm (UTC) - Expand
From: [identity profile] novice.livejournal.com
http://www.zedshaw.com/rants/programmer_stats.html

Date: 2008-03-05 04:43 pm (UTC)
From: [identity profile] henryviii.livejournal.com
от приложений зависит, нужна статистика программисту или нет.
доверительный интервал --- это просто (хотя мало кто правильно понимает), если у вас есть мнение, что некоторая случайная величина определённым образом распределена, то если вы возьмёте одно её значение оно с какой-то фиксированной (стандартно 95%) вероятностью попадёт в этот интервал, который можно посчитать при помощи простой формулы зная среднее и дисперсию распределения. применяется вместе с проверкой гипотезы.
power law distribution не такай нужная штука, это вам понадобится только если вы хвостами распределений занимаетесь или вам попадётся феномен этим законом описываемый, не уверен что у программистов технологического типа это часто встречается.

Date: 2008-03-05 08:01 pm (UTC)
From: [identity profile] pingva.livejournal.com
я очень рекомендую книжку Pattern Classification (Duda et al)

Там фундаментальные вещи расписаны широко и глубоко, с подробными библиографическими ссылками.

от Больших Чисел, bayes law, и log likelihood, через bias/variance, до No Free Lunch & Ugly Duckling theorems.

Там мало непосредственно алгоритмов для классификаторов (и совсем туго с их реализациями, даже на уровне обсуждения), но именно "понималку" прокачивает здорово.

Date: 2008-03-05 08:39 pm (UTC)
From: [identity profile] posic.livejournal.com
Я полтора года изучал вероятность -- случайные процессы -- статистику на мех-мате МГУ. Сделал работу, в которой одна задача из алгебры связывается с одной задачей из теории вероятностей. Подрабатывал ассистентом на аспирантском курсе теории вероятностей в Гарварде. И я даже не могу сказать, слыхал ли я когда-нибудь про power law distribution или нет, и как это переводится на русский язык, понятия не имею. Про доверительные интервалы определенно слыхал, но абсолютно ничего не помню.

Date: 2008-03-05 09:34 pm (UTC)
nine_k: A stream of colors expanding from brain (Default)
From: [personal profile] nine_k
О да.

Нам в институте давали довольно порядочно тервера, но не очень хорошо привязывали его к практике. Потому, когда начало надобиться, оказалось, что сильно забыто.

Ещё бы давали больше про вычислительную сложность и около -- крайне практически ценно, а пришлось узнавать не только самому, но и много позже, чем надо.

о внутренних рассылках

Date: 2008-03-06 12:43 am (UTC)
From: [identity profile] ex-alexkon.livejournal.com
Интересно, не обсуждались ли предложения чистить архивы внутренних рассылок от коммерческих секретов и выкладывать в общий доступ? Что об этом думают участники обсуждений?

Re: о внутренних рассылках

Date: 2008-03-06 02:59 am (UTC)
From: [identity profile] avva.livejournal.com
Вряд ли это осуществимо - даже если решить проблему секретов, кто будет этим заниматься и чем они будут мотивированы? Старые архивы публичных рассылок почти никогда никто не читает, хотя поиск иногда к ним приводит.

Date: 2008-03-06 08:13 pm (UTC)
stas: (Default)
From: [personal profile] stas
Семестровый курс статистики (то, что возможно в программе CS) - это как семестровый курс китайского. На китайском от этого ни читать, ни говорить научиться невозможно - надо или этим серьезно заниматься, или к переводчику :)

Date: 2008-03-08 12:13 pm (UTC)
From: [identity profile] aickley.livejournal.com
Сразу скажу, что разобраться в теорвере просто читая книги, на мой взгляд, нельзя. Еще как минимум нужны ручка, бумажка и желание их использовать.

Далее, теорвер плюс статистика -- очень объемная область знаний. Поэтому надо представлять более детально, что хочется понимать и уметь. Например комбинаторные задачи, столь любимые многими -- это вообще вещь в себе, и, имхо, к остальной ТВ отношение мало имеющая. Чтобы их решать, ТВ знать почти не надо. Более того, хорошее знание ТВ совершенно не гарантирует умение их решать.

Я более-менее врубился в теоретические построения ТВ, когда прослушал курс "математические основы теории вероятностей". Когда привыкаешь работать с аксиоматикой (сигма-алгебрами и мерами в частности), понимаешь измеримость и интеграл Лебега -- ТВ перестает быть чем-то магическим и непонятным. Ничего в упомянуты вещах сильно сложного нет, но нужно определенное время чтобы свыкнуться.

На прикладном уровне вся эта механика остается за кадром (в случае случайных процессов, например, эта механика становится еще и реально тяжеловесной), поэтому можно, на самом деле, и не вникать. По себе знаю, что лишние знания порой даже мешают:) Имхо можно много понять про теорвер изучая, например, quantitative finance. Изучать теорвер через прикладную область или начать с этого даже в чем-то лучше -- в этом случае это просто инструмент и не ждешь каких-то откровений (трудно выразить, но в контексте ТВ мысль надеюсь понятна). Хорошая книжка -- Baxter и Rennie, есть в инете.

Статистика как предмет весьма специфична и стройной теории, на мой взгляд, не образует -- куча слабо связанных между собой областей. Понять базовые вещи, типа точечных оценок, доверительных интервалов и проверки гипотез -- ничего сложного нет. Другое дело применять статистику -- это, на мой взгляд, искусство и достигается только практикой.

Про power law distribution участница дискуссии явно перегнула. Есть намного более употребительный термин fat/heavy tails, который я бы еше понял. В общем случае, означает значимо большую вероятность больших отклонений по сравнению с нормальным законом (есть разные толкования, в узком смысле может означать именно power law decay). Неплохо понимать что есть случаи, когда, например, не существует матожидание или дисперсия и нельзя их оценивать. Или что закон больших чисел или ЦПТ могут не работать. Но в жизни это скорее экзотика за исключением пары-тройки специфических областей.

Неплохие лекции по теорверу:
http://www.nsu.ru/mmf/tvims/chernova/tv/index.html

Date: 2008-03-09 07:50 pm (UTC)
From: [identity profile] avva.livejournal.com
большое спасибо.

Date: 2008-03-08 08:56 pm (UTC)
From: [identity profile] ltwood.livejournal.com
Книжку прочитать легко, но тут есть всякие мелкие проблемы. Вот совсем простые примеры таких проблем:

1. Доверительные интервалы для человека с незамыленным взглядом кажутся странным фокусом и нужно иметь некоторую уверенность в своих знаниях, чтобы поверить, что так оно и есть. Идея была придумана в те времена, когда табулирование таблицы квантилей было сложнвм делом и направлена она именно на оптимизацию этого момента. Сейчас таких проблем нет и можно было бы говорить о вероятностях вместо уровней значимости, если бы не традиция. Может и есть книжки по статистике, в которых это объясняется, но я таких не встречал.

2. Метод максимального правдоподобия (вероятно, самый часто используемый во всей статистике) тоже вызывает недоумение, что легко объяснимо. Этот метод фактически основывается на предельном случае формулы Байеса, а полный вариант соответствующей теории называется уже статистической идентификацией и далеко выходит за пределы известных курсов. И снова соответствующие комментарии почти никогда не прсачиваются в учебники.

Так что статистика остается одной из самых эзотерических областей математики. В ней сохраняется представительный набор сведений, передаваемых только устно от учителя к ученику.

Date: 2008-03-08 08:59 pm (UTC)
From: [identity profile] ltwood.livejournal.com
прсачиваются -> просачиваются

(no subject)

From: [identity profile] kondybas.livejournal.com - Date: 2008-03-19 02:16 pm (UTC) - Expand

(no subject)

From: [identity profile] ltwood.livejournal.com - Date: 2008-03-22 10:58 am (UTC) - Expand

Date: 2008-03-10 11:47 am (UTC)
From: [identity profile] ex-andrey-t.livejournal.com
Тервер и матстат больше нужны игроку в покер, нежели программисту )
From: [identity profile] dimiii.livejournal.com
И вдвойне приятнее слушать из уст такой симпатичной особы:
http://videolectures.net/bootcamp07_keller_bss/
From: [identity profile] avva.livejournal.com
Интересно, спасибо.

December 2025

S M T W T F S
  123 4 56
78 9 10 11 1213
1415 1617181920
21 22 23 24 2526 27
28293031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 29th, 2025 05:53 am
Powered by Dreamwidth Studios