частотный словарь
Apr. 26th, 2003 03:21 pm25 самых частых слов русского языка, в порядке убывания частоты: и, в, не, он, на, я, что, тот, быть, с, а, весь, это, как, она, по, но, они, к, у, ты, из, мы, за, вы.
25 самых частых существительных, в порядке убывания частоты: человек, год, время, рука, дело, раз, глаз, жизнь, день, голова, друг, дом, слово, место, лицо, сторона, нога, дверь, работа, земля, конец, час, голос, город, вода.
25 самых частых глаголов, в порядке убывания частоты: сказать, мочь, говорить, знать, стать, есть, хотеть, видеть, идти, стоять, думать, спросить, жить, смотреть, сидеть, понять, иметь, делать, взять, сделать, понимать, казаться, давать, пойти, увидеть.
Источник: Частотный словарь русского языка, файл 5000lemma.num.zip (там есть не только этот файл, но и множество другой информации, см. страницу).
25 самых частых существительных, в порядке убывания частоты: человек, год, время, рука, дело, раз, глаз, жизнь, день, голова, друг, дом, слово, место, лицо, сторона, нога, дверь, работа, земля, конец, час, голос, город, вода.
25 самых частых глаголов, в порядке убывания частоты: сказать, мочь, говорить, знать, стать, есть, хотеть, видеть, идти, стоять, думать, спросить, жить, смотреть, сидеть, понять, иметь, делать, взять, сделать, понимать, казаться, давать, пойти, увидеть.
Источник: Частотный словарь русского языка, файл 5000lemma.num.zip (там есть не только этот файл, но и множество другой информации, см. страницу).
no subject
Date: 2003-04-26 05:53 am (UTC)а это вызывает сомнения и в релевантности остальных подсчётов. нельзя, видимо, обобщённую частотную картину считать-то, надо выделять какие-то группы: беллетристика отдельно, философский, скажем, текст отдельно, а устная речь отдельно.
Re:
Date: 2003-04-26 05:59 am (UTC)no subject
Date: 2003-04-26 06:43 am (UTC)http://esl.about.com/library/vocabulary/bl1000_list1.htm
(+ ссылки внизу страницы)
no subject
Date: 2003-04-26 07:05 am (UTC)no subject
Date: 2003-04-26 07:24 am (UTC)no subject
Date: 2003-04-26 11:23 am (UTC)Честно, ожидал других результатов:
Результат:
И, в, не, на, что, я, с, а, как, по, это, все, но, у, так, для, меня, из, то, к, мне, за, от, livejournal, friend, он, the, о, если, его, вот,
еще, было, же, бы, просто, только, или, этот, уже, до, мы, когда, есть, очень, вы, их, кто, to.
(полностью с цифрами, txt - 260kb (http://webcenter.ru/~antonium/fiffriends.ansi.av2.txt))
Война и мир
И, в, не, что, он, на, с, как, его, к, я, все, но, она, это, было, то, сказал, так, по, о, из, а, же, за, от, ему, ее, только, был, бы, Пьер, князь, для, у, еще, когда, вы, чтобы, они, того, была, него, теперь, были, ни, да, ты, себя.
(полностью с цифрами, zip - 195kb (http://webcenter.ru/~antonium/warandpeace1.txt.av2.zip))
Заодно выяснилось, что для фифа намного интереснее читать список самые редких слов :)
no subject
Date: 2003-04-26 12:30 pm (UTC)цитируя Толстого...
value=0: 8
value=1: 8
value=10: 8
value=2: 8
value=3: 8
value=4: 8
value=5: 8
value=6: 8
value=7: 8
value=8: 8
value=9: 8
value=send: 8
=)
Re:
Date: 2003-04-26 02:30 pm (UTC)Более высокое место для "быть" может объясняться более точным учётом всей его парадигмы, включая "есть" (с другой стороны, может объясняться и неправильным подсчётом есть=to eat).
Кстати о корпусе текстов
Date: 2003-04-29 03:16 am (UTC)слово "заизолировать" встречается, оказывается, в русском языке чуть не в три раза чаще, чем слово "трусы".
Re: Кстати о корпусе текстов
Date: 2003-04-29 03:18 am (UTC)no subject
в общем и целом совпадают. в интернет-сотне меньше "конкретных" вещей - частей тела, например. естественным образом есть "компьютерные", "деловые", "новостные" слова, которых нет в обычной сотне - программа, файл, бизнес, реклама, услуга, новости, сообщение, политика, выборы, новости, газета. Те немногие из них, что есть и в "обычной" сотне здесь стоят в таблице гораздо выше. То же с 'Москвой' и 'Россией'.
По результатам судя, явный перевес у новостного-делового корпуса. Интересно, что получилось бы при поиске по форумам...
полный список в порядке убывания:
какого-то слова из первой десятки здесь нет - совпадает по форме с глаголом. уже не помню, какое слово
человек
год
день
новости
дело
начало
мир
сообщение
время
ребенок
россия
работа
система
вопрос
компания
москва
страница
ответ
область
программа
интернет
город
автор
книга
место
имя
жизнь
раз
тело
страна
слово
реклама
услуга
случай
связь
политика
дом
друг
центр
материал
товар
техника
вода
игра
часть
группа
помощь
проблема
сила
сеть
деньги
результат
закон
номер
средство
сервер
история
выборы
фирма
магазин
дорога
рука
душа
уровень
бизнес
сторона
компьютер
час
документ
число
язык
газета
форма
месяц
конец
текст
музыка
женщина
служба
качество
общество
власть
метод
путь
неделя
счет
образ
машина
земля
файл
школа
процесс
спорт
глаз
порядок
ряд
наука
животное
журнал
голова
no subject
Date: 2003-07-12 08:55 am (UTC)