avva: (Default)
[personal profile] avva
25 самых частых слов русского языка, в порядке убывания частоты: и, в, не, он, на, я, что, тот, быть, с, а, весь, это, как, она, по, но, они, к, у, ты, из, мы, за, вы.

25 самых частых существительных, в порядке убывания частоты: человек, год, время, рука, дело, раз, глаз, жизнь, день, голова, друг, дом, слово, место, лицо, сторона, нога, дверь, работа, земля, конец, час, голос, город, вода.

25 самых частых глаголов, в порядке убывания частоты: сказать, мочь, говорить, знать, стать, есть, хотеть, видеть, идти, стоять, думать, спросить, жить, смотреть, сидеть, понять, иметь, делать, взять, сделать, понимать, казаться, давать, пойти, увидеть.

Источник: Частотный словарь русского языка, файл 5000lemma.num.zip (там есть не только этот файл, но и множество другой информации, см. страницу).

Date: 2003-04-26 05:53 am (UTC)
From: [identity profile] mama-ari.livejournal.com
очень мне это "сказать" не нравится. очевидно же, что оно только в письменном, и даже только в литературном тексте часто употребимое (ну конечно, "..., - сказал Х"). а в устной речи или в неповествовательном тексте - кто и зачем говорит этот глагол? ("ну, я ему сказал.." - не более частая фраза, чем любая другая, как и ситуация пересказа диалога).

а это вызывает сомнения и в релевантности остальных подсчётов. нельзя, видимо, обобщённую частотную картину считать-то, надо выделять какие-то группы: беллетристика отдельно, философский, скажем, текст отдельно, а устная речь отдельно.

Re:

Date: 2003-04-26 05:59 am (UTC)
From: [identity profile] avva.livejournal.com
Да, конечно. Там есть на странице всякие сведения о том, как они корпус собирали, по которому подсчёты велись. Корпус всегда надо иметь в виду, невозможно составить "просто" частотный словарь языка.

Date: 2003-04-26 06:43 am (UTC)
From: [identity profile] malaya-zemlya.livejournal.com
Для сравнения, 1000 самых распространенных слов английского (американского, судя по всему):
http://esl.about.com/library/vocabulary/bl1000_list1.htm
(+ ссылки внизу страницы)

Date: 2003-04-26 07:05 am (UTC)
From: [identity profile] greenadine.livejournal.com
Вот бы ещё кто такую работу проделал для устного языка... Неоценимая была бы информация, в частности, для изучения русского как иностранного.

Date: 2003-04-26 07:24 am (UTC)
stas: (Default)
From: [personal profile] stas
Странно, что "он" оказалось выше, чем "я". В словаре 77-го года порядок такой (со слова автора книги "Звуки и знаки" А. Кондратова) - в, и, не, на, я. Причём первый глагол там появляется лишь на четвертом десятке и это глагол "мочь" - а тут "быть" - девятый. Интересно, почему?

Date: 2003-04-26 11:23 am (UTC)
From: [identity profile] anton.livejournal.com
Прочитав этот ваш постинг, не удержался и построил для частотную таблицу для "Войны и мира" и для последних 1000 записей ленты [livejournal.com profile] fif.
Честно, ожидал других результатов:

Результат:
[livejournal.com profile] fif
И, в, не, на, что, я, с, а, как, по, это, все, но, у, так, для, меня, из, то, к, мне, за, от, livejournal, friend, он, the, о, если, его, вот,
еще, было, же, бы, просто, только, или, этот, уже, до, мы, когда, есть, очень, вы, их, кто, to.
(полностью с цифрами, txt - 260kb (http://webcenter.ru/~antonium/fiffriends.ansi.av2.txt))


Война и мир
И, в, не, что, он, на, с, как, его, к, я, все, но, она, это, было, то, сказал, так, по, о, из, а, же, за, от, ему, ее, только, был, бы, Пьер, князь, для, у, еще, когда, вы, чтобы, они, того, была, него, теперь, были, ни, да, ты, себя.
(полностью с цифрами, zip - 195kb (http://webcenter.ru/~antonium/warandpeace1.txt.av2.zip))

Заодно выяснилось, что для фифа намного интереснее читать список самые редких слов :)

Date: 2003-04-26 12:30 pm (UTC)
From: [identity profile] bezukh.livejournal.com
А еще забавнее, что слово "он" встречается чаще, чем слово "она". То-то феминистки кусают себе локти! :-)

цитируя Толстого...

Date: 2003-04-26 02:24 pm (UTC)
From: [identity profile] krace.livejournal.com
type=hidden: 8
value=0: 8
value=1: 8
value=10: 8
value=2: 8
value=3: 8
value=4: 8
value=5: 8
value=6: 8
value=7: 8
value=8: 8
value=9: 8
value=send: 8

=)

Re:

Date: 2003-04-26 02:30 pm (UTC)
From: [identity profile] avva.livejournal.com
Надо ещё на цифры, конечно, смотреть. Может оказаться, что разница в процентах между этими местами незначительна.

Более высокое место для "быть" может объясняться более точным учётом всей его парадигмы, включая "есть" (с другой стороны, может объясняться и неправильным подсчётом есть=to eat).

Кстати о корпусе текстов

Date: 2003-04-29 03:16 am (UTC)
From: [identity profile] chingachguk.livejournal.com
Замечательный факт о частотном словаре русского языка:
слово "заизолировать" встречается, оказывается, в русском языке чуть не в три раза чаще, чем слово "трусы".
From: [identity profile] avva.livejournal.com
Отличный корпус, действительно. Спасибо ;)

Date: 2003-05-05 07:52 am (UTC)
From: [identity profile] shufel.livejournal.com
когда-то составлял вручную список сотни существительных в русской сети чтоб сравнить с первой сотней из частотного словаря.
в общем и целом совпадают. в интернет-сотне меньше "конкретных" вещей - частей тела, например. естественным образом есть "компьютерные", "деловые", "новостные" слова, которых нет в обычной сотне - программа, файл, бизнес, реклама, услуга, новости, сообщение, политика, выборы, новости, газета. Те немногие из них, что есть и в "обычной" сотне здесь стоят в таблице гораздо выше. То же с 'Москвой' и 'Россией'.
По результатам судя, явный перевес у новостного-делового корпуса. Интересно, что получилось бы при поиске по форумам...


полный список в порядке убывания:
какого-то слова из первой десятки здесь нет - совпадает по форме с глаголом. уже не помню, какое слово


человек
год
день
новости
дело
начало
мир
сообщение
время
ребенок
россия
работа
система
вопрос
компания
москва
страница
ответ
область
программа
интернет
город
автор
книга
место
имя
жизнь
раз
тело
страна
слово
реклама
услуга
случай
связь
политика
дом
друг
центр
материал
товар
техника
вода
игра
часть
группа
помощь
проблема
сила
сеть
деньги
результат
закон
номер
средство
сервер
история
выборы
фирма
магазин
дорога
рука
душа
уровень
бизнес
сторона
компьютер
час
документ
число
язык
газета
форма
месяц
конец
текст
музыка
женщина
служба
качество
общество
власть
метод
путь
неделя
счет
образ
машина
земля
файл
школа
процесс
спорт
глаз
порядок
ряд
наука
животное
журнал
голова

Date: 2003-07-12 08:55 am (UTC)
From: (Anonymous)
А у Бродского предлог "в" более частотный, чем союз "и". Потому что "разглядывает" предметы поодиночке, воспринимая их порознь, а не как часть некоей группы.

December 2025

S M T W T F S
  123 4 56
78 9 10 11 1213
1415 1617181920
21 22 23 24 2526 27
28293031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 30th, 2025 10:43 am
Powered by Dreamwidth Studios