avva | отчёт о проделанной работе

Начал готовить конкорданс всей поэзии Пушкина. Для этого лучше всего подходит, видимо, 10-томник 62-го года, выложенный в РВБ. Лучше всего - потому, что они проделали действительно серьезную работу по логической разметке текста, так что например программным образом выделить названия стихов и каждую строку отдельно (и отличить эти строки от эпиграфов, комментариев, имен персонажей в драме и чего угодно ещё) очень легко. Кроме того, очень умное устройство директорий, в которых файлы лежат, можно легко исключить из поиска, например, варианты и ранние редакции. Молодцы РВБ!

Написал им письмо с просьбой дать мне исходные файлы в XML, а сегодня получил ответ от

e_g: оказывается, у них так и лежит всё в XHTML, так что я могу в принципе всё это сам скачать автоматом. Но не совсем ясно, как устроена навигация в больших произведениях и проч. мелочи, так что лучше всё-таки пусть будет точная копия с сервера. Заодно надо пойти немного побольше про XHTML прочесть, а то отстаю от жизни.

Ну хорошо, самый тривиальный вариант - просто индекс всех возможных словоформ, и на каждую - список всех строк, где она встречается, с линками на сами стихи обратно. Это легко, это я на перле с пол-пинка нашкрябаю. Но все равно это надо сделать, чтобы что-то было, какой-то базис, который можно пощупать.

Вопрос в том, что дальше? Quo vadis? Можно двигаться в сторону динамического поиска: скажем, чтобы можно было искать не только слово "цветы", но также все слова на -ты, а ещё фразы типа *ые цве*, и так далее. Но стоит ли? Поиск по окончанию можно делать, не привлекая динамический поиск по всем текстам: просто искать внутри уже готового индекса в (статическом, хранящемся на диске) конкордансе словоформ.
Стоит ли ради поиска словосочетаний всё это затеивать? Хочется to Keep It Simple, Stupid, в принципе.

Ещё одно направление - идентификация словоформ одной лексемы, т.е. "цветы" и "цветов" собрать в одну запись вместо двух отдельных. Тут часть можно автоматизировать, но всё равно много руками придется стараться. В принципе это неплохо иметь, вопрос, тратить ли на это сейчас время. Сюда же ещё одна фича возможная - развести по разным записям омонимы, а, возможно, даже и функционально разные значения одного слова (а-ля Словарь Языка Пушкина четырёхтомный). Тоже неясно, так ли это надо.

Наконец, самое интересное (для меня по крайней мере) - внести больше метрической/ритмической информации и усилить возможности поиска, например: дай мне все строки со словом "цветы", но только в четырёхстопном ямбе. Это метрическая разметка. Для этого надо либо вне самих XHTML-ных текстов вести дополнительные индексы, либо вставлять новую маркировку в базисные тексты - второй путь явно лучше, по-моему. Как именно маркировать? Наверное, один таг на каждое стихотворение (поэму, сказку, драму), определяющий его силлаботонический размер. Да, но стих бывает написан плавающим размером, или внутри его могут быть вставки другого размера. Тогда, наверное, надо предусмотреть отдельный построчный таг, который отменяет "дифолтный" таг всего произведения, и определяет размер данной строки.

Здесь же рядом плавает вопрос о рифмах. Как раз первоначальный бумажный конкорданс Шо проистекал из его исследований рифм Пушкина, поэтому у него в каждой строке было размечено последнее ударение, и на каждый стих была статистика: сколько мужских рифм, сколько женских, сколько нерифмованных строк и т.п. Это можно повторить, но много ручной работы.

Что ещё? В очень далеком идеале - ритмическая разметка, т.е. сами ударения как они на самом деле выпадают в строке. Тут надо очень всё тщательно обдумать, т.к. есть серьёзные трудности как с методом маркировки, так и с теоретическими проблемами вроде шаткости некоторых ударений в служебных словах и проч. Но если это сделать правильно, то это будет чрезвычайно удобная вещь для изучения ритмики. Хотелось бы до этого добраться.

Данная запись - одновременно памятка мне на будущее, и вопрос к тем героям, кому это интересно и кто дочитал до конца: что ещё, по-вашему можно сделать и/или улучшить?