теряем хватку типа
Oct. 19th, 2007 03:41 amАлександр Садовский разразился объяснением о мотивах создания тех или иных сервисов "Яндекса"
...А вот в улучшении поиска, я уверен, Google пристально изучал опыт Яндекса и многое заимствовал. Не случайно после визита Брина и Пейджа в Яндекс в поиске Google появились подсказки (например, предложение поискать без кавычек, когда нашлось мало), чуть позже -- морфология, параллельные поиски, исправления неправильной раскладки в запросе и т.д. Google теряет хватку и смирился с ролью отстающего? О, да.
Это сильно сказано.
Update: Я неправ, эти слова сказаны с иронией, и они как бы высмеивают такого рода обвинения в обратную сторону, в адрес Яндекса. См. эту ветку, там подробное объяснение. Прошу прощения.
Спорите-спорите, а ведь в суть дела не въезжаете, любез
Date: 2007-10-21 08:09 pm (UTC)Яндекс просто сводит "какать" в запросе к основе. А на этапе индексации он сводить "какая" к двум основам (ну или точнее номерам лексем) - одна от глагола, вторая от местоименного прилагательного. Естественно, потом при обработке запроса он вынужденно находит идентификатор глагольной лексемы в индексе.
В запросе - глагол, в индексе - омонимия.
Проблема не в том, что Яндекс что-то там неправильно спрягает.
Проблема в том, что он не разрешает омонимию на этапе индексации.
Гугл этого тоже не делает, ведь он вообще не морфологизует при индексации. Гугл просто расширяет запрос косвенными словоформами, но он не всегда вообще разрешает расширение запроса, он это делает аккуратно, смотрит статистику и т.п. Херня же в основном происходит при попытках заменять "статистически".
Что МОГ бЫ делать Яндекс - минимально учитывать ближайший контекст при индексации, для разрешения омонимии. Скажем, продолжать вписывать два номера лексемы, если написано "какая-то" - это очевидная глупость.
Но тут может быть ошибка зашита в код сильно раньше - когда слова распилены по дефису и отмотать назад нельзя, этого я не знаю.
Ну, а слепая вера гуглоидов в статистику играет с ними плохие шутки, в том числе в их машинном переводчике, который только с утра нужно читать полчасика, чтобы обсепечить себе хорошее настроение на весь день.
Re: Спорите-спорите, а ведь в суть дела не въезжаете, люб
Date: 2007-10-21 11:53 pm (UTC)В пользу этой гипотезы говорит тот факт, что в первом сниппете он выделяет слово "какать". Таким образом, он, скорее всего спрягает, но не переходит границы части речи.
Есть еще гипотеза, что, если даже Гугл и делает из какать -> какая, то документы со словом какая ранжируются с понижающим весом и не "всплывают", пардон за некрасивую аналогию, в данном конкретном случае наверх.
При этом, я совсем не верю в гипотезу, что Гугл как-то действительно разрешает омонимию для русского языка. Слишком уж Рунет малобюджетная область, чтобы туда сильно вкаладываться.