avva: (Default)
[personal profile] avva
Александр Садовский разразился объяснением о мотивах создания тех или иных сервисов "Яндекса"

...А вот в улучшении поиска, я уверен, Google пристально изучал опыт Яндекса и многое заимствовал. Не случайно после визита Брина и Пейджа в Яндекс в поиске Google появились подсказки (например, предложение поискать без кавычек, когда нашлось мало), чуть позже -- морфология, параллельные поиски, исправления неправильной раскладки в запросе и т.д. Google теряет хватку и смирился с ролью отстающего? О, да.

Это сильно сказано.

Update: Я неправ, эти слова сказаны с иронией, и они как бы высмеивают такого рода обвинения в обратную сторону, в адрес Яндекса. См. эту ветку, там подробное объяснение. Прошу прощения.
From: (Anonymous)
Яндекс не делает трансформации "какой-какая-какал". Он не перепрыгивает два звена, а только одно , внутри части речи (раньше, кстати, перепрыгивал, года три назад). То есть от "какать" к "какой" перейти Яндексом не удастся.

Яндекс просто сводит "какать" в запросе к основе. А на этапе индексации он сводить "какая" к двум основам (ну или точнее номерам лексем) - одна от глагола, вторая от местоименного прилагательного. Естественно, потом при обработке запроса он вынужденно находит идентификатор глагольной лексемы в индексе.
В запросе - глагол, в индексе - омонимия.

Проблема не в том, что Яндекс что-то там неправильно спрягает.
Проблема в том, что он не разрешает омонимию на этапе индексации.

Гугл этого тоже не делает, ведь он вообще не морфологизует при индексации. Гугл просто расширяет запрос косвенными словоформами, но он не всегда вообще разрешает расширение запроса, он это делает аккуратно, смотрит статистику и т.п. Херня же в основном происходит при попытках заменять "статистически".

Что МОГ бЫ делать Яндекс - минимально учитывать ближайший контекст при индексации, для разрешения омонимии. Скажем, продолжать вписывать два номера лексемы, если написано "какая-то" - это очевидная глупость.
Но тут может быть ошибка зашита в код сильно раньше - когда слова распилены по дефису и отмотать назад нельзя, этого я не знаю.

Ну, а слепая вера гуглоидов в статистику играет с ними плохие шутки, в том числе в их машинном переводчике, который только с утра нужно читать полчасика, чтобы обсепечить себе хорошее настроение на весь день.
From: [identity profile] itman.livejournal.com
А что Вы с гоблинами разговариваете. Это я виноват. Он чушь нес, а я ему отвечал. По поводу расширения запроса оно еще может по-разному происходить. Например, Гугл только спрягает глагол какать, поэтому из него никогда не получается причастие какая, омоним вопросительного слова какая.
В пользу этой гипотезы говорит тот факт, что в первом сниппете он выделяет слово "какать". Таким образом, он, скорее всего спрягает, но не переходит границы части речи.
Есть еще гипотеза, что, если даже Гугл и делает из какать -> какая, то документы со словом какая ранжируются с понижающим весом и не "всплывают", пардон за некрасивую аналогию, в данном конкретном случае наверх.
При этом, я совсем не верю в гипотезу, что Гугл как-то действительно разрешает омонимию для русского языка. Слишком уж Рунет малобюджетная область, чтобы туда сильно вкаладываться.

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10111213 14
15 16 17 18192021
2223 2425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 24th, 2026 02:43 pm
Powered by Dreamwidth Studios