теряем хватку типа
Oct. 19th, 2007 03:41 amАлександр Садовский разразился объяснением о мотивах создания тех или иных сервисов "Яндекса"
...А вот в улучшении поиска, я уверен, Google пристально изучал опыт Яндекса и многое заимствовал. Не случайно после визита Брина и Пейджа в Яндекс в поиске Google появились подсказки (например, предложение поискать без кавычек, когда нашлось мало), чуть позже -- морфология, параллельные поиски, исправления неправильной раскладки в запросе и т.д. Google теряет хватку и смирился с ролью отстающего? О, да.
Это сильно сказано.
Update: Я неправ, эти слова сказаны с иронией, и они как бы высмеивают такого рода обвинения в обратную сторону, в адрес Яндекса. См. эту ветку, там подробное объяснение. Прошу прощения.
no subject
Date: 2007-10-19 08:14 pm (UTC)no subject
Date: 2007-10-19 08:30 pm (UTC)Итак, почему из какал получилась какая? Очень просто, это результат омонимия причастие какая и вопросительного местоимения какой. Возникает вопрос, почему у Яндекса наверх не всплыли ссылки (как в Гугле) со словом какал? Начнем с того, что почему у Гугла не всплыли. Возможно, потому что причастия не склеиваются с глаголом. Хорошо ли это? Ответ может дать только данные по recall/precsion (которые кстати весьма субъективны). Или склеиваются, но с меньшим весом. Вернемся к Яндексу. Я знаю, что точные вхождения в Яндексе сейчас приоритезируются (имеют больший вес). Но при вычислении общего веса документа по какому-то варианту TF * IDF суммируются разные факторы. Например, количество слов "какая" или ссылочный ранг документа могут "пересиливать" "премию" за точное вхождение. Может быть, Яндекс не различает точные вхождения и вхождения, как спряжение, склонение, не переходящие границы частей речи. Может это и недостаток, который в данном случае дает такой нехороший результат. Зато, может, в другом случае ранжируется лучше.
Мы подобных тонкостей не знаем, но зато точно знаем, что это эмпирические алгоритмы, которые не могу работать правильно "всегда". Зато там всегда есть компромисс. И это компромисс измеряется (оценивается) с помощью пары значений точность/полнота (recall/precision). И у Гугла точно такая же проблем.
Но поскольку никто не сравнивает recall/precision (за исключением простеньких тестов Ашманова) для разных поисковых машин Рунета, а приводит отдельные "фекальные" примеры, то я склонен считать подобные высказывание полной профанацией.
no subject
Date: 2007-10-19 08:45 pm (UTC)Ну и какой садовский не в suggestions, а в результатах поиска. Что делает поиск совершенно бесполезным. Странно, что Вы разницы не понимаете.
PS: и отвелекитесь Вы уж от своих фрезерных станков.
no subject
Date: 2007-10-19 10:03 pm (UTC)no subject
Date: 2007-10-19 11:31 pm (UTC)no subject
Date: 2007-10-19 11:33 pm (UTC)no subject
Date: 2007-10-19 11:39 pm (UTC)no subject
Date: 2007-10-19 11:44 pm (UTC)no subject
Date: 2007-10-20 12:40 am (UTC)Даже если на минутку с Вами согласиться, что это была ошибка спеллера, она _никак_ не повлияла на качество результатов поиска.
Как бы Вам попроще объяснить. Представьте, что навигашка у Вас в машине:
а) Не сможет найти город Taundex, и спросит не хотите ли Вы поехать в c. Яндекс
б) Построит Вам маршрут в д. Какал, но проехав 300 км Вы окажетесь в одной из каких-то случайных деревень.
а) и б) для Вас одинаковы?
BTW, Вы слишком быстро от предмета разговора переходите к рассуждениям во что верит или где работает собеседник. Причём рассуждениям ошибочным. Not cool.
Фрезерные станки наше все - каменный молоток - оружие к
Date: 2007-10-20 05:36 am (UTC)Чтобы приводить примеры, лично Вас убеждающие, нужно понимать, что, собственно, Вы считаете ошибочным или нет.
При таком подходе к делу, мне приходится давать ответ в духе: если Вас не устраивает A, то вот Вам пример B, если не устраивает C, то вот пример D. Это ж точно не cool. При всем, при том, миллион или даже миллиард мусорных ответов по одному конкретному, но не кому не нужному запросу, это не показатель качества. Качество измеряется с помощью оценок recall/precision на большом массиве данных. А примеры, когда один поисковик слажал в одном месте, а другой в другом - ни о чем ни говорят, потому как эмпирика никогда не дает точный ответ. И используются обычно маркетологами, продавцами и журналистами, а не техническими работниками, где бы они не работали.
Такой вот, если хотите, научный подход, общепринятый по части recall/precision. Такие вот фрезерные станки, без которых не выточить деталь. А если вот Вы думаете, что изобрели новый подход к делу, скажем "теорию наиболее смешного, нелепого и бесполезного примера", отличную от общепринятого (вдруг Вы новый Галау, которого не признали при жизни), добро пожаловать опубликуйте его. Согласится с Вами научное общественность, будем осваивать Ваши новые методики, а пока они идут врозь, как с общепринятыми методиками, так и с лично моим пониманием предмета.
Re: Фрезерные станки наше все - каменный молоток - оружие
Date: 2007-10-20 01:12 pm (UTC)Ну и в тему
Date: 2007-10-19 11:21 pm (UTC)А, главное, если бы не Ваш пафос, я был даже объяснил, почему в данном случае так происходит.
Re: Ну и в тему
Date: 2007-10-19 11:35 pm (UTC)no subject
Date: 2007-10-20 07:18 am (UTC)ИДФ тут не причем
Ты же не в поиске работал, так что не хуй пиздить
Тут дело в транзитивной обработке синонимов
В гугле этого делать не умеют и разворачивают синонимы только когда путь в графе синонимов равен 1.
В нормальных же поисковиках синонимы разворачивают почти неограниченно
Это может немного уменьшает precision, но очень сильно повышает recall. Поэтому и получается, что длина выдачи по 10000 там где у гугло 10. Пользователям нравится
Спорите-спорите, а ведь в суть дела не въезжаете, любез
Date: 2007-10-21 08:09 pm (UTC)Яндекс просто сводит "какать" в запросе к основе. А на этапе индексации он сводить "какая" к двум основам (ну или точнее номерам лексем) - одна от глагола, вторая от местоименного прилагательного. Естественно, потом при обработке запроса он вынужденно находит идентификатор глагольной лексемы в индексе.
В запросе - глагол, в индексе - омонимия.
Проблема не в том, что Яндекс что-то там неправильно спрягает.
Проблема в том, что он не разрешает омонимию на этапе индексации.
Гугл этого тоже не делает, ведь он вообще не морфологизует при индексации. Гугл просто расширяет запрос косвенными словоформами, но он не всегда вообще разрешает расширение запроса, он это делает аккуратно, смотрит статистику и т.п. Херня же в основном происходит при попытках заменять "статистически".
Что МОГ бЫ делать Яндекс - минимально учитывать ближайший контекст при индексации, для разрешения омонимии. Скажем, продолжать вписывать два номера лексемы, если написано "какая-то" - это очевидная глупость.
Но тут может быть ошибка зашита в код сильно раньше - когда слова распилены по дефису и отмотать назад нельзя, этого я не знаю.
Ну, а слепая вера гуглоидов в статистику играет с ними плохие шутки, в том числе в их машинном переводчике, который только с утра нужно читать полчасика, чтобы обсепечить себе хорошее настроение на весь день.
Re: Спорите-спорите, а ведь в суть дела не въезжаете, люб
Date: 2007-10-21 11:53 pm (UTC)В пользу этой гипотезы говорит тот факт, что в первом сниппете он выделяет слово "какать". Таким образом, он, скорее всего спрягает, но не переходит границы части речи.
Есть еще гипотеза, что, если даже Гугл и делает из какать -> какая, то документы со словом какая ранжируются с понижающим весом и не "всплывают", пардон за некрасивую аналогию, в данном конкретном случае наверх.
При этом, я совсем не верю в гипотезу, что Гугл как-то действительно разрешает омонимию для русского языка. Слишком уж Рунет малобюджетная область, чтобы туда сильно вкаладываться.
no subject
Date: 2007-10-21 08:54 pm (UTC)Загадочная русская душа....