avva: (Default)
[personal profile] avva
Александр Садовский разразился объяснением о мотивах создания тех или иных сервисов "Яндекса"

...А вот в улучшении поиска, я уверен, Google пристально изучал опыт Яндекса и многое заимствовал. Не случайно после визита Брина и Пейджа в Яндекс в поиске Google появились подсказки (например, предложение поискать без кавычек, когда нашлось мало), чуть позже -- морфология, параллельные поиски, исправления неправильной раскладки в запросе и т.д. Google теряет хватку и смирился с ролью отстающего? О, да.

Это сильно сказано.

Update: Я неправ, эти слова сказаны с иронией, и они как бы высмеивают такого рода обвинения в обратную сторону, в адрес Яндекса. См. эту ветку, там подробное объяснение. Прошу прощения.

Date: 2007-10-19 08:14 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Гугл этого не делает (http://www.google.com/search?q=saundex). А что же Вы про "жжет постоянно" не вспоминаете?

Date: 2007-10-19 08:30 pm (UTC)
From: [identity profile] itman.livejournal.com
Опять двацать пять он это делал (сходите уж, наконец, по ссылкам в посте про жжот постоянно), и делает сейчас из taundex. (http://www.google.ru/search?complete=1&hl=ru&q=taundex&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=) Причем, Гугль.ру. Но на коме таких примеров тоже хватает. Но это еще не повод говорить, что спеллер - кал. Ниже я объясню почему. После объяснения на тему того, почему Яндексовый "какал" не является ущербным. Просто так. Чтобы еще один человек наконец запомнил два слова recall/precision.
Итак, почему из какал получилась какая? Очень просто, это результат омонимия причастие какая и вопросительного местоимения какой. Возникает вопрос, почему у Яндекса наверх не всплыли ссылки (как в Гугле) со словом какал? Начнем с того, что почему у Гугла не всплыли. Возможно, потому что причастия не склеиваются с глаголом. Хорошо ли это? Ответ может дать только данные по recall/precsion (которые кстати весьма субъективны). Или склеиваются, но с меньшим весом. Вернемся к Яндексу. Я знаю, что точные вхождения в Яндексе сейчас приоритезируются (имеют больший вес). Но при вычислении общего веса документа по какому-то варианту TF * IDF суммируются разные факторы. Например, количество слов "какая" или ссылочный ранг документа могут "пересиливать" "премию" за точное вхождение. Может быть, Яндекс не различает точные вхождения и вхождения, как спряжение, склонение, не переходящие границы частей речи. Может это и недостаток, который в данном случае дает такой нехороший результат. Зато, может, в другом случае ранжируется лучше.
Мы подобных тонкостей не знаем, но зато точно знаем, что это эмпирические алгоритмы, которые не могу работать правильно "всегда". Зато там всегда есть компромисс. И это компромисс измеряется (оценивается) с помощью пары значений точность/полнота (recall/precision). И у Гугла точно такая же проблем.
Но поскольку никто не сравнивает recall/precision (за исключением простеньких тестов Ашманова) для разных поисковых машин Рунета, а приводит отдельные "фекальные" примеры, то я склонен считать подобные высказывание полной профанацией.

Date: 2007-10-19 08:45 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Вы внимательнее прочитайте, что Вам ответили в пункте 2.
Ну и какой садовский не в suggestions, а в результатах поиска. Что делает поиск совершенно бесполезным. Странно, что Вы разницы не понимаете.

PS: и отвелекитесь Вы уж от своих фрезерных станков.

Date: 2007-10-19 10:03 pm (UTC)
From: [identity profile] itman.livejournal.com
Один привел пример неудачной работы поиска, другой привел пример неудачной работы алгоритма спеллера. И все. А торможение наблюдается со стороны человека, который считает, что пример должен быть обязательно в поиске. Я могу пример привести с поиском по длинным запросам, только надо долго вспоминать и пробовать времени - нет. Опять-таки, ключевые слова recall/precision. Странно, что люди, работающие в Гугле этого не понимают. Это просто фантастика какая-то.

Date: 2007-10-19 11:31 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Странно, что Вы так и не поняли, что это не является примером плохой работы спеллера. Вроде довольно простыми словами все рассказали...

Date: 2007-10-19 11:33 pm (UTC)
From: [identity profile] itman.livejournal.com
Это мне простыми словами навешали лапшу на уши, не знаю, что я активно интересуюсь данной проблемой. На самом деле то же объяснение оправдывает какал: ну там один вес пересилил другой. В эмпирике все так. Иногда можно улучшить, иногда нет. В случае спеллеров - улучшить можно. А как - кумекайте сами. Литературы на эту тему написаны горы :-)

Date: 2007-10-19 11:39 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Я же говорю, отвлекитесь Вы от своих фрез. И посмотрите на результат глазами пользователя. Гугловский, даже для Ваших трюндексов - осмысленный, в отличии от. Нашли бы пример поубедительней, и вопросов бы не было.

Date: 2007-10-19 11:44 pm (UTC)
From: [identity profile] itman.livejournal.com
Вы определитесь уже, что вам не нравится: то, что я "придираюсь" к работе спеллера, или то, что спеллер является не слишком важной частью системы. Пример с saundex, кстати, возник из жизни, я его специально не придумывал. Уверен, что есть еще много таких. Если Вам так нравится верить, что их нет - вера дело святое, спорить не буду. Со своей стороны, хочу заметить, что запрос "Садовский какал" явно не является популярным. (гляньте, что ли директ для примера) Нужно ли говорить, что бессмысленно спорить о качестве поиска на примере запросов, которые возникают раз в 1000 лет?

Date: 2007-10-20 12:40 am (UTC)
From: [identity profile] vvs2002.livejournal.com
Вам запрос Гуглу про saundex возвращал 30 млн мусорных ответов про Яндекс?
Даже если на минутку с Вами согласиться, что это была ошибка спеллера, она _никак_ не повлияла на качество результатов поиска.

Как бы Вам попроще объяснить. Представьте, что навигашка у Вас в машине:
а) Не сможет найти город Taundex, и спросит не хотите ли Вы поехать в c. Яндекс
б) Построит Вам маршрут в д. Какал, но проехав 300 км Вы окажетесь в одной из каких-то случайных деревень.

а) и б) для Вас одинаковы?

BTW, Вы слишком быстро от предмета разговора переходите к рассуждениям во что верит или где работает собеседник. Причём рассуждениям ошибочным. Not cool.
From: [identity profile] itman.livejournal.com
> Вы слишком быстро от предмета разговора переходите к рассуждениям во что верит или где работает собеседник. Причём рассуждениям ошибочным.
Чтобы приводить примеры, лично Вас убеждающие, нужно понимать, что, собственно, Вы считаете ошибочным или нет.
При таком подходе к делу, мне приходится давать ответ в духе: если Вас не устраивает A, то вот Вам пример B, если не устраивает C, то вот пример D. Это ж точно не cool. При всем, при том, миллион или даже миллиард мусорных ответов по одному конкретному, но не кому не нужному запросу, это не показатель качества. Качество измеряется с помощью оценок recall/precision на большом массиве данных. А примеры, когда один поисковик слажал в одном месте, а другой в другом - ни о чем ни говорят, потому как эмпирика никогда не дает точный ответ. И используются обычно маркетологами, продавцами и журналистами, а не техническими работниками, где бы они не работали.
Такой вот, если хотите, научный подход, общепринятый по части recall/precision. Такие вот фрезерные станки, без которых не выточить деталь. А если вот Вы думаете, что изобрели новый подход к делу, скажем "теорию наиболее смешного, нелепого и бесполезного примера", отличную от общепринятого (вдруг Вы новый Галау, которого не признали при жизни), добро пожаловать опубликуйте его. Согласится с Вами научное общественность, будем осваивать Ваши новые методики, а пока они идут врозь, как с общепринятыми методиками, так и с лично моим пониманием предмета.

Ну и в тему

Date: 2007-10-19 11:21 pm (UTC)
From: [identity profile] itman.livejournal.com
Яндекс рулит (http://www.yandex.ru/yandsearch?text=%D0%B0%D0%BD%D0%B5%D0%BA%D0%B4%D0%BE%D1%82%D1%8B+%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0%D0%B2+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8) Гугл рулит, но совсем не туда. (http://www.google.ru/search?complete=1&hl=ru&newwindow=1&rlz=1B3GGGL_en___US208&q=%D0%B0%D0%BD%D0%B5%D0%BA%D0%B4%D0%BE%D1%82+%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8++&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=)

А, главное, если бы не Ваш пафос, я был даже объяснил, почему в данном случае так происходит.

Re: Ну и в тему

Date: 2007-10-19 11:35 pm (UTC)
From: [identity profile] itman.livejournal.com
Это я к тому, что Вы обязательно хотели пример на "поиск". Ну и на случай, если там у Яндекса глюк какой случится, или команда Гугла подмухлюет результаты поиска, прилагаю картинки... Кстати, а вот почему Гугл проиндексировал какое-то левое хрен его знает. (http://www.google.ru/search?q=%22%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%D0%B2%D1%8B%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0%D0%B2+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8+%D0%B8%D0%B7+%D0%BD%D0%B5%D0%B3%D0%BE+%D1%82%D0%BE%D0%BB%D1%8C%D0%BA%D0%BE+%D0%B4%D0%B5%D0%BD%D1%8C%D0%B3%D0%B8%22&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_en___US208) Пользователя это не волнует, пользователя волнует только результат.
Image
Image

Date: 2007-10-20 07:18 am (UTC)
From: (Anonymous)
Какой IDF? Это не имеет отношения к примеру с трансформацией какой-какая-какал и обратно
ИДФ тут не причем
Ты же не в поиске работал, так что не хуй пиздить
Тут дело в транзитивной обработке синонимов
В гугле этого делать не умеют и разворачивают синонимы только когда путь в графе синонимов равен 1.
В нормальных же поисковиках синонимы разворачивают почти неограниченно
Это может немного уменьшает precision, но очень сильно повышает recall. Поэтому и получается, что длина выдачи по 10000 там где у гугло 10. Пользователям нравится
From: (Anonymous)
Яндекс не делает трансформации "какой-какая-какал". Он не перепрыгивает два звена, а только одно , внутри части речи (раньше, кстати, перепрыгивал, года три назад). То есть от "какать" к "какой" перейти Яндексом не удастся.

Яндекс просто сводит "какать" в запросе к основе. А на этапе индексации он сводить "какая" к двум основам (ну или точнее номерам лексем) - одна от глагола, вторая от местоименного прилагательного. Естественно, потом при обработке запроса он вынужденно находит идентификатор глагольной лексемы в индексе.
В запросе - глагол, в индексе - омонимия.

Проблема не в том, что Яндекс что-то там неправильно спрягает.
Проблема в том, что он не разрешает омонимию на этапе индексации.

Гугл этого тоже не делает, ведь он вообще не морфологизует при индексации. Гугл просто расширяет запрос косвенными словоформами, но он не всегда вообще разрешает расширение запроса, он это делает аккуратно, смотрит статистику и т.п. Херня же в основном происходит при попытках заменять "статистически".

Что МОГ бЫ делать Яндекс - минимально учитывать ближайший контекст при индексации, для разрешения омонимии. Скажем, продолжать вписывать два номера лексемы, если написано "какая-то" - это очевидная глупость.
Но тут может быть ошибка зашита в код сильно раньше - когда слова распилены по дефису и отмотать назад нельзя, этого я не знаю.

Ну, а слепая вера гуглоидов в статистику играет с ними плохие шутки, в том числе в их машинном переводчике, который только с утра нужно читать полчасика, чтобы обсепечить себе хорошее настроение на весь день.
From: [identity profile] itman.livejournal.com
А что Вы с гоблинами разговариваете. Это я виноват. Он чушь нес, а я ему отвечал. По поводу расширения запроса оно еще может по-разному происходить. Например, Гугл только спрягает глагол какать, поэтому из него никогда не получается причастие какая, омоним вопросительного слова какая.
В пользу этой гипотезы говорит тот факт, что в первом сниппете он выделяет слово "какать". Таким образом, он, скорее всего спрягает, но не переходит границы части речи.
Есть еще гипотеза, что, если даже Гугл и делает из какать -> какая, то документы со словом какая ранжируются с понижающим весом и не "всплывают", пардон за некрасивую аналогию, в данном конкретном случае наверх.
При этом, я совсем не верю в гипотезу, что Гугл как-то действительно разрешает омонимию для русского языка. Слишком уж Рунет малобюджетная область, чтобы туда сильно вкаладываться.

Date: 2007-10-21 08:54 pm (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Поэтому и получается, что длина выдачи по 10000 там где у гугло 10. Пользователям нравится

Загадочная русская душа....

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10111213 14
15 16 17 18192021
2223 2425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 24th, 2026 10:35 pm
Powered by Dreamwidth Studios