avva: (Default)
[personal profile] avva
Александр Садовский разразился объяснением о мотивах создания тех или иных сервисов "Яндекса"

...А вот в улучшении поиска, я уверен, Google пристально изучал опыт Яндекса и многое заимствовал. Не случайно после визита Брина и Пейджа в Яндекс в поиске Google появились подсказки (например, предложение поискать без кавычек, когда нашлось мало), чуть позже -- морфология, параллельные поиски, исправления неправильной раскладки в запросе и т.д. Google теряет хватку и смирился с ролью отстающего? О, да.

Это сильно сказано.

Update: Я неправ, эти слова сказаны с иронией, и они как бы высмеивают такого рода обвинения в обратную сторону, в адрес Яндекса. См. эту ветку, там подробное объяснение. Прошу прощения.

Date: 2007-10-19 02:27 pm (UTC)
From: [identity profile] itman.livejournal.com
Если внимательно посмотреть, то следует. Если невнимательно смотреть, то, конечно, да: на солнце Гугле бывает пятен. Пятна бывают только на Яндексе.

Date: 2007-10-19 02:43 pm (UTC)
From: [identity profile] avva.livejournal.com
О, у нас хватает пятен.

Date: 2007-10-19 07:44 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Я, ничего про Яндекс не говорил. Но пример Ваш совсем не в тему, как бы внимательно Вы на него не пялилисмотрели.

Date: 2007-10-19 08:00 pm (UTC)
From: [identity profile] itman.livejournal.com
Почему не в тему? Цитирую содержание предыдущих серий: Влад Патрушев, показывал пальцем, на морфологию Яндекса и смеялся, мол, посмотрите как смешно яндекс спрягает слово какал! Яндекс-плохой.
Я, чтобы, показать ущербность подобного рода аргументов, торкаю пальцем в "самообучаемый" спеллер гугла и показываю примеры ущербной его работы. И на основании этих примеров говорю: Гугл-плохой.
Разумный человек после такого примера, например хозяин данного блога, кивает головой и говорит, это не очень хороший способ доказать, что одно хуже или лучше другого. Фанаты Гугла (они же, возможно, по совместительству авторы спелера), от обиды хмурят брови, понимая что где-то порылась собака, но боясь, что привычная картина мира может развалится, хмурят брови и говорят, что ничего здесь "не вытекает". При этом, они честно прилагают все усилия, чтобы "не понимать". Надеюсь, я понятно объясняю? :-) Если непонятно, то я могу еще подробнее это объяснить. Не стесняйтесь, спрашивайте.

Date: 2007-10-19 08:07 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
"ущербной работы" в Вашем примере не было. На что Вам сразу и указали. Хватит тормозить.

Date: 2007-10-19 08:09 pm (UTC)
From: [identity profile] itman.livejournal.com
Каким образом, из saundex можно сделать yandex? Вероятность данного события примерно равна нулю.

Date: 2007-10-19 08:14 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Гугл этого не делает (http://www.google.com/search?q=saundex). А что же Вы про "жжет постоянно" не вспоминаете?

Date: 2007-10-19 08:30 pm (UTC)
From: [identity profile] itman.livejournal.com
Опять двацать пять он это делал (сходите уж, наконец, по ссылкам в посте про жжот постоянно), и делает сейчас из taundex. (http://www.google.ru/search?complete=1&hl=ru&q=taundex&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=) Причем, Гугль.ру. Но на коме таких примеров тоже хватает. Но это еще не повод говорить, что спеллер - кал. Ниже я объясню почему. После объяснения на тему того, почему Яндексовый "какал" не является ущербным. Просто так. Чтобы еще один человек наконец запомнил два слова recall/precision.
Итак, почему из какал получилась какая? Очень просто, это результат омонимия причастие какая и вопросительного местоимения какой. Возникает вопрос, почему у Яндекса наверх не всплыли ссылки (как в Гугле) со словом какал? Начнем с того, что почему у Гугла не всплыли. Возможно, потому что причастия не склеиваются с глаголом. Хорошо ли это? Ответ может дать только данные по recall/precsion (которые кстати весьма субъективны). Или склеиваются, но с меньшим весом. Вернемся к Яндексу. Я знаю, что точные вхождения в Яндексе сейчас приоритезируются (имеют больший вес). Но при вычислении общего веса документа по какому-то варианту TF * IDF суммируются разные факторы. Например, количество слов "какая" или ссылочный ранг документа могут "пересиливать" "премию" за точное вхождение. Может быть, Яндекс не различает точные вхождения и вхождения, как спряжение, склонение, не переходящие границы частей речи. Может это и недостаток, который в данном случае дает такой нехороший результат. Зато, может, в другом случае ранжируется лучше.
Мы подобных тонкостей не знаем, но зато точно знаем, что это эмпирические алгоритмы, которые не могу работать правильно "всегда". Зато там всегда есть компромисс. И это компромисс измеряется (оценивается) с помощью пары значений точность/полнота (recall/precision). И у Гугла точно такая же проблем.
Но поскольку никто не сравнивает recall/precision (за исключением простеньких тестов Ашманова) для разных поисковых машин Рунета, а приводит отдельные "фекальные" примеры, то я склонен считать подобные высказывание полной профанацией.

Date: 2007-10-19 08:45 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Вы внимательнее прочитайте, что Вам ответили в пункте 2.
Ну и какой садовский не в suggestions, а в результатах поиска. Что делает поиск совершенно бесполезным. Странно, что Вы разницы не понимаете.

PS: и отвелекитесь Вы уж от своих фрезерных станков.

Date: 2007-10-19 10:03 pm (UTC)
From: [identity profile] itman.livejournal.com
Один привел пример неудачной работы поиска, другой привел пример неудачной работы алгоритма спеллера. И все. А торможение наблюдается со стороны человека, который считает, что пример должен быть обязательно в поиске. Я могу пример привести с поиском по длинным запросам, только надо долго вспоминать и пробовать времени - нет. Опять-таки, ключевые слова recall/precision. Странно, что люди, работающие в Гугле этого не понимают. Это просто фантастика какая-то.

Date: 2007-10-19 11:31 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Странно, что Вы так и не поняли, что это не является примером плохой работы спеллера. Вроде довольно простыми словами все рассказали...

Date: 2007-10-19 11:33 pm (UTC)
From: [identity profile] itman.livejournal.com
Это мне простыми словами навешали лапшу на уши, не знаю, что я активно интересуюсь данной проблемой. На самом деле то же объяснение оправдывает какал: ну там один вес пересилил другой. В эмпирике все так. Иногда можно улучшить, иногда нет. В случае спеллеров - улучшить можно. А как - кумекайте сами. Литературы на эту тему написаны горы :-)

Date: 2007-10-19 11:39 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Я же говорю, отвлекитесь Вы от своих фрез. И посмотрите на результат глазами пользователя. Гугловский, даже для Ваших трюндексов - осмысленный, в отличии от. Нашли бы пример поубедительней, и вопросов бы не было.

Date: 2007-10-19 11:44 pm (UTC)
From: [identity profile] itman.livejournal.com
Вы определитесь уже, что вам не нравится: то, что я "придираюсь" к работе спеллера, или то, что спеллер является не слишком важной частью системы. Пример с saundex, кстати, возник из жизни, я его специально не придумывал. Уверен, что есть еще много таких. Если Вам так нравится верить, что их нет - вера дело святое, спорить не буду. Со своей стороны, хочу заметить, что запрос "Садовский какал" явно не является популярным. (гляньте, что ли директ для примера) Нужно ли говорить, что бессмысленно спорить о качестве поиска на примере запросов, которые возникают раз в 1000 лет?

Date: 2007-10-20 12:40 am (UTC)
From: [identity profile] vvs2002.livejournal.com
Вам запрос Гуглу про saundex возвращал 30 млн мусорных ответов про Яндекс?
Даже если на минутку с Вами согласиться, что это была ошибка спеллера, она _никак_ не повлияла на качество результатов поиска.

Как бы Вам попроще объяснить. Представьте, что навигашка у Вас в машине:
а) Не сможет найти город Taundex, и спросит не хотите ли Вы поехать в c. Яндекс
б) Построит Вам маршрут в д. Какал, но проехав 300 км Вы окажетесь в одной из каких-то случайных деревень.

а) и б) для Вас одинаковы?

BTW, Вы слишком быстро от предмета разговора переходите к рассуждениям во что верит или где работает собеседник. Причём рассуждениям ошибочным. Not cool.

Ну и в тему

Date: 2007-10-19 11:21 pm (UTC)
From: [identity profile] itman.livejournal.com
Яндекс рулит (http://www.yandex.ru/yandsearch?text=%D0%B0%D0%BD%D0%B5%D0%BA%D0%B4%D0%BE%D1%82%D1%8B+%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0%D0%B2+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8) Гугл рулит, но совсем не туда. (http://www.google.ru/search?complete=1&hl=ru&newwindow=1&rlz=1B3GGGL_en___US208&q=%D0%B0%D0%BD%D0%B5%D0%BA%D0%B4%D0%BE%D1%82+%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8++&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=)

А, главное, если бы не Ваш пафос, я был даже объяснил, почему в данном случае так происходит.

Re: Ну и в тему

Date: 2007-10-19 11:35 pm (UTC)
From: [identity profile] itman.livejournal.com
Это я к тому, что Вы обязательно хотели пример на "поиск". Ну и на случай, если там у Яндекса глюк какой случится, или команда Гугла подмухлюет результаты поиска, прилагаю картинки... Кстати, а вот почему Гугл проиндексировал какое-то левое хрен его знает. (http://www.google.ru/search?q=%22%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%D0%B2%D1%8B%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0%D0%B2+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8+%D0%B8%D0%B7+%D0%BD%D0%B5%D0%B3%D0%BE+%D1%82%D0%BE%D0%BB%D1%8C%D0%BA%D0%BE+%D0%B4%D0%B5%D0%BD%D1%8C%D0%B3%D0%B8%22&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_en___US208) Пользователя это не волнует, пользователя волнует только результат.
Image
Image

Date: 2007-10-20 07:18 am (UTC)
From: (Anonymous)
Какой IDF? Это не имеет отношения к примеру с трансформацией какой-какая-какал и обратно
ИДФ тут не причем
Ты же не в поиске работал, так что не хуй пиздить
Тут дело в транзитивной обработке синонимов
В гугле этого делать не умеют и разворачивают синонимы только когда путь в графе синонимов равен 1.
В нормальных же поисковиках синонимы разворачивают почти неограниченно
Это может немного уменьшает precision, но очень сильно повышает recall. Поэтому и получается, что длина выдачи по 10000 там где у гугло 10. Пользователям нравится
From: (Anonymous)
Яндекс не делает трансформации "какой-какая-какал". Он не перепрыгивает два звена, а только одно , внутри части речи (раньше, кстати, перепрыгивал, года три назад). То есть от "какать" к "какой" перейти Яндексом не удастся.

Яндекс просто сводит "какать" в запросе к основе. А на этапе индексации он сводить "какая" к двум основам (ну или точнее номерам лексем) - одна от глагола, вторая от местоименного прилагательного. Естественно, потом при обработке запроса он вынужденно находит идентификатор глагольной лексемы в индексе.
В запросе - глагол, в индексе - омонимия.

Проблема не в том, что Яндекс что-то там неправильно спрягает.
Проблема в том, что он не разрешает омонимию на этапе индексации.

Гугл этого тоже не делает, ведь он вообще не морфологизует при индексации. Гугл просто расширяет запрос косвенными словоформами, но он не всегда вообще разрешает расширение запроса, он это делает аккуратно, смотрит статистику и т.п. Херня же в основном происходит при попытках заменять "статистически".

Что МОГ бЫ делать Яндекс - минимально учитывать ближайший контекст при индексации, для разрешения омонимии. Скажем, продолжать вписывать два номера лексемы, если написано "какая-то" - это очевидная глупость.
Но тут может быть ошибка зашита в код сильно раньше - когда слова распилены по дефису и отмотать назад нельзя, этого я не знаю.

Ну, а слепая вера гуглоидов в статистику играет с ними плохие шутки, в том числе в их машинном переводчике, который только с утра нужно читать полчасика, чтобы обсепечить себе хорошее настроение на весь день.
From: [identity profile] itman.livejournal.com
А что Вы с гоблинами разговариваете. Это я виноват. Он чушь нес, а я ему отвечал. По поводу расширения запроса оно еще может по-разному происходить. Например, Гугл только спрягает глагол какать, поэтому из него никогда не получается причастие какая, омоним вопросительного слова какая.
В пользу этой гипотезы говорит тот факт, что в первом сниппете он выделяет слово "какать". Таким образом, он, скорее всего спрягает, но не переходит границы части речи.
Есть еще гипотеза, что, если даже Гугл и делает из какать -> какая, то документы со словом какая ранжируются с понижающим весом и не "всплывают", пардон за некрасивую аналогию, в данном конкретном случае наверх.
При этом, я совсем не верю в гипотезу, что Гугл как-то действительно разрешает омонимию для русского языка. Слишком уж Рунет малобюджетная область, чтобы туда сильно вкаладываться.

Date: 2007-10-21 08:54 pm (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Поэтому и получается, что длина выдачи по 10000 там где у гугло 10. Пользователям нравится

Загадочная русская душа....

Date: 2007-10-21 08:45 pm (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Слушайте, а с каких пирогов Вы меня упорно величаете Владом Патрушевым? [livejournal.com profile] ivan_ghandhi может и обидеться....

Date: 2007-10-21 11:46 pm (UTC)
From: [identity profile] itman.livejournal.com
А я Вас и не величаю, однако это не Вы начали дискуссию про "садовский какал"

Date: 2007-10-22 12:08 am (UTC)
From: [identity profile] itman.livejournal.com
А, ну ок, оно продолжил.

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10111213 14
15 16 17 18192021
2223 2425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 24th, 2026 04:51 pm
Powered by Dreamwidth Studios