avva: (Default)
[personal profile] avva
Александр Садовский разразился объяснением о мотивах создания тех или иных сервисов "Яндекса"

...А вот в улучшении поиска, я уверен, Google пристально изучал опыт Яндекса и многое заимствовал. Не случайно после визита Брина и Пейджа в Яндекс в поиске Google появились подсказки (например, предложение поискать без кавычек, когда нашлось мало), чуть позже -- морфология, параллельные поиски, исправления неправильной раскладки в запросе и т.д. Google теряет хватку и смирился с ролью отстающего? О, да.

Это сильно сказано.

Update: Я неправ, эти слова сказаны с иронией, и они как бы высмеивают такого рода обвинения в обратную сторону, в адрес Яндекса. См. эту ветку, там подробное объяснение. Прошу прощения.

Date: 2007-10-19 05:11 am (UTC)
From: [identity profile] itman.livejournal.com
Ой, да ладно, а в Гугле зато спеллер жжет постоянно. (http://www.google.ru/search?complete=1&hl=ru&q=%D1%81%D0%B0%D0%B4%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9+%D0%BA%D0%B0%D0%BA%D0%B0%D0%BB&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=) А как он saundex на yandex предлагал поменять (http://itman.livejournal.com/93932.html) - это отдельная песня. Между прочим, taundex (http://www.google.ru/search?complete=1&hl=ru&newwindow=1&rls=GGLG%2CGGLG%3A2006-23%2CGGLG%3Aen&q=taundex&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=) до сих пор предлагает поменять на yandex. А также еще кучу невероятных замен, как в русской, так и глобальной версии. И чем это лучше ВАЗа скажите?
PS: До Тойоты это явно недотягивает, в лучшем случае Шевроле.

Date: 2007-10-19 08:24 am (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
  1. Гугл разумно находит 103 ссылки а не 30436. По мне, чем морфология, которая считает какал деривантом от какой, лучше никакой (pun not intended).
  2. У Гугла это не speller, а подсказка основанная на статистике. Я не очень пользуюсь русским, а по-английски он часто предлагает альтернативное слово, если видит, что если я заменю одну букву, то ссылок будет гораздо больше. Так что вопрос подсказать Yandex или soundex вместо saundex – это просто вопрос весов в алгоритме (soundex ближе по написанию, а Yandex даёт больше ссылок).

Date: 2007-10-19 08:56 am (UTC)
From: [identity profile] itman.livejournal.com
1. Юношеский максимализм когда-нибудь проходит
2. yandex дальше от saundex по написанию? Да он, вообще, даже рядом не лежал. Это у Google такой вот неважнецкий алгоритм проверки близости написания.

Date: 2007-10-19 09:09 am (UTC)
From: [identity profile] itman.livejournal.com
В любом случае, Ваш ответ абсолютно нерелевантный. Смысл заявления Влада Патрушева состоял в том, что Яндекс г-но, потому что неправильно спрягает слово, обозначающее исторжение г-на товарищем Садовским.
Я привел контр-пример, из которого следует, Гугл-то сам время от времени серьезно лажает. Отсюда мораль: когда работает эмпирика нужно все считать en masse, а не кидаться отдельными какашками. Но, как я погляжу, понимание этого факта не приходит в широкие массы.

Date: 2007-10-19 02:09 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Я привел контр-пример, из которого следует...
Конечно же ничего подобного из Вашего примера не следует.

Date: 2007-10-19 02:27 pm (UTC)
From: [identity profile] itman.livejournal.com
Если внимательно посмотреть, то следует. Если невнимательно смотреть, то, конечно, да: на солнце Гугле бывает пятен. Пятна бывают только на Яндексе.

Date: 2007-10-19 02:43 pm (UTC)
From: [identity profile] avva.livejournal.com
О, у нас хватает пятен.

Date: 2007-10-19 07:44 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Я, ничего про Яндекс не говорил. Но пример Ваш совсем не в тему, как бы внимательно Вы на него не пялилисмотрели.

Date: 2007-10-19 08:00 pm (UTC)
From: [identity profile] itman.livejournal.com
Почему не в тему? Цитирую содержание предыдущих серий: Влад Патрушев, показывал пальцем, на морфологию Яндекса и смеялся, мол, посмотрите как смешно яндекс спрягает слово какал! Яндекс-плохой.
Я, чтобы, показать ущербность подобного рода аргументов, торкаю пальцем в "самообучаемый" спеллер гугла и показываю примеры ущербной его работы. И на основании этих примеров говорю: Гугл-плохой.
Разумный человек после такого примера, например хозяин данного блога, кивает головой и говорит, это не очень хороший способ доказать, что одно хуже или лучше другого. Фанаты Гугла (они же, возможно, по совместительству авторы спелера), от обиды хмурят брови, понимая что где-то порылась собака, но боясь, что привычная картина мира может развалится, хмурят брови и говорят, что ничего здесь "не вытекает". При этом, они честно прилагают все усилия, чтобы "не понимать". Надеюсь, я понятно объясняю? :-) Если непонятно, то я могу еще подробнее это объяснить. Не стесняйтесь, спрашивайте.

Date: 2007-10-19 08:07 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
"ущербной работы" в Вашем примере не было. На что Вам сразу и указали. Хватит тормозить.

Date: 2007-10-19 08:09 pm (UTC)
From: [identity profile] itman.livejournal.com
Каким образом, из saundex можно сделать yandex? Вероятность данного события примерно равна нулю.

Date: 2007-10-19 08:14 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Гугл этого не делает (http://www.google.com/search?q=saundex). А что же Вы про "жжет постоянно" не вспоминаете?

Date: 2007-10-19 08:30 pm (UTC)
From: [identity profile] itman.livejournal.com
Опять двацать пять он это делал (сходите уж, наконец, по ссылкам в посте про жжот постоянно), и делает сейчас из taundex. (http://www.google.ru/search?complete=1&hl=ru&q=taundex&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=) Причем, Гугль.ру. Но на коме таких примеров тоже хватает. Но это еще не повод говорить, что спеллер - кал. Ниже я объясню почему. После объяснения на тему того, почему Яндексовый "какал" не является ущербным. Просто так. Чтобы еще один человек наконец запомнил два слова recall/precision.
Итак, почему из какал получилась какая? Очень просто, это результат омонимия причастие какая и вопросительного местоимения какой. Возникает вопрос, почему у Яндекса наверх не всплыли ссылки (как в Гугле) со словом какал? Начнем с того, что почему у Гугла не всплыли. Возможно, потому что причастия не склеиваются с глаголом. Хорошо ли это? Ответ может дать только данные по recall/precsion (которые кстати весьма субъективны). Или склеиваются, но с меньшим весом. Вернемся к Яндексу. Я знаю, что точные вхождения в Яндексе сейчас приоритезируются (имеют больший вес). Но при вычислении общего веса документа по какому-то варианту TF * IDF суммируются разные факторы. Например, количество слов "какая" или ссылочный ранг документа могут "пересиливать" "премию" за точное вхождение. Может быть, Яндекс не различает точные вхождения и вхождения, как спряжение, склонение, не переходящие границы частей речи. Может это и недостаток, который в данном случае дает такой нехороший результат. Зато, может, в другом случае ранжируется лучше.
Мы подобных тонкостей не знаем, но зато точно знаем, что это эмпирические алгоритмы, которые не могу работать правильно "всегда". Зато там всегда есть компромисс. И это компромисс измеряется (оценивается) с помощью пары значений точность/полнота (recall/precision). И у Гугла точно такая же проблем.
Но поскольку никто не сравнивает recall/precision (за исключением простеньких тестов Ашманова) для разных поисковых машин Рунета, а приводит отдельные "фекальные" примеры, то я склонен считать подобные высказывание полной профанацией.

Date: 2007-10-19 08:45 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Вы внимательнее прочитайте, что Вам ответили в пункте 2.
Ну и какой садовский не в suggestions, а в результатах поиска. Что делает поиск совершенно бесполезным. Странно, что Вы разницы не понимаете.

PS: и отвелекитесь Вы уж от своих фрезерных станков.

Date: 2007-10-19 10:03 pm (UTC)
From: [identity profile] itman.livejournal.com
Один привел пример неудачной работы поиска, другой привел пример неудачной работы алгоритма спеллера. И все. А торможение наблюдается со стороны человека, который считает, что пример должен быть обязательно в поиске. Я могу пример привести с поиском по длинным запросам, только надо долго вспоминать и пробовать времени - нет. Опять-таки, ключевые слова recall/precision. Странно, что люди, работающие в Гугле этого не понимают. Это просто фантастика какая-то.

Date: 2007-10-19 11:31 pm (UTC)
From: [identity profile] vvs2002.livejournal.com
Странно, что Вы так и не поняли, что это не является примером плохой работы спеллера. Вроде довольно простыми словами все рассказали...

Ну и в тему

Date: 2007-10-19 11:21 pm (UTC)
From: [identity profile] itman.livejournal.com
Яндекс рулит (http://www.yandex.ru/yandsearch?text=%D0%B0%D0%BD%D0%B5%D0%BA%D0%B4%D0%BE%D1%82%D1%8B+%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0%D0%B2+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8) Гугл рулит, но совсем не туда. (http://www.google.ru/search?complete=1&hl=ru&newwindow=1&rlz=1B3GGGL_en___US208&q=%D0%B0%D0%BD%D0%B5%D0%BA%D0%B4%D0%BE%D1%82+%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8++&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=)

А, главное, если бы не Ваш пафос, я был даже объяснил, почему в данном случае так происходит.

Re: Ну и в тему

Date: 2007-10-19 11:35 pm (UTC)
From: [identity profile] itman.livejournal.com
Это я к тому, что Вы обязательно хотели пример на "поиск". Ну и на случай, если там у Яндекса глюк какой случится, или команда Гугла подмухлюет результаты поиска, прилагаю картинки... Кстати, а вот почему Гугл проиндексировал какое-то левое хрен его знает. (http://www.google.ru/search?q=%22%D0%9E%D0%B1%D0%B2%D0%B8%D0%BD%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9%2C+%D0%BE%D0%B1%D1%8A%D1%8F%D1%81%D0%BD%D0%B8%D1%82%D0%B5+%D1%81%D1%83%D0%B4%D1%83%2C+%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83+%D0%B2%D1%8B%2C+%D0%B2%D0%B7%D0%BB%D0%BE%D0%BC%D0%B0%D0%B2+%D1%81%D0%B5%D0%B9%D1%84%2C+%D0%B2%D0%B7%D1%8F%D0%BB%D0%B8+%D0%B8%D0%B7+%D0%BD%D0%B5%D0%B3%D0%BE+%D1%82%D0%BE%D0%BB%D1%8C%D0%BA%D0%BE+%D0%B4%D0%B5%D0%BD%D1%8C%D0%B3%D0%B8%22&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_en___US208) Пользователя это не волнует, пользователя волнует только результат.
Image
Image

Date: 2007-10-20 07:18 am (UTC)
From: (Anonymous)
Какой IDF? Это не имеет отношения к примеру с трансформацией какой-какая-какал и обратно
ИДФ тут не причем
Ты же не в поиске работал, так что не хуй пиздить
Тут дело в транзитивной обработке синонимов
В гугле этого делать не умеют и разворачивают синонимы только когда путь в графе синонимов равен 1.
В нормальных же поисковиках синонимы разворачивают почти неограниченно
Это может немного уменьшает precision, но очень сильно повышает recall. Поэтому и получается, что длина выдачи по 10000 там где у гугло 10. Пользователям нравится
From: (Anonymous)
Яндекс не делает трансформации "какой-какая-какал". Он не перепрыгивает два звена, а только одно , внутри части речи (раньше, кстати, перепрыгивал, года три назад). То есть от "какать" к "какой" перейти Яндексом не удастся.

Яндекс просто сводит "какать" в запросе к основе. А на этапе индексации он сводить "какая" к двум основам (ну или точнее номерам лексем) - одна от глагола, вторая от местоименного прилагательного. Естественно, потом при обработке запроса он вынужденно находит идентификатор глагольной лексемы в индексе.
В запросе - глагол, в индексе - омонимия.

Проблема не в том, что Яндекс что-то там неправильно спрягает.
Проблема в том, что он не разрешает омонимию на этапе индексации.

Гугл этого тоже не делает, ведь он вообще не морфологизует при индексации. Гугл просто расширяет запрос косвенными словоформами, но он не всегда вообще разрешает расширение запроса, он это делает аккуратно, смотрит статистику и т.п. Херня же в основном происходит при попытках заменять "статистически".

Что МОГ бЫ делать Яндекс - минимально учитывать ближайший контекст при индексации, для разрешения омонимии. Скажем, продолжать вписывать два номера лексемы, если написано "какая-то" - это очевидная глупость.
Но тут может быть ошибка зашита в код сильно раньше - когда слова распилены по дефису и отмотать назад нельзя, этого я не знаю.

Ну, а слепая вера гуглоидов в статистику играет с ними плохие шутки, в том числе в их машинном переводчике, который только с утра нужно читать полчасика, чтобы обсепечить себе хорошее настроение на весь день.

Date: 2007-10-21 08:54 pm (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Поэтому и получается, что длина выдачи по 10000 там где у гугло 10. Пользователям нравится

Загадочная русская душа....

Date: 2007-10-21 08:45 pm (UTC)
From: [identity profile] kot-ivanovich.livejournal.com
Слушайте, а с каких пирогов Вы меня упорно величаете Владом Патрушевым? [livejournal.com profile] ivan_ghandhi может и обидеться....

Date: 2007-10-21 11:46 pm (UTC)
From: [identity profile] itman.livejournal.com
А я Вас и не величаю, однако это не Вы начали дискуссию про "садовский какал"

Date: 2007-10-22 12:08 am (UTC)
From: [identity profile] itman.livejournal.com
А, ну ок, оно продолжил.

February 2026

S M T W T F S
1 2 3 4 5 67
8 9 10111213 14
15 16 17 18192021
2223 2425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 24th, 2026 07:30 pm
Powered by Dreamwidth Studios