Гипотеза об отсутствии линейного ранжирования в выдаче Яндекс по нечетким информационным запросам. Хотелось бы услышать мнения коллег.
Традиционное представление о выдаче поисковой системы предполагает "линейное" ранжирование найденных документов по релевантности. Т.е., есть условная "формула", по которой:
- первый документ - лучше всех соответствует запросу;
- второй документ - немножко похуже;
- третий документ - еще хуже;
и т.д.
И оптимизаторы бьются за "высшую релевантность" к продвигаемому запросу, наращивая контент и ссылки.
Берем нечеткий, информационный, персонифицированный запрос "Борис". По традиционному представлению об оптимизации и выдаче, на первом месте будет наиболее релевантный сайт к "Борису", на втором чуть менее релевантный, и т.д.
Смотрим найденных "Борисов" в первой странице выдачи:
Борис Акунин
Борис Гребенщиков (найдено по ссылке)
Борис Немцов
Борис Моисеев
БОРИС КАРЛОВ (регистр имеет принципиальное значение?)
Сьогодні °Борис° знають не тільки в Україні, але й за кордоном.
Борис Карлов
Борис-Хоф (компания - официальный дилер BMW в России, второе слово - с большой буквы, как фамилия).
Борис Стругацкий
Борис Колесников
Интересно, что практически все документы о РАЗНЫХ БОРИСАХ. Что чрезвычайно полезно для выдачи по нечеткому информационному запросу, поскольку дает пользователю возможность выбора из наиболее вероятных "Борисов" для дальнейшего уточнения запроса.
Выглядит так, как будто для информационного однословного запроса подобраны варианты его "уточнения", что можно сделать по списку запросов пользователей. Или это может быть не уточнение, а "уникальное контекстное окружение" - набор редких слов, которые часто встречаются рядом с исходным словом запроса. Вообщем, результат кластеризации или иного механизма.
В результате, наверх ПАРАЛЕЛЬНО поднимаются сайты с уникальным (друг к другу), но часто встречающимся в контексте запроса, словарным окружением вокруг исходного запроса. Причем, судя по выдаче, здесь на равных учитываются и слова текста, и слова ссылок (в выдаче "Борис Гребенщиков" - найден по ссылке). Или выдача к исходному запросу сформирована "паралельно" из документов, релевантных к наиболее вероятным уточнениям исходного запроса.
Получается, в этом случае, что продвигать сайт по информационному запросу нужно не к исходному запросу, а к одному из его "наиболее вероятных уточнений". Используя рядом уникальные слова, часто встречающиеся в документах, в контексте слова запроса.
Гипотеза о существовании "паралельной" выдачи вполне согласуется с общими положениями доклада "Технологии извлечения знаний для поиска в Интернете. От слов к объектам." Лев Гершензон.
(http://company.yandex.ru/articles/ci...gershenzon.ppt)
Очень краткое содержание доклада:
Текущее состояние поиска на Яндексе - поиск сайтов\страниц содержащих слова запроса.
Будущее Яндекса:
1. Поиск - объектов распознанных в запросе (а не слов).
2. Выдача - множества найденных объектов (или множество ответов на вопрос в запросе).
Как пример приведены пресс-портреты в "новостях" Яндекса (поэтому был взят запрос "Борис" - с ожиданием, что новый механизм может быть введен начиная с поиска персон). _________________ С уважением,
Антон Николаев
Будущее Яндекса:
1. Поиск - объектов распознанных в запросе (а не слов).
Интересная тема, Антон, спасибо. А давайте поговорим об объектах? В Вашем примере объект - это личность (либо уж автокомпания Борис-Хоф) вполне конкретная. Но это запрос, как Вы сами сказали, персонифицированный.
Есть ли идеи, какие объекты и как могут быть выделены при нечетком неперсонифицированном запросе, например, "дизайн", "строительство", "рефераты" и т.п.?
Насчет того, что Яндекс сейчас уже применяет параллельную выдачу сильно сомневаюсь. _________________ С уважением,
Андрей Иванов.
Добавлено: Пн Июн 12, 2006 8:12 am Заголовок сообщения:
Это действительно очень интересная тема.
Очень заманчиво при расчёте соответствия запросу использовать не только термины из запроса, но и те слова и фразы, которые составляют его окружение в текстах.
Что это даёт?
Для примера с "Борисом" - мы не знаем что ищет пользователь. Запрос ему придётся уточнять. Нужно его к этому подтолкнуть и подсказать, если это требуется.
Вытаскиваем контекст для слова "Борис". Получаем:
Ельцин
Хоф
Гребенщиков
и т.д.
Создаём уточнённый запрос:
Борис & (Ельцин|Хоф|Гребенщиков)
Таким образом мы выравниваем шансы разных Борисов оказаться в топе. Для редких (очень весомых) слов это хороший шанс, чтобы пробиться сквозь толпу политических деятелей и т.д.
В перспективе учёт контекста может стать также если не панацеей в борьбе с поисковым спамом, то средством, которое сделает спамдексинг не столь раздражающим. Никто не станет писать тексты типа:
"Наши специалисты по окнам пвх установят вам окна пвх, научат вас открывать окна пвх и закрывать окна пвх"
если можно будет писать что-то более читаемое.
Только будет ли учёт контекста учитываться в ближайшее время? Увидим... _________________ Иван.
Есть ли идеи, какие объекты и как могут быть выделены при нечетком неперсонифицированном запросе, например, "дизайн", "строительство", "рефераты" и т.п.?
Действительно, на бытовом уровне просто осознать объект-персону в запросе. На тему "дизайн", "строительство" - все не так очевидно.
Первая идея - пересечение списка запросов являющихся расширением исходного запроса путем добавления слов и списка ассоциативных запросов. Это лежащая на поверхности идея "уточнения" запроса.
Вторая идея - кластеризация. Если по теме запроса выявляются кластеры - выдача "паралельная". Если нет - "линейная". Возможно, в "дизайне", "строительстве" не будет столь очевидных кластеров, как в примере с персоной. Тогда выдача будет линейной.
Вообщем, надо проверять...
andre писал(а):
Насчет того, что Яндекс сейчас уже применяет параллельную выдачу сильно сомневаюсь.
На searchengines.ru, где я изложил гипотезу "паралельной выдачи" привели еще пример - "го" (игра, гражданская оборона, и еще что-то).
Элементарная проверка гипотезы по "Борисам":
гипотеза:
1 страница выдачи Яндекс по запросу "Борис" состоит из сайтов, наиболее релевантных к "уточнениям" или "объектам":
- объект (или уточнение) "Борис Моисеев" - самый релевантный сайт к запросу "Борис Моисеев";
- объект (или уточнение) "Борис Акунин" - самый релевантный сайт к запросу "Борис Акунин";
и далее - аналогично.
Итого, 8 из 10 документов выдачи по персонам - "объектам", выделенным на бытовом уровне в теме "Борис" полностью соответствуют предложенной гипотезе.
2/10 гипотезу не подтверждают:
- сайт на украинском языке, в котором неочевидно, что является "объектом" или уточнением;
- Борис Карлов и БОРИС КАРЛОВ. Насколько я помню, "колдунщик" превращает слово набранное заглавными буквами в строчное... т.е. Борис Карлов и БОРИС КАРЛОВ - два разных "Бориса". Опять же, неочевидно, что здесь связано со словом Борис. Полагаю, что надо внимательно посмотреть веса слов в пассажах про Бориса...
Напрашивается вывод - чтобы попасть на первую страницу Яндекса по запросу "Борис" надо:
1. Оценить, по какому из "Борисов" будет проще продвигать сайт.
2. Выбрать себе одного из "Борисов" попроще и добиться первого места в Яндексе по этому запросу. _________________ С уважением,
Антон Николаев
Это действительно очень интересная тема.
Очень заманчиво при расчёте соответствия запросу использовать не только термины из запроса, но и те слова и фразы, которые составляют его окружение в текстах.
Окружение запроса в текстах или окружение запроса в запросах. На Рамблере еще 2003 году использовался (или тестировался) алгоритм повышения в выдачи документов, релевантных к ассоциативным запросам основного запроса.
На www.seotools.ru я выложил инструмент, который помогает на практике писать тексты оптимизированные к окружению основного запроса. И небольшую статью по его использованию: "Бан Яндекса, оптимизация текста по методу Остапа Бендера и WebDirector".
Сотрудники используют данный инструмент около года.
Кстати, по первым прикидкам, у Гугля так же есть "паралельная выдача", а у Рамблера - нет.
anthrop писал(а):
Создаём уточнённый запрос:
Борис & (Ельцин|Хоф|Гребенщиков)
Проверял - OR работает иначе. По "Борису" половину выдачи занимает "Борис Моисеев" - линейная выдача... _________________ С уважением,
Антон Николаев
Напрашивается вывод - чтобы попасть на первую страницу Яндекса по запросу "Борис" надо:
1. Оценить, по какому из "Борисов" будет проще продвигать сайт.
2. Выбрать себе одного из "Борисов" попроще и добиться первого места в Яндексе по этому запросу.
В принципе, есть, но все найденные сайты и так продвигаются по соответствующим запросам, а нестандартных трех последних в Тор50 не найдено. Трудно пока сказать, что гипотеза о параллельной выдаче подверждается, но, может, алгоритм не настолько "тупой", как моя проверка, и надо учитывать какие-то дополнительные факторы... _________________ С уважением,
Андрей Иванов.
Последний раз редактировалось: andre (Вт Июн 13, 2006 7:52 am), всего редактировалось 1 раз
Напрашивается вывод - чтобы попасть на первую страницу Яндекса по запросу "Борис" надо:
1. Оценить, по какому из "Борисов" будет проще продвигать сайт.
2. Выбрать себе одного из "Борисов" попроще и добиться первого места в Яндексе по этому запросу.
Только в конкурентных темах такая битва, что продвижение просто по "Борис" дойдет до такого уровня, что вы не протолкнетесь по "какой-то Борис". _________________ Promotext.ru и Sape.ru - специально для оптимизаторов и вебмастеров
Только в конкурентных темах такая битва, что продвижение просто по "Борис" дойдет до такого уровня, что вы не протолкнетесь по "какой-то Борис".
Ну, если идея верна, то акценты просто сместятся сначала на "каких-то Борисов", потом на "каких-то сяких-то Борисов" и рубка начнется там. Все равно кто-то выиграет, важен ведь метод.
Антон предложил довольно четкий алгоритм, который можно проверять, попросту слегка подкорректировав тексты продвигаемых по "Борису" сайтов и конкретизировав тексты ссылок поддержки. Сработает ли или нет - вот вопрос... _________________ С уважением,
Андрей Иванов.
Окружение запроса в текстах или окружение запроса в запросах.
В принципе у Яндекса есть и то, и другое. Но думаю что в текстах.
AntonNik писал(а):
На Рамблере еще 2003 году использовался (или тестировался) алгоритм повышения в выдачи документов, релевантных к ассоциативным запросам основного запроса.
А кто мешает создать собственного "Бориса"?!
И продвигать сайт по словосочетанию "Борис Миттельбрехенмахер"...
Хехе.. для этого придется еще создать десяток сайтов с таким же Борисом.
Вот уж это совсем не сложно.
Rumata писал(а):
Я думаю яндекс выбирает для уточнения наиболее конкурентные запросы, а уже из них сайты с наилучшим рейтингом.
Мне кажется что у кластеризации совсем другие цели, задачи и методы. Понятие "конкурентный" тут скорее всего никак приклеить не получится... _________________ Иван.
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах