Добавлено: Чт Май 11, 2006 7:15 am Заголовок сообщения: Стенограмма выступления Ашманова на КИБе. Социальные сети.
Это стенограмма выступления Игоря Ашманова на секции Поиск-Оптимизация.
Цитата:
Так вот, есть причины того самого аутизма. Если поисковик не видит, что там есть какое-то живое существо, то, конечно, он будет аутичен. Если он считает, что он один в этом мире, и есть еще просто море текста, с которым надо что-то сделать. Результаты понятны. Есть высокое напряжение борьбы. Качество результатов, на самом деле, падает. То есть мое личное мнение – поисковики, на мой взгляд, последние несколько лет не улучшают качество поиска, а ухудшают. Да, они бегут изо всех сил, как Алиса в стране чудес, чтоб остаться на месте, и немножко отстают.
(вопрос из зала) - … 0.50
Ответ: Какие шутки! Наверняка, есть люди, которые … в Яндексе. Есть такие? Поднимите руки… Ну вот … ведется видеозапись, кстати сказать…так что, вы попали. Короче говоря, есть очень удивительные результаты буквально последнего года – это падение полноты в поисковиках. То есть, поисковики никогда не боролись за полноту, они, конечно, мерились перед друг другом размерами индексов, но полнота никогда никого не интересовала, потому что 200 тысяч результатов поиска все равно никому не нужны и никто их вам никогда не покажет, покажет первые 500, условно говоря. Падение полноты произошло в другом смысле. Когда вы запрашиваете «дизайн» в Яндексе, вы получаете сайты только по дизайну, дизайн верх страницы, вы не увидите про ландшафтный дизайн, например. Произошло падение полноты в этом смысле - уменьшилось разнообразие. На многие запросы выдается абсолютно монохромная выдача коммерческих сайтов, которые не поленились заплатить оптимизаторам. Хорошая, релевантная выдача, что самое интересное, но неполная.
Пользователи, все менее лояльны, как мне кажется, и так машина поисковая на расстоянии одного клика, но вот это все приводит к тому, что они быстро и легко смещаются машина к машине. В тоже время денег в Интернете много, желание улучшить поиск есть.
Стартапы в Росси появляются раз в месяц, а в Штатах 10 раз в месяц, что-нибудь вроде этого. Под слово «поиск» сейчас деньги дают даже не спрашивая, до двух миллионов на Западе выписывают, просто чек. А если ты скажешь, что у тебя поиск социальной сетью, то, наверное, выпишут и в десять раз больше, притом не спросят, какой бизнес-план, сколько людей работает. В то же время крупные игроки довольно резко замедлились. Это видно на примере Google, который выходит к нам на рынок уже год, всерьез выходит, не то, что они приезжали и разговаривали, а по 4-5 месяцев утверждают PR – программу, нанимают людей. Яндекс и Рамблер тоже, по-моему, замедлились. Большие продажи, большой персонал, инфраструктура, новый офис и так далее. И более того, они не замечают этих стартапов. Их борьба в сфере бизнеса направлена друг на друга, и борьба задается среди самых больших.
Итак, как можно было бы улучшить поиск? Этапы работы поисковика более-менее известны, поэтому можно улучшать каждый из этих этапов, от выбора сайтов для обхода через скачивание, индексацию, получения запроса. Есть множество стартапов, которые пытаются работать с каким-либо одним этапом. Поисковики работают на всем пространстве этих этапов, но не везде одинаково интенсивно. Сейчас, когда поисковики очень сильно замусорены, кажется, что проблему решить можно с помощью выбора сайтов. Это значит, что можно делать специальные вертикальные поисковики, товарные, новостные поисковики и так далее. Большие поисковики тоже так делают: на Яндексе есть Яндекс-блоги, Яндекс-маркет, Яндекс-новости. Второй способ – это отдать выбор сайтов сообществу, то есть создать сеть, которая сама подбирает сайты по разным темам. Таких стартапов тоже очень много. Мы в частности такой сейчас делаем. Довольно много стартапов сейчас делается, как говорится на Западе «on the tech of Google/Yahoo», то есть поиск берется одних, а поверх него что-то там накручивается, и Google что-то за это платиться. Там есть проблема – Google не разрешает менять результаты поиска свои, порядок, прослаивать их чем-то, но это тоже как-то решается. Видимо, социальная сеть поверх поисковика способна как-то улучшить результаты за счет отбора сайтов. Хороший пример – Deletion, где меняются списками ссылок и закладками, а поверх него делается уже поисковик Look, реализации выдаются довольно чистые.
Самое интересное - это распознание типа документа. Ясно, что тип документа «описание телефона» отличить от «обсуждение телефона на форуме» легко. И мы достаточно много информации получили о том, что это за вхождение, когда потом нас просят модель этого телефона. Тоже самое с распознаванием темы страницы. В принципе можно распознавать о чем страницы и производить семантическое индексирование интернет, то есть каждой странице приписывать семантическое метку, есть команды, которые это делают. Довольное мощное направление – это разбор текстов, выделение различных фактов и так далее. Тоже, есть большое количество стартапов, которые это делают, понятно, что инвесторы не в состоянии определить хорошая это идея или нет. Больших перспектив не видится, но на все рук не хватает. В Яндексе выделением фактов, по-моему, тоже занимаются.
Получение запросов. Сейчас пользователи просто вводят запрос. Существуют подсказки, какие запросы вообще есть, на Google, например. Но здесь большое поле для деятельности. Во-первых, web-мастера могут регистрировать запросы и ответы на них, то есть можно создать специальную сеть поверх поисковика. Во-вторых, подставки могут быть довольно-таки серьезные, потому что, когда входит запрос, про него уже достаточно много известно. Многие люди такой запрос спрашивали, про него доставались результаты и так далее. Можно писать «подстановки» - сложные запросы на специальном языке и позволить поискам обмениваться такими запросами. Один раз я запрограммировал такие запросы, я умею находить ту самую «штучку», которая мне нужна, и говорю: «ребята, вот тот самый запрос, который вам находит ту самую штучку – берите и пользуйтесь». И публикую запросы. Тоже фактически социальная сеть поверх поиска.
Существует персонализация, запоминание истории поиска, но я в это не верю, поэтому долго рассказывать не буду. Ну и существует запросная сеть, многие объявляли, что пользователь может спрашивать как угодно, мы разбираем синтаксис запроса и так далее, и выдаем хороший релевантный результат. Пока никто не сделал.
Следующая стадия – это разбор запроса. В запросе можно распознать тему, для этого надо иметь потолок запроса. Можно распознать тип запроса, например, «купить», для этого надо лексику проанализировать. Можно ввести уточняющий диалог, интерактивный запрос : знаешь, ты запрашиваешь «дизайн», а у нас спрашивают еще «web-дизайн», «ландшафтный дизайн», может ты просто выберешь мышкой что-то из этого. Хотя это сделать достаточно просто, почему-то большие поисковики не делают. Стартап опять же существует.
(голос 2) - Интерактивного запроса я не видел, уточняю я. Чтобы уточнить через индексацию нужно довольно сильно повозиться. Ты говоришь «дизайн», а у нас есть еще «ландшафтный дизайн».
(голос 1) -Ну ладно, потом обсудим.
(голос 2) – Что потом обсуждать? Не будет просто Рамблер, с тех пор как там поисковики 2002 года появились.
(голос 1) - Нет, я пользовался, но вы их засунули вниз, где их вообще никто не видел. Сделать можно было по-людски, ну ладно. Известно как, вы делаете не так… Я вообще никак не хочу. если бы мне это было интересно. я бы в Рамблере остался. А я занимаюсь собственным бизнесом…
Поиск - вычисление запроса по индексу. Там продолжаются чудовищные усилия в получении релевантности, как в получении алгоритма. Учет прошлых поисков пользователя, поведение пользователя и так далее. Там подошли уже совсем близко к пределу. Получать существующие поисковики с точки зрения релевантности, по–моему, уже некуда. Чем дальше, тем дороже будет обходиться каждый сантиметр, а глазом этого улучшения будет не видно. Я такие же вещи наблюдал, когда делал разбор грамматики, стиля и так далее, то, что в Word проверяется. Там, когда подходишь к пределу, все остальное дается очень тяжело, а пользователь этого не видит. Примерно здесь такая ситуация.
Показ результатов. Вот здесь как раз все расцвело пышным цветом. Большинство стартапов поисковых именно на результатах строят свой бизнес, получение денег от инвесторов. Что можно сделать? Во-первых, выдавать информацию по типам. Если я знаю тип документа, в котором найдено вхождение, его правильно выдать отдельно. Если это новость, то в новостном блоке, если описание товара, то в блоке «описание товара». У больших поисковиков есть поиск по картинкам, по товарам и так далее. Есть пример, где все эти типы на одной странице в передвигаемых колонках, и довольно наглядно. Никогда не знаешь «зацепит» пользователя или нет. Не знаю, много ли им пользуется и «зацепило» пользователей или нет, но выглядит прикольно.
Вообще, понятно, речь идет о том, чтобы структурировать выдачу, перестать выдавать аутичную ленту. Тематическая кластеризация – следующая идея, которая выглядит привлекательной. Потому что можно разбить выдачу на запрос, на лету как-то их разбить, сформировать и показать. Есть у нас такой пример «Нигма», которую Лаврентко Виктор делает, можно посмотреть как он это делает, по-моему, никак, но почему-то он в это верит. Нет, сходите, посмотрите. Там, например, до последнего времени были кластеры, называвшиеся «лако», то есть левая кавычка, у них алгоритм не работает никак.
На мой взгляд, тематическая кластеризация – это тупиковый путь, поэтому у них ничего не получается. Практической выдачи навигация – довольно много там стартапов. «Тропа» есть такой виртуальный проект… Понятно, что все занимаются интерфейсом, да еще есть персонализация, общая идея. Я тоже в нее не очень верю. По понятной причине что-либо персонализируют сами - один, два процента пользователей в интернете. Пользователь, если это делать за него, не любит, когда интернет за них умничает. Это тоже неприятно. Поэтому такой тупик. Персонализировать по приказу пользователя – все по дефолту останется, если делать за него, то пользователь начнет подозревать что-нибудь нехорошее. Есть еще отдельные истории, например, социальные сети поверх поиска. Я коротко скажу, что сообщество можно получить весь цикл, вот этот, подготовки поисковика, создавать названия, подбирать сайты, регистрировать запросы, и так далее. И эта возможность работает. Хотя будут проблемы, возможно, с полнотой поиска, потому что такое сообщество незаиндексирует весь интернет, не подберет сайты на весь интернет. Но может быть людям это уже и не нужно, не знаю…
Отдельная история – борьба за desktop. Возможно, проблема будет решена между большими поисковиками на поверхности рабочего стола. Все они туда двинулись, в частности Google. Неспроста идут слухи про собственный браузер, про собственный ОЗ. Google, скорее всего, это понимает. Google борется с Microsoft, понятно, что больше не с кем, Yahoo, скорее всего, третий игрок. Google привык брать функциональностью, а там вопрос в совместимости. А в этом Microsoft съел собаку, и, если бы меня спросили, на кого ставить, то я бы поставил на Microsoft.
Про перспективы развития. Сейчас идут бешеные вложения в эту отрасль, я слышал про Ру-нет, у меня волосы на лоб лезут. Люди вкладывают десятки миллионов долларов вообще непонятно во что. А условия успеха следующие. Сейчас вот эта аутичная лента - это качество пользовательского интерфейса на уровне Dos начала девяностых годов. Кто сделает Windows для поиска, тот и победит… в ближайшие три года, пять лет. Ну и кто создаст новые рекламную прокладку, потому что сейчас рекламных площадей не хватает в Интернете, за счет социальных сетей поверх поиска.
Будущее поисковых машин.
1. каталоги сайтов, то есть регистрация сайтов пользователями, сообществами.
2. каталоги запросов, то же самое. Запросы должны регистрировать пользователи, запросы и ответы на них. Как их организовать – это другой вопрос.
3. структурирование выдачи, обязательно. То есть лента результатов поиска, бесконечная, умрет.
4. читаемость выдачи. Аннотации должны быть написаны теми же сообществами, на мой взгляд, название сайтов, и так далее.
5. понимание запроса.
6. новые виды заработка. Но договорились про деньги не говорить, поэтому я не буду. Вообще, с сообществ, которые улучшают поиск, можно брать деньги, и это нормально, и будут охотно платить.
Нет будущего:
1. у библиографической ленты результатов поиска, на мой взгляд.
2. у традиционной релевантности, которая будет только падать, поднять ее не удастся.
3. у борьбы за размеры индексов и борьбы за полноту в рамках всего интернета, думаю, что это закончиться рано или поздно.
4. у аутизма, когда пользователей и web-мастеров считают мертвым материалом.
5. у ссылочного ранжирования нет будущего, поскольку оно настолько скомпрометировано. Я не думаю, что с этим можно что-то сделать. Поскольку там есть противодействующие силы: web-мастера, оптимизаторы.
6. нет будущего у тематической кластеризации результатов поиска, особенно динамической.
7. нет будущего у персонализации и настройки пользователями, потому что они этого делать не будут.
О чем я еще не сказал? Я не говорил про мобильный поиск, про локальный поиск, про блого-поиск. Все это очень интересные темы, достойные отдельного доклада. Национальных проектов я не коснусь, потому что сейчас в Европе идет борьба с Google, тоже самое с Китаем.
Спасибо за внимание.
По-моему тут есть что обсуждать и комментировать. Мой первый комментарий такой:
Из доклада хорошо видно, чем сейчас увлечен сам Ашманов. Его "критическую" часть я бы не воспринимал как истину в последней инстанции.
Добавлено: Чт Май 11, 2006 8:52 am Заголовок сообщения: Re: Стенограмма выступления Ашманова на КИБе. Социальные сет
spark писал(а):
Его "критическую" часть я бы не воспринимал как истину в последней инстанции.
Антон, ты что назвал "критической частью"? Если раздел "нет будущего", то давай попробуем по пунктам разобрать, с чем не согласен. Или что-то иное? _________________ С уважением,
Андрей Иванов.
Добавлено: Чт Май 11, 2006 9:03 am Заголовок сообщения:
Да, в основном это перечислено в главке "Нет будущего", ну и в тексте встречается.
Большего всего возражений у меня возникает по поводу кластеризации и персонализации.
То, что Нигме динамическую кластеризацию не удалось хорошо организовать еще не говорит о тупиковости подхода. В тех же новостных поисковиках кластеризация удовлетворительно работает.
Персонализация может осуществляться без активных действий самого пользователя. Например, пользователю достаточно установить бар, чтобы начала собираться история его запросов. Или, как на mail.ru - просто куки устанавливаются и история тоже становится возможной. На основании этого уже можно персонализировать поиск. Я не говорю, что это идеально работает, мы в соседнем топике обсуждали недостатки поведенческого таргетинга. Но это еще не говорит о бесперспективности.
Добавлено: Чт Май 11, 2006 9:12 am Заголовок сообщения:
spark писал(а):
Большего всего возражений у меня возникает по поводу кластеризации и персонализации.
Мне кажется, дело не в названии. Кластеризация нами, вроде, понимается одинаково. Это
- разложение нечеткого запроса на смысловые варианты и последующая
- группировка результатов поиска по смысловым группам.
Типа веб-дизайн отдельно, ландшафтный отдельно, авто отдельно и т.п. Дизайнов есть много разных, а запрос один - "дизайн".
Игорь в докладе говорит, что все это делать, естественно, надо, но вопрос - кто это будет делать - сообщества или роботы. Я за сообщества, которым помогают роботы. Традиционный взгляд - все должны делать роботы. Ты за кого дружишь? _________________ С уважением,
Андрей Иванов.
Добавлено: Чт Май 11, 2006 9:32 am Заголовок сообщения:
Я дружу за роботов, их мотивировать не надо.
Ну вот есть два прекрасных примера сообществ. ДМОЗ и Википедия. Первая ассоциация, которая приходит, когда я слышу эти слова - скандал.
ДМОЗ как бы ближе к поиску, давай рассмотрим результаты его работы за текущую пятилетку Скромненькие результаты, честно говоря. И близко к результатам алгоритмических поисковиков не стоят.
Добавлено: Чт Май 11, 2006 9:41 am Заголовок сообщения:
spark писал(а):
ДМОЗ как бы ближе к поиску, давай рассмотрим результаты его работы за текущую пятилетку
Неа, я на прошлое опираться не буду. Поисковики нашими силами уже "замотивированы" по самое не хочу. Ошибки Дмоза и Вики на поверхности. Избежать их можно. _________________ С уважением,
Андрей Иванов.
Все вроде бы правильно, графический, ландшафтный, веб-дизайн, всяк в своей директории. Но в директории "графический дизайн" аж 8 сайтов, в просто "дизайн" - 456. Не хотят сами владельцы в глубокие директории, все просто "дизайн" хотят И никакое сообщество с этим желанием не справится.
Добавлено: Чт Май 11, 2006 10:04 am Заголовок сообщения:
spark писал(а):
И никакое сообщество с этим желанием не справится.
Мы с тобой уже об этом говорили. Есть сообщества управляемые и неуправляемые. Простейший пример управляемого сообщества - водители. У каждого желание ездить быстрее и без правил, но на тот свет никому не хочется. Поэтому правила все же приходится соблюдать, это не "воля ГИБДД", а самая настоящая жизненная необходимость.
Что происходит с поиском, когда работает неуправляемое сообщество, мы и хорошо видим, и хорошо знаем по прошлым годам. Каковы будут результаты управляемого - еще не знаем, потому что этого никто и никогда не пытался сделать - создать такой социум. Модераторы Дмоза и т.п. - не сообщество, конкуренция в разделах запрещена чисто технически. _________________ С уважением,
Андрей Иванов.
Добавлено: Чт Май 11, 2006 10:17 am Заголовок сообщения:
Возвращаемся к вопросу о мотивации
Что может заставить меня сформировать объективную выдачу по запросу "дизайн"? Никому кроме дизайнеров этот вопрос не интересен, и сторонниъ экспертов ты не найдешь. Сообщество дизайнеров же будет двигать в первую очередь свои сайты, это естественно. Ну, добавишь ты элемент конкуренции. Но конкурировать будут эти же сайты. Никто никогда не добавит чужого сайта, разве что в приступе филантропии, которые иногда случаются, но достаточно редко, чтобы на них рассчитывать.
В результате, чтобы дать необходимую полноту выдачи, о которой ратует Ашманов, необходимо собрать в этом сообществе всех дизайнеров, какие только есть, чтобы каждый внес свой сайт. Не реально, по-моему
Добавлено: Чт Май 11, 2006 10:55 am Заголовок сообщения:
Вот что подумалось. Сообщества дизайнеров на самом деле уже существуют, ну там фотошоп.ру какой-нибудь. Т.е. нужно думать, каким образом их увлечь идеей наложить свою выдачу поверх алгоритмической.
Добавлено: Чт Май 11, 2006 11:14 am Заголовок сообщения:
spark писал(а):
Возвращаемся к вопросу о мотивации
Что может заставить меня сформировать объективную выдачу по запросу "дизайн"? Никому кроме дизайнеров этот вопрос не интересен, и сторонниъ экспертов ты не найдешь. Сообщество дизайнеров же будет двигать в первую очередь свои сайты, это естественно.
Естественно. Исходим из предпосылки, что каждый двигает только те сайты, которые ему выгодны. С этим не согласиться сложно.
Второй момент уже спорный сильно: каждый должен двигать свой сайт только по тем запросам, которые к нему относятся самым прямым образом. Тут придраться можно к каждой букве, но смысл верен.
Примеры даже искать страшно, но вот, например - http://www.eh-prokachu.com/. Может ли этот сайт быть в ответе на вопрос "автомобили" (2 позиция в Яндексе)? Прокат автомобилей в Москве, аренда автомобилей в Москве - абсолютно точно. Но "автомобили"...
Страшненький такой вопрос - а кто это все определять будет, кто и по чему стоять должен? Сообщество. Ты+я=маленькое сообщество. Сейчас глянем, сможем ли прийти к общему мнению. Согласен, что такой сайт по такому запросу - оно не совсем верно или нет? _________________ С уважением,
Андрей Иванов.
Добавлено: Чт Май 11, 2006 11:34 am Заголовок сообщения:
С точки зрения вебмастера этого ресурса - безусловно. Вспомни, что я о глубоких категориях ДМОЗа писал. Никто не хочет в глубокие категории и четкие запросы
Добавлено: Чт Май 11, 2006 11:57 am Заголовок сообщения:
spark писал(а):
С точки зрения вебмастера этого ресурса - безусловно.
Ну, с моей точки зрения, я должен ездить без светофоров, по встречке и по пешеходам. Желательно, на танке с кондиционером. _________________ С уважением,
Андрей Иванов.
Добавлено: Чт Май 11, 2006 12:40 pm Заголовок сообщения:
Представь себе, извозчики как-то ездили по старой Москве совсем без правил движения. И даже тротуар - не такое давнее изобретение, как может показаться.
Ты же ратуешь за полноту информации по нечетким запросам. Хотя бы несколько сайтов по аренде автомобилей должны в выдаче оказаться. Почему не этот?
Добавлено: Чт Май 11, 2006 1:04 pm Заголовок сообщения:
spark писал(а):
Ты же ратуешь за полноту информации по нечетким запросам. Хотя бы несколько сайтов по аренде автомобилей должны в выдаче оказаться. Почему не этот?
Антон, давай на пару попробуем поупражняться. Есть нечеткий запрос - автомобили. Как его можно "кластеризовать"?
- продажа автомобилей
- аренда автомобилей
- ремонт автомобилей
- мойка автомобилей
- автострахование
- дизайн автомобилей
- клубы автолюбителей
- автогонки
- модели автомобилей
- российские автомобили
- иномарки
- антикварные автомобили
- история автомобилей
- ...
Авто - большая тема, я точно забыл что-то важное. Дополни "кластеры", пожалуйста, как считаешь нужным. _________________ С уважением,
Андрей Иванов.
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах