Добавлено: Пт Июн 10, 2005 8:03 am Заголовок сообщения: Гипотеза о "несправедливом" ранжировании
В продолжение дискуссии с Сергеем (wolf) о справедливой-несправедливой выдаче. Его тезис - алгоритм справедлив по определению, потому что он одинаково относится ко всем. Если выдача плохая, значит, что-то надо поправить в алгоритме.
Мой - надо дать возможность людям делать то, что они хотят, т.е. ставить любые ответы на любые запросы и линковать, куда угодно. Единственное ограничение - не должно быть анонимности, каждый, кто ставит ответ, "подписывается" под ним. Естественно, тут ни о какой объективности речь уже не идет.
При обоих подходах неизбежны попытки веб-мастеров выйти в лидеры и использовать свое лидирующее положение в личных целях. Методы могут быть различными, но нас интересуют лишь те, которые отрицательно влияют на результат для пользователя (спам, попросту).
Поисковики борются со спамом, баня сайты, на которых он обнаружен, при этом причину бана стараются скрыть. Я предлагаю банить не сайты, а людей, дающих неверные ответы, при этом показывая причину, за что у данного человека отбирается право свободно линковать ответы на запросы. Надо добавить, что если это право отбирается, то из системы удаляются все ранее сделанные им ответы.
И в том, и в другом случае модератор навигационной системы руководствуется какими-то представлениями о "справедливости" и "качестве", т.е. принципиальной разницы нет. Мы видим, что по вопросу очистки от мусора объективность уже исчезла - администрация навигационного сервиса делает, что ей кажется правильным в интересах пользователей. Это как раз и есть забота о качественной выдаче, т.е. забота о выживании самого поискового сервиса.
Люди могут делать намного более осмысленные, грамотные, точные ответы, чем поисковик. Но проблема ранжированию для них намного острее. Теперь собственно проблема. Какие факторы надо принимать во внимание при ранжировании результатов поиска, когда их делает не алгоритм, а живые люди? Я на эту тему голову ломал довольно долго, в итоге осталось только два фактора. Ранжирование должно зависеть от:
- авторитетности эксперта, который дал ответ (она пропорциональна количеству сделанных им ответов в системе);
- количества денег, заплаченных за регистрацию ответа.
Т.е. мы даем возможности для любой категории клиентов, продвигающих сайт. Хочешь двигать бесплатно - наращивай авторитетность и развивай систему. Не хочешь работать руками - заплати больше, и всего делов.
Где слабое место в таком подходе? _________________ С уважением,
Андрей Иванов.
Добавлено: Пт Июн 10, 2005 8:38 am Заголовок сообщения:
как вы собираетесь оценивать релевантность ответов? какие будут критерии бана? каков механизм? вручную? тогда вы заранее погибли под волной спаммеров, которые на каждый ваш шаг будут совершенствовать свои механические имитаторы человеков-экспертов (а их напишут, как только ваша система станет коммерчески интересной, т.е. трафикогенераторной). и давить "массой". миллион порноссылок на миллион слов от миллиона ников не победить такой системой.
Добавлено: Пт Июн 10, 2005 8:52 am Заголовок сообщения:
Mama Ari писал(а):
как вы собираетесь оценивать релевантность ответов? какие будут критерии бана? каков механизм? вручную? тогда вы заранее погибли под волной спаммеров, которые на каждый ваш шаг будут совершенствовать свои механические имитаторы человеков-экспертов (а их напишут, как только ваша система станет коммерчески интересной, т.е. трафикогенераторной). и давить "массой". миллион порноссылок на миллион слов от миллиона ников не победить такой системой.
Давайте по-вопросам.
1. Как оценить релевантность ответа. | Это очень большой вопрос, и ответом на него, надеюсь, будет не одна статья и не один спор. Я задам встречный - как вы считаете, надо ли вообще поднимать эту тему, а что же должно быть в идеале в ответе на нечеткий запрос? Или сразу же объявить такую проблему нерешаемой и считать, что 10 сайтов проституток в ответ на "досуг" - это как раз то, что и надо.
Несколько формальных признаков "неправильного" ответа можно назвать и сейчас: безграмотность, невыделение заголовка, излишняя пунктуация, и "стоп-слова" типа "лучший", "эксклюзивный", "уникальный", они в законе о рекламе перечислены. "Повелительно-вопросительное" наклонение - "зайди сюда", "хочешь телевизор? у нас он есть" и т.п. Эти правила обязательны для модераторов любого большого каталога.
2. Механизм | Да, вручную. Удаление эксперта - операция осмысленная. Насчет автоспамилок Вы правы. Но здесь есть довольно простой механизм - каждый должен оплатить свои возможные собственные похороны. Пока система коммерчески неинтересна - спамерам там делать нечего. Когда станет интересной - просто вводится разовый взнос за выдачу экспертного статуса. Для сравнения, при активации рекламного аккаунта в Гугле, со счета "просто так" списывается 5 долларов. _________________ С уважением,
Андрей Иванов.
Добавлено: Пт Июн 10, 2005 9:05 am Заголовок сообщения:
по последнему пункту.
у меня, кажется, по 200 рублей списывают, это не 5 долларов
не вижу, как это решит проблему. задирая цену так, чтобы неинтересно было внедрять досуг и шопы, вы отсечёте всех прочих, и ценность системы умрёт, поскольку она в лучшем случае превратится во фругль. никакой возможности сделать два разных статуса - платный и бесплатный - и вручную отслеживать справедливость их давания - нет, разве что найдёте огромного инвестора и денег на содержание толпы модераторов типа как в я-каталоге.
по первому:
то есть вы предлагаете оценивать не релевантность ссылки, а ТЕКСТ ссылки?
Добавлено: Пт Июн 10, 2005 9:37 am Заголовок сообщения:
Mama Ari писал(а):
вы отсечёте всех прочих, и ценность системы умрёт, поскольку она в лучшем случае превратится во фругль. никакой возможности сделать два разных статуса - платный и бесплатный - и вручную отслеживать справедливость их давания - нет
по первому:
то есть вы предлагаете оценивать не релевантность ссылки, а ТЕКСТ ссылки?
А и не надо делать два статуса. Статус один - эксперт. И его цели - личные, это аксиома. Из высоких идей долго никто не проработает, на это ставку делать нельзя. Но отсутствие "единой теории верного ответа" совершенно не означает, что хороших ответов не будет, или они будут погребены под спамом. Проблема поисковиков сейчас в том, что в выдачу все больше попадают товарные предложения. Поэтому я сейчас выскажу одну очень спорную идею - для торговцев необходимо выделить запросные "коридоры". Не может выдача на запрос "кондиционер" состоять из одних предложений "купи у меня кондиционер". Наверх должны выйти наиболее качественные материалы по теме, устойчивые сообщества, информация от производителей, а не предложения от конечных продавцов. Попросту, разместить торговое предложение можно только по запросу, недвусмысленно показывающему, что человек хочет именно купить - "куплю кондиционер" и т.п. Эту идею интересно развивать.
По первому. Текст ссылки оценивать не нужно. Его надо просто проверять, как это делает корректор. "Русский язык как кунг-фу...", сказано, конечно, красиво, но грамотность тех, кто "производит" текстовые сообщения для пользвателей - обязательное требование.
Оценивать надо соответствие аннотации (текста ответа) запросу, и соответствие страницы, куда перейдет юзер, аннотации. Это и называется "релевантностью". _________________ С уважением,
Андрей Иванов.
Зарегистрирован: 18.03.2005 Сообщения: 194 Откуда: Москва
Добавлено: Пт Июн 10, 2005 9:40 am Заголовок сообщения:
andre писал(а):
Или сразу же объявить такую проблему нерешаемой и считать, что 10 сайтов проституток в ответ на "досуг" - это как раз то, что и надо.
а что в этом не нравиться ? это исторический факт и с ним не посморишь...
да я согласен с тем, что много детей напишут так же, но это их проблема раз напишут два .... три .... а потом и начнут давать правельные формулировки, например "досуг для детей". так и должен развиваться человек, а не поисковик ! машину сложно заставить понять, что тварится в голове человека и кто он ваще такой ! у нас же в стране (даже хотябы в Москве) половина компьютеры не знаю как включить не говоря уж про интернет, а вы тут говорите про то что надо развивать алгоритмы для кого? для русского безграматного валинка нет. а остальные всегда найдут, то что хотят ....
Добавлено: Пт Июн 10, 2005 9:46 am Заголовок сообщения:
coding писал(а):
а что в этом не нравиться ? это исторический факт и с ним не посморишь...
Вот это и не нравится. Вот еще один "исторический факт", тут недавно про "оптимизаторскую паранойю" упомянули, как русским безграмотным валенкам при помощи поисковика понять, что это такое - http://www.yandex.ru/yandsearch?text=%EF%E0%F0%E0%ED%EE%E9%FF _________________ С уважением,
Андрей Иванов.
Добавлено: Пт Июн 10, 2005 11:04 am Заголовок сообщения:
А по существу, Андрей, Mama Ari во многом прав. Гды ты найдешь армию надсмотрщиков за экспертами? Даже если стимулировать взаимное стукачество, сигналы кто-то должен проверять. Тут самоурегулирование не прокатит.
Добавлено: Пт Июн 10, 2005 11:09 am Заголовок сообщения:
andre писал(а):
Проблема поисковиков сейчас в том, что в выдачу все больше попадают товарные предложения. Поэтому я сейчас выскажу одну очень спорную идею - для торговцев необходимо выделить запросные "коридоры".
фругль.
andre писал(а):
Попросту, разместить торговое предложение можно только по запросу, недвусмысленно показывающему, что человек хочет именно купить - "куплю кондиционер" и т.п. Эту идею интересно развивать.
Добавлено: Пт Июн 10, 2005 11:28 am Заголовок сообщения:
Цитата:
В продолжение дискуссии с Сергеем (wolf) о справедливой-несправедливой выдаче. Его тезис - алгоритм справедлив по определению, потому что он одинаково относится ко всем. Если выдача плохая, значит, что-то надо поправить в алгоритме.
Правильнее будет сказать - алгоритм справедлив, если он одинаково относится ко всем.
Цитата:
Где слабое место в таком подходе?
Слабое место - в людях. "Авторитетность", если ее автоматически мерить, будут накручивать. Если зависеть будет от решений людей - ну тоже будут накручивать, договариваться. Смысл в том, что кроме владельца системы, все остальные участники будут решать свои задачи, а не задачи системы.
Цитата:
Или сразу же объявить такую проблему нерешаемой и считать, что 10 сайтов проституток в ответ на "досуг" - это как раз то, что и надо.
Ну вон в Яндексе 6 всего из 10.
А как по-твоему надо поступать, если 70% задающих этот запрос именно проституток ищут?
Цитата:
Для сравнения, при активации рекламного аккаунта в Гугле, со счета "просто так" списывается 5 долларов.
Как это, разве на эту сумму трафик не отдается?
Цитата:
Поэтому я сейчас выскажу одну очень спорную идею - для торговцев необходимо выделить запросные "коридоры". Не может выдача на запрос "кондиционер" состоять из одних предложений "купи у меня кондиционер". Наверх должны выйти наиболее качественные материалы по теме, устойчивые сообщества, информация от производителей, а не предложения от конечных продавцов. Попросту, разместить торговое предложение можно только по запросу, недвусмысленно показывающему, что человек хочет именно купить - "куплю кондиционер" и т.п. Эту идею интересно развивать.
Однако идея слишком спорной получилась. А как же та немалая доля людей, которые явно хотят купить, но задают однословный запрос?
Добавлено: Пт Июн 10, 2005 11:38 am Заголовок сообщения:
гугль снимает по 200 рублей за открытие аккаунта и за каждую его реактивацию после трёх банов низкоCTR-ных слов. трафик на эти деньги не отдаётся. это в условиях оговорено.
Андрей, твой вариант плох тем, что не напасёшся людей на запросы.
Просто сравни количества людей задающих запросы, делающих сайты, продвигающих сайты в поисковиках и экспертов дающих ответы.
Как там в поговорке: один дурак может задать столько вопросов, что и 10 мудрецов не ответят.
На мой взгляд реален только симбиоз автоматизированного поиска и экспертной оценки. Причём эксперты могут подбирать только уточняющие запросы, но не ответы на них.
Смотри пример. Беру первый попавшийся запрос: безалкогольные напитки. Поскольку я этот запрос придумал находу, т.е. сам не знаю чего я хочу от поисковика по этому запросу, то я не могу сделать оценку релевантности выдачи. Зато сходу могу сказать, что она явно не окучивает все возможные толкования запроса. Более того, все возможные ответы ни одним набором из 10 сайтов не покроются, если это только каталоги не будут. Значит максимально справедливо со стороны поисковика было бы не пихать выдачу сразу, а вывалить список уточняющих запросов.
Что это может быть: сайты можно сгруппировать по категориям: производители, оптовые продавцы, онлайн-продавцы (оффлайн вряд ли интересны ). Напитки тоже можно категоризовать: газированные, негазированные, тонизирующие.
Возможно надо бы выделить отдельной категорией народные напитки (квасы, морсы, компоты, рассолы )
Ну и долго поспорить на тему является ли питьевая вода напитком
Сами категории лучше сделать фасетными(?), т.е. чтобы можно было их сочетать в любой последовательности. А вот уже внутри категорий делать отбор сайтов обычным образом. В противном случае у тебя эксперты никогда не договорятся кого вперёд ставить ПепсиКо или Кока-Колу, при условии что самим этим компаниям порядок выдачи в твоём поисковике нафиг не нужен
Даже если стимулировать взаимное стукачество, сигналы кто-то должен проверять. Тут самоурегулирование не прокатит.
Саморегулирование нигде не прокатит, если к нему не подвязать реальные интересы. Все мы прекрасно понимаем, что люди всегда будут стремиться решать именно свои проблемы. Поэтому система имеет шансы жить долго, когда все ее участники системы материально заинтересованы в ее существовании. Это трудно оспорить, вопрос, возможно ли существование такой материально-сбалансированной системы в принципе.
Давайте просто разберем типичные случаи. Допущение только одно: пусть у системы есть постоянный хороший трафик, т.е. она реально интересна всем, кто хочет себе посетителей. В качестве критерия "качества" ответа принимаем - отсутствие бана. В системе постмодерация, т.е. права экспертов все имеют как бы изначально, а модераторы смотрят и проводят селекцию экспертов. Каких-то ограничений на повторную выдачу экспертного акка и т.п. нет.
Еще раз специально оговорю, что модератор - царь и Бог. Ошибаться он, конечно, может, но это его система, и он волен строить ее так, как считает нужным.
Ранжирование идет по какой-то формуле, где ранг ссылки зависит от веса поставившего ее эксперта и количества денег. Отсюда первое следствие: если не хочешь платить - делай больше регистраций. Это плюс системе, она может отвечать на бОльшее количество запросов. Повысишь свой авторитет, сможешь оказывать услуги за меньшую цену клиентам, у которых веса нет, т.е. попросту зарабатывать на системе. Чем больше авторитет, тем выше возможности, соответственно. При наличии трафика такие возможности несложно конвертировать в деньги. Т.е. реально авторитетный эксперт своим весом в системе дорожить будет.
Второе следствие, приходит богатый эксперт, "башляет", ставит плохой ответ - и вылетает с объяснением причины, что модератору не понравилось. Если не понял, еще раз берет себе акк эксперта, ставит, платит, и опять вылетает. Свои "похороны" он оба раза уже оплатил, поэтому модератор не в обиде, что время пришлось тратить на бан. Будет ли богатый эксперт в третий раз регистрить то же самое? Не будет, конечно, побережет деньги. И - либо научится ставить ответы, которые нравятся модератору. Либо - заплатит эксперту, который такие ответы делать умеет. Точно так же мы платим юристам, которые более сведущи в законах.
Вопросы автоспама при таком подходе даже и рассматривать как-то не стоит. Дурной спамер модератора просто озолотит, а в этом бизнесе дурных мало, деньги считать дорвейщики как раз хорошо умеют.
Допустим, система стала настолько популярной, что модератор устал за всем следить - не успевает уже. Во всем мире это решается одинаково - он делегирует права, сохраняя контроль, т.е. создает иерархическую систему из нескольких уровней.
Например, предлагает кому-то (назовем кого-то Агентством) некий процент от экспертных поступлений за то, что такую-то группу экспертов теперь будет отслеживать не сам модератор, а именно Агентство. Скорее всего, такая роль будет предложена наиболее талантливому эксперту.
Агентство может зарабатывать как угодно:
- может вербовать и обучать экспертов и брать с них оговоренную долю;
- может брать клиентов, делать для них регистрации, а экспертам платить оклад.
Это все личное дело Агентства, Модератора интересуют лишь ответы и их ценность для пользователей. Отношения по той же схеме: если агентство не справляется с главной задачей - все ответы подчиненных ему экспертов могут быть удалены из системы. А это - недовольные клиенты, недовольные эксперты и т.п. проблемы, т.е. бан Агентству тоже невыгоден.
Ясно, что аналогичным образом можно создать и какое-нибудь Суперагенство, которое отвечает за Агентства и т.п. Поэтому армии модераторов в штате не надо, все прекрасно могут заработать себе и сами, в зависимости от своего положения в иерархии и работоспособности. Единственное условие, как мы уже говорили - трафик.
А теперь самый главный вопрос: какую же систему хочет построить модератор? Какие принципы в ее основе? Чем он хочет привлечь пользователей и отличаться от иных навигационных сервисов? Ясно, что если требования будут жестко формализованы, добиться выполнения формальных обязательств легко.
Но как формализовать смысл, что считать идеальным ответом на четкий вопрос, на нечеткий и т.п. - это все вопросы теоретические, которые даже не поднимались еще толком в "сложной науке поиска", там, в основном, про "веса слов", "положение на странице" и "правильные ссылки"... Вопросы о том, какая должна быть выдача, мы сейчас обойдем, пока говорим только о технике управления сообществом.
Возвращаясь к основной теме, может ли модератор, имея трафик, построить ту выдачу, которую считает нужной, используя описанную систему ранжирования и управления иерархической системой экспертов? Или где-то есть то место, где спамеры прорвутся и будут творить, что захотят они, а модератор не сможет с этим справиться? _________________ С уважением,
Андрей Иванов.
Полноту индексного поиска каталог никогда не заменит, да и по цитатам индексом искать удобнее. Есть любители рубрикаторов и всяких спецпроектов типа энциклопедий, товаров... комплексный навигационный сервис решает намного больше задач, чем может решить поиск в запросах и организация сообщества "отвечателей". Но такой "семантический каталог" дополняет индексы - очень хорошо. _________________ С уважением,
Андрей Иванов.
Последний раз редактировалось: andre (Пт Июн 10, 2005 1:43 pm), всего редактировалось 1 раз
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах