Зарегистрирован: 21.09.2005 Сообщения: 1590 Откуда: Нижний Новгород
Добавлено: Ср Июл 30, 2008 3:50 am Заголовок сообщения: Качество поиска Google: знакомство
28.7.08
Автор: Уди Манбер, Вице-президент по инженерным разработкам, отдел качества поиска
"Качество поиска" - так называется отдел, который отвечает за определение рейтинга результатов поиска Google. Смысл нашей работы прост и понятен: люди отправляют запросы в компанию Google по нескольку сотен миллионов раз в день, и за несколько долей секунды система Google должна принять решение о том, какие из миллиардов страниц им показать, и в каком порядке. В последнее время мы также делаем и другие вещи. Однако об этом чуть позже.
Удивительно, но о рейтинге результатов Google, которым пользуется так много людей и настолько часто, известно очень мало. Это полностью наша вина, и сделано это намеренно. Откровенно говоря, мы не много рассказываем о том, что мы делаем. Этому есть две причины: конкуренция и злоупотребления. Про конкуренцию все понятно. Ни одна компания не станет делиться секретными рецептами со своими конкурентами.Что касается злоупотреблений: если мы сделаем наши формулы определения рейтинга слишком доступными, то увеличим возможность мошенничества с системой. Обеспечение безопасности за счет скрытности, конечно, не самый эффективный способ, но мы и не полагаемся исключительно на него, однако таким образом мы предотвращаем большое количество нарушений.
Алгоритмы определения рейтинга являются одним из наиболее привлекательных активов компании Google. Мы ими очень гордимся и очень их защищаем. По некоторым оценкам, если сложить все годы работы программистов и исследователей, ушедшие на разработку этих алгоритмов, то получится более 1000 лет, и скорость инноваций с тех пор не снизилась.
Тем не менее полная секретность не является идеалом, и эта публикация в блоге позволит нам открыть немного больше информации, чем мы делали раньше . Мы постараемся выпускать такие сообщения периодическими, рассказывая о нововведениях, объясняя существующие функции, делясь советами, новостями и вступая в диалог. Начать я хотел бы с общей информации о нашем отделе. В дальнейшем мы планируем новые блог-посты на эту тему.
А теперь позвольте мне представиться. Меня зовут Уди Манбер. Я являюсь вице-президентом по инженерным разработкам в компании Google и возглавляю отдел качества поиска. Я работаю в компании Google более двух лет, а поисковыми технологиями занимаюсь почти 20 лет.
Основа отдела - это коллектив, который работает над определением основных рейтингов. Определение рейтинга - нелегкая задача. Она гораздо сложнее, чем многие могут подумать. Одна из причин этого состоит в различиях языков и отсутствии правил, которых следует придерживаться при создании документов. Стандартов, определяющих способ изложения информации, не существует. Поэтому мы должны "понимать" все веб-страницы, которые мог создать любой человек, по любому случаю. Это только половина проблемы. Нам также надо понять вводимые пользователями запросы, которые в среднем составляют менее трех слов, и сопоставить их с тем, как мы распознаем все документы. Не говоря уже о том, что разные люди ищут разные вещи. И все это нам надо сделать за несколько миллисекунд.
Самая известная часть алгоритма определения рейтинга - это PageRank, алгоритм, разработанный Ларри Пейджем и Сергеем Брином, основателями компании Google. PageRank используется и сейчас, однако теперь он является частью гораздо более сложной системы. В число других элементов входят языковые модели (способность обрабатывать фразы, синонимы, диакритические знаки, ошибки правописания и так далее), модели запросов (это имеет отношение не столько к языку, сколько к тому, как его используют люди), временные модели (на некоторые запросы самые лучшие ответы можно найти на странице, созданной всего 30 минут назад, а на некоторые - на страницах, которые выдержали испытание временем) и персонализированные модели (потому что все люди разные).
Другая группа сотрудников в нашем отделе отвечает за оценку эффективности нашей работы. Это делается различными способами, однако цель всегда одна: повышение удобства работы пользователей. Это не главная цель - это единственная задача. Каждую минуту выполняются автоматизированные проверки эффективности (чтобы все работало как надо), а также периодическая оценка качества в целом, и, что самое важное, оценка улучшений алгоритма. Когда у инженера возникает новая идея, и он разрабатывает новый алгоритм, мы его тщательно проверяем. У нас есть группа по работе со статистикой, которая рассматривает все данные и определяет ценность новой идеи. Каждую неделю проходят встречи (иногда и два раза в неделю), на которых мы прорабатываем новые мысли и одобряем нововведения. В 2007 году мы внедрили более 450 улучшений, что в среднем составило около 9 улучшений в неделю. Некоторые из них просты и очевидны -- например, мы исправили ошибку при обработке запросов, содержащих аббревиатуры на иврите (в иврите аббревиатуры обозначаются символом (") рядом с последней буквой, то есть аббревиатура IBM пишется как IB"M), а некоторые были очень сложными -- например, в январе мы внесли значительные изменения в алгоритм PageRank. Большую часть времени мы искали способы повышения релевантности, однако мы также работали над проектами, имеющими единственную цель - упрощение алгоритмов. Чем проще, тем лучше.
В течение последних двух лет одним из основных направлений нашей деятельности был международный поиск. Это значит, что мы работали со всеми языками, а не только с самыми распространенными. Например, в прошлом году мы внесли значительные улучшения в работу системы на азербайджанском языке, на котором говорят примерно 8 миллионов человек. За последние несколько месяцев мы запустили проверку правописания на эстонском, каталанском, сербском, сербо-хорватском, украинском, боснийском, латвийском, тагальском, словенском языках и фарси. Мы организовали всемирную сеть, участники которой предоставляют нам отзывы. Кроме того, у нас есть много добровольных помощников внутри компании Google, которые говорят на разных языках и помогают нам улучшить поиск.
Другая группа работает над разработкой новых функций и новых пользовательских интерфейсов. Для отличной машины нужен хороший двигатель. Но одного его недостаточно. Машина должна быть комфортабельной и легкой в управлении. Пользовательский интерфейс поиска Google довольно простой. Лишь некоторые из наших пользователей читают страницы справки - они могут обойтись без них (хотя читать их легко и мы продолжаем работать над их улучшением). Когда мы добавляем новые функции, мы стараемся сделать так, чтобы они имели интуитивно понятный способ работы и были удобны в использовании для всех людей. Одно из самых заметных введенных нами изменений - это универсальный поиск. Среди других - Блокнот Google, пользовательские системы поиска, и, конечно, множество улучшений страницы iGoogle. Группе по разработке пользовательского интерфейса помогают эксперты по юзабилити, которые проводят опросы пользователей и оценку новых функций. Они путешествуют по всему миру. Иногда они заходят в дома, чтобы посмотреть на работу пользователей в естественной обстановке. (Не беспокойтесь, они не придут без приглашения или без предупреждения!)
У нас есть группа, работа которой полностью посвящена борьбе со спамом и другими типами нарушений. Эта группа работает над множеством проблем: от скрытого текста до не соответствующих тематике страниц, которые имеют наборы ключевых слов, плюс другие схемы, используемые с целью получения более высокого рейтинга на страницах результатов поиска. Группа отмечает новые тенденции спама и борется с ними, обеспечивая масштабируемость предлагаемых решений. Как и все другие группы, она работает на международном уровне, охватывая разные языки и страны. Группа по борьбе с веб-спамом работает в тесном контакте с командой Центра веб-мастеров Google, чтобы обмениваться идеями с пользователями и узнавать мнение владельцев сайтов.
В компании есть другие отделы, которые работают над самыми разными проектами. В целом организационная структура достаточно неформальная. Люди переходят из одной группы в другую, а а новые проекты начинаются постоянно.
Один из наиболее важных моментов, связанных с поиском, состоит в том, что ожидания пользователей растут очень быстро. Запросы завтрашнего дня будет выполнить гораздо сложнее, чем сегодня. Точно так же, как закон Мура определяет удвоение скорости компьютерного расчета каждые 18 месяцев, имеется и скрытый неписанный закон, согласно которому самые сложные запросы в течение короткого времени становятся вдвое сложнее. Это невозможно выразить точными цифрами, но мы все это чувствуем. Мы знаем, что не можем спокойно почивать на лаврах - нам надо упорно работать, чтобы решить эту задачу. Как я говорил ранее, мы будем и в будущем сообщать вам об обновлениях в качестве поиска, поэтому следите за новостями.
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах