вторник, 18 июня 2019 г.

Краткий курс современной поисковой оптимизации

Давненько я не систематизировал рекомендации по поисковой оптимизации сайта с учетом актуальных на настоящий момент реалий.  И вот уже как-то накопилось много вещей, требующих определенной систематизации, так что, на мой взгляд, подошло самое время собрать что-то типа краткого руководства. Естественно, что по каждому его пункту можно написать обширный отдельный мануал, но это не является целью этой статьи. Будем писать сегодняшнюю картину крупными мазками ☺.
Итак, начинать надо с банальных, но необходимых базовых вещей:
  1. Определения целей и задач и проекта.
На основе этой информации уже можно реализовать второй шаг:
  1. Составление семантического ядра сайта (списка целевых поисковых фраз).
Инструменты тут могут использоваться различные, начиная от ручной обработки данных соответствующих сервисов поисковых машин. Также существует масса специализированных сервисов по составлению семантического ядра.  Тут уж, как говорится, на вкус и цвет…
Следующий важный шаг:
  1. Классификация запросов семантического ядра. Я считаю, что существенно важны следующие два разреза классицификации:
    • На геозависимые и геонезависимые
    • На коммерческие и информационные
Классификацию можно провести как самостоятельно, так и положившись на мнение специализированных сервисов. Для самостоятельной классификации запросов на геозависимость могу порекомендовать актуальную редакцию своего метода. Ну, а для самостоятельной классификации запросов на коммерческость следует руководствоваться простым, но эффективным принципом – чем больше в топе выдачи по запросу явно коммерческих ответов, тем выше его коммерческость. Как правило коммерческие запросы являются геозависимыми, а информационные – геонезависимыми.
На основе полученной классификации можно реализовать следующий этап:
  1. Распределение запросов по посадочным страницам.
Этот процесс также носит название кластеризации. Основное правило – запросы из разных групп нецелесообразно использовать на одной посадочной странице. Кроме этого при группировке запросов я рекомендую руководствоваться лексическим и смысловым сходством запросов. Конечно, было не совсем правильно не упомянуть существование многочисленных сервисов так называемой кластеризации по топу, но в свое время я обозначил свою точку зрения по этому вопросу, и мне к ней добавить нечего.
Далее переходим непосредственно к поисковой оптимизации посадочных страниц.
  1. Для запросов с ярко выраженной коммерциализированностью, когда в топе выдачи находятся преимущественно коммерческие страницы, посадочные страницы следует оптимизировать по следующим принципам:
    • Основным контентом посадочной страницы должен быть листинг с названием и описанием товаров/услуг и цен на них (как вариант для некоторых случаев – типовые примеры смет на услуги). Упоминания ключевых фраз очень желательно употреблять в названиях и описаниях товаров/услуг. Желательно, чтоб количество элементов в листинге товаров не превышало разумных для адекватного восприятия пользователями значения. На основе экспериментальных данных для интернет-магазинов рекомендую не превышать порог в 50-60 элементов листинга на странице, а в случае превышения разбивать листинг на страницы (так называемая пагинация). Хотя, естественно, приемлемые значения количества элементов в списке могут варьироваться в зависимости от тематики.
    • В случае использования пагинации, размещать на второй и последующих страницах пагинации тег <link rel=”canonical” href=”…”>, используя в качестве значения атрибута href адрес основной (первой) страницы.
    • Описательная текстовая часть должна быть сравнительно невелика (буквально несколько предложений) и находиться по коду страницы выше листинга товаров/услуг.
    • Очень желательно использование на странице различных интерактивных элементов, вовлекающих пользователя во взаимодействие со страницей и стимулирующих его на активные действия на странице – калькуляторы расчета цен на товары и услуги, конфигураторы услуг, фильтры поиска товаров по различным параметрам, галереи изображений, небольшие видеоролики, формы обратной связи и т.п.
  1. Для запросов с малой коммерциализированностью (информационных), когда в топе выдачи находятся преимущественно информационные статьи, рекомендую следующее:
    • Написать авторскую статью по теме запроса. Особых требований к техническим параметрам (объем, количество употреблений ключевых слов и т.п.) нет. Главное требование – статья должна быть «вовлекающей», т.е. стимулирующей пользователя на ее прочтение, в идеале – написанная экспертом, обладающим хорошим стилем изложения. Очень желательно, чтоб статья была написана простым языком, легко читалась, не изобиловала техническими терминами и канцеляризмами. Очень приветствуется описание решений конкретных проблем, связанных с темой запроса.
    • Желательно, чтобы статья была хорошо структурирована – разбита на небольшие абзацы, разделенные изображениями, содержала таблицы, списки и т.п.
  1. Для отдельного класса запросов, в которых невозможно выделить превалирование коммерческих или информационных интентов, то есть когда в топе выдачи соотношение коммерческих и информационных ответов примерно равно, можно порекомендовать выбрать одну из двух стратегий:
    • Создавать как коммерческие, так и информационные посадочные страницы по обозначенным выше принципам.
    • Скомбинировать на одной посадочной странице вовлекающий авторский текст по теме запроса с листингом товаров/услуг.
Для внутренней ссылочной оптимизации целесообразно сделать следующее:
  1. Хорошо перелинковать посадочные страницы. Самые важные страницы должны быть элементами основного меню сайта, т.е. иметь входящие ссылки со всех страниц сайта, включая главную. Для остальных посадочных страниц следует руководствоваться двумя правилами:
    • Уровень вложенности (т.е. самая короткая цепочка внутренних ссылок, ведущая на данную страницу от главной) должен быть как можно меньше.
    • Количество внутренних ссылок, ведущих на данную страницу, должно быть как можно больше.
Ну, и, конечно же, следует не забыть о поведенческих факторах, вернее, о целевом трафике, на основе которого они будут рассчитываться. Для этого:
  1. По возможности обеспечить приток целевого трафика на сайт для того, чтобы поисковые системы смогли корректно рассчитать значения поведенческих факторов. Лучший вариант – контекстная реклама в результатах поиска Яндекса и Google по запросам из семантического ядра. Причем, рекламные объявления должны вести на продвигаемые по соответствующим запросам посадочные страницы. В адресах страниц в рекламных объявлениях на случай потенциального риска поисковиками некорректной склейки страниц желательно избегать использования utm-меток. Либо настроить для страниц с utm-метками в адресе тег <link rel=”canonical” href=”…”> таким образом, чтобы значением атрибута href был адрес соответствующей страниц без utm-меток.
Что же касается внешних ссылок, то мои рекомендации таковы.
  1. Внешние ссылки на данный момент не играют заметной роли при продвижении в Яндексе. При продвижении в Google при организации внешних ссылок следует руководствоваться следующими принципами:
    • По возможности избегать ссылок с сайтов, активно торгующих ссылками на биржах вне зависимости от типа ссылок – блочных или статейных. Лучший вариант – прямые контакты с вебмастерами незасвеченных на ссылочных и статейных биржах сайтах (т.н. «аутрич»).
    • Избегать т.н. «крауд-маркетинга», т.е. получения ссылок с ресурсов с user-generated контентом (форумов, блогов, социальных сетей, комментариев к статьям и т.п.)
    • Сайты доноры должны быть «живыми», с ненулевой посещаемостью. Следует избегать автоматически сгенерированных, восстановленных из архива, неподдерживаемых сайтов (т.н. «Made for Sape»).
В общем, как-то само собой получились ровно десять довольно агрегированных пунктов рекомендации, на основе чего так и подмывает озаглавить статью в духе «10 самых важных вещей для поисковой оптимизации». Но я, пожалуй, оставлю первоначальное название. И пожелаю всем удачи в продвижении сайтов.


понедельник, 27 мая 2019 г.

Система аналитики Finteza – незамыленный взгляд

Пожалуй, мало мимо кого в русскоязычном сеошном мире прошла новость о продаже Сергеем Петренко после 18 лет владения легендарного Сёрча – старейшего и популярнейшего в сеошной среде форума вместе с новостным сайтом. Покупателем стала практически никому среди аудитории форума до того неизвестная компания Metaquotes. И практически сразу же после объявления Сергеем Петренко о сделке, в подвале Сёрча появилась реклама сервиса веб-аналитики Finteza. Как многолетний супермодератор Сёрча и колумнист сёрчевской новостной рассылки я не мог пройти мимо этого продукта, который показался мне по сути единственной ниточкой, связывающей нового владельца форума с сеошным миром.
На главной странице сайта аршинными буквами громко заявлена миссия данного продукта: «Комплексная аналитика и управление рекламой. Анализ трафика вебсайтов и мобильных приложений, изучение поведения пользователей, выявление бот-трафика и создание воронок конверсий». Звучит внушительно, и первым делом после регистрации я добавил туда свой SEO-блог, разместив выданный код на его страницах. При регистрации сайта несколько удивила смесь русского и английского языка в названии полей регистрационной формы:
Письмо о регистрации пришло также на английском. На мой взгляд, это смешение языков немного неудобно для пользователя системы.
Итак, зарегистрировав в системе свой сайт и разместив на нем выданный код счетчика, начинаем получать статистику по пользователям сайта. Набор отчетов в общем-то вполне стандартен – количество посетителей, просмотров и сессий; сайты, с которых они пришли с отдельными срезами поисковикам и соцсетям; срезы по типам устройства, операционным системам, браузерам, странам, просмотренным страницам и т.п. Несомненным плюсом системы является то, что эти срезы можно комбинировать, создавая довольно сложные фильтры.
Естественно, отсутствуют самые интересные с точки зрения SEO-специалиста отчеты – по поисковым запросам. С тех пор как поисковики стали шифровать текст запросов в реферрере, эту статистику не сможет получить ни один сторонний счетчик. Лично с моей точки зрения очень полезной была бы система аналитики, которая смогла бы в своих отчетах объединить данные по поисковых запросах из Яндекса и Google. Конечно, пользователю для этого ей пришлось бы дать доступ к счетчикам Метрики и Analytics, откуда система могла бы импортировать нужные данные и интегрировать в свою статистику, но думаю, оно того стоило бы. Так что могу лишь пожелать разработчикам Финтезы подумать в этом направлении. Если, конечно, это технически и организационно возможно. Потому как, если вдруг получится агрегировать данные от двух крупнейших поисковиков Рунета и совместить их со своей статистикой, то это будет просто бомба для сеошников.
Довольно любопытным мне показался отчет о качестве трафика, которое Финтеза оценивает по своим внутренним критериям. С чувством глубокого удовлетворения я обнаружил, что трафик у меня на блоге исключительно качественный (аж на 93 полновесных процента) ☺
Но, собственно, статистика посещений не есть главная функция Финтезы. Главная функция, как мы помним, – аналитика трафика.
Из аналитических возможностей статистических отчетов, несомненно, стоит отметить события и воронки конверсий. Для отслеживания конкретного события (заполнение формы, нажатие на кнопку, клик по ссылке, загрузка страницы и т.п.) необходимо будет, зарегистрировав его в системе, разместить полученный код треккера в соответствующем месте кода на страницах своего сайта.
Далее из различных событий можно строить воронки конверсий. В качестве этапов воронок можно также добавлять также факт посещения пользователем определенной страницы. На мой взгляд, получился достаточно полезный и, главное, удобный инструмент. Так, например, я узнал, что страницу «Услуги» на моем блоге посетило всего двое из семидесяти (т.е. примерно 3%) пользователей, прочитавших последнюю статью, да и то один из этих двоих оказался ботом:
Мотаю на ус, что надо основательно подумать над привлечением пользователей блога на страницу «Услуги».
Через пару дней после регистрации в системе пришло письмо (опять-таки на английском) о том, что я могу создать на своем сайте рекламную зону и собирать статистику показов баннеров. Никаких баннеров у меня на сайте не было, но ради эксперимента почему бы и не поставить? Доступна дюжина размеров от кнопки 88х31 до полноразмерного баннера 468х60, но можно задать и свой. Я выбрал полноразмерный и решил водрузить туда баннер самой Финтезы. Жаль, на их сайте я не нашел партнерской программы, и мне пришлось вырезать баннер из шапки Серча и подгонять под нужный размер, чтоб начать гнать на Финтезу траффик со своего блога совершенно безвозмездно. ☺
После создания рекламной зоны размещаем выданный код у себя на сайте в том месте, где планируется показ баннера.
А затем уже можно создавать рекламную кампанию. Ее можно таргетировать по странам и территориям, юзер-агентам, задать расписание показа.
Также можно добавлять и другие различные условия по таргетингу аудитории – пол, язык, диапазон ip адресов, привязка местоположения к определенным географическим координатам и т.д. и т.п. – в общем-то, довольно богатый набор критериев.
Созданную рекламную кампанию связываем с созданной рекламной зоной.
Затем для созданной рекламной кампании нужно загрузить баннеры. Для этого создаем рекламную группу, и уже в неё загружаем заготовленный с такими трудами баннер.
В общем-то всё. Теперь не забываем активировать рекламную кампанию с помощью соответствующего слайдера, и наслаждаемся появлением рекламного баннера у себя на сайте ☺
Ну, а затем занимаемся любимым делом вебмастера – рефрешим статсы ☺. Ну, а статсы, как я уже отмечал выше, в системе достаточно мощные. К срезу статистики по конкретной рекламной зоне можно применять всевозможные комбинации фильтров, а также отслеживать события и строить воронки. К примеру, я узнал, что CTR финтезовского баннера в шапке моего сайта составляет 9,68%, причем трафик на 99% качественный. Эх, Финтеза, почему у тебя еще нет партнерской программы? ☺
В общем, на мой взгляд, получился достаточно симпатичный и гибкий инструмент. Если б еще решили вопрос с импортом данных о поисковых запросах из Метрики и Аналитикса – цены бы ему не было.

понедельник, 15 апреля 2019 г.

Исследуем новые операторы before: и after: в Google

9 апреля 2019 года Google в официальном твиттере разработчиков поиска порадовал неожиданной новостью – вводом новых операторов поиска before: и after:.
В последнее время, что в Google, что в Яндексе, наблюдается отчетливая тенденция на урезание поискового функционала (вспомнить хотя бы недавнюю отмену Google оператора info:), а тут вдруг случается его расширение. Новые операторы по сути являются некоторыми аналогами яндексовского оператора date: и позволяют фильтровать поисковую выдачу в определенные временные периоды по дате последнего изменения документов (в терминах Google, причем довольно непрозрачных, как мы убедимся далее). Подобные фильтры бывают полезны при решении ряда задач SEO-аналитики, и, в целом, отрадно, что в Google теперь тоже есть подобная возможность.
Однако, к моему сожалению, в данном случае не произошло унификации поисковых функционалов двух крупнейших поисковиков Рунета, и, хотя с помощью операторов before: и after: в Google и date: в Яндексе можно решать аналогичные задачи, однако логика применения операторов все-таки различается. Так, например, для того, чтобы найти релевантные запросу документы за определенную дату в Google, в отличие от Яндекса, придется сооружать конструкцию из двух операторов. И, как мы убедимся далее, все равно не получается найти корректного решения.
В данной статье я постараюсь исследовать некоторые свойства новых операторов Google, взяв в качестве «подопытного кролика» сайт своего SEO-блога.
На момент написания статьи Google показывает в выдаче 63 страницы с этого сайта, причем, в силу небольшого числа страниц это число нетрудно проверить, просто сосчитав количество результатов на странице, с настроенной выдачей по 100 результатов:
Однако применение к результатам поиска операторов before: или after: с заведомо покрывающими все возможные результаты значениями, оставляет в выдаче только по 40 результатов:
И действительно, можно найти проиндексированные страницы с сайта, применение к которым операторов before: и after: дает пустую выдачу. Например:
Получается, что не все страницы имеют дату с точки зрения операторов before: и after: (а в данном случае это без малого четверть страниц с сайта), даже не смотря на наличии даты в сниппете. Этот факт следует учитывать при анализе выдачи с использованием данных операторов.
Теперь попробуем составить конструкцию для поиска документов в Google за определенную дату.   Для главной страницы исследуемого сайта Google показывает на момент написания статьи в сниппете дату 11 февраля 2019 года (что хорошо видно из первого сниппета статьи). Главная страница находится в выдаче, если в эту дату взять в качестве значения как для оператора before:, так и для оператора after:
Если же для оператора before: дату уменьшить на один день, а для оператора after: дату увеличить на один день, то главная страница исчезает из выдачи, что явно свидетельствует о том, что ее дата с точки зрения этих операторов – именно 11 февраля 2009:
Причем, отметим, что количество страниц выдачи в обоих случаях уменьшается на две (в первом – с 35 до 33, во втором – с 7 до 5). Логично предположить, что с датой 11 февраля 2019 года на сайте по мнению Google должно находиться две страницы.
Попробуем сконструировать запрос, скомбинировав оба оператора с одинаковым значением 2019-02-11. Ожидаемо видим в выдаче главную страницу, однако здесь что-то явно не так. На втором месте страница с другой датой в сниппете, а всего результатов 63 – как если бы операторы к запросу не применялись:
Получается, что подобная конструкция (когда значения операторов совпадают) является некорректной. Ведь такая же картина наблюдается, если выбирать такие значения операторов before: и after:, которые задают пустой временной промежуток:
Каким же тогда должен быть запрос, которым можно найти выдачу в Google за определенную дату? Искомый результат получаем, если увеличить на один день значение оператора before: или же увеличить на один день значение оператора after:, то есть расширив фильтр с одного дня на два. И вот они, те самые два искомых документа от 11 февраля 2019 года:
Однако, в данном случае, нам просто повезло, что на сайте нет документов, датированных днем ранее или днем позже, которые тоже должны были попасть в эту расширенную на два дня выдачу. В чем мы можем убедиться, изменив границы двухдневного окна на период, когда есть документы, датированные идущими подряд днями:
Итого имеем, что на текущий момент задачу поиска документов за определенный день в Google с помощью новых операторов решить корректно, увы, нельзя. В отличие от Яндекса, где на подобную задачу как раз и ориентирован оператор date:.
И в заключение хочется обратить внимание на довольно странную логику определения даты документа в Google. Так, главная страница исследуемого сайта на момент написания статьи имеет дату 11 февраля 2019, что показывается в сниппете и подтверждается выдачей, сформированной с помощью операторов before: и after:. Однако в том же сниппете мы видим фрагмент текста, который относится к новости с гораздо поздней датой:
Почему же Google выбрал в качестве даты страницы дату новости двухмесячной давности при том, что страница явно проиндексирована не далее, как несколько дней назад, причем ее контент не один раз за это время изменился, остается только догадываться.
В общем, в сухом остатке имеем, что данное нововведение Google несомненно достойно того, чтоб его приветствовать, однако при его использовании для задач SEO-аналитики необходимо учитывать определенные нюансы.

пятница, 5 апреля 2019 г.

Гипотетический поисковик от Ahrefs - Вебальта №2?

С неделю назад промелькнула новость о том, что глава компании Ahrefs Дмитрий Герасименко заявил о том, что они делают свою поисковую систему, призванную создать конкуренцию Google. Среди конкурентных преимуществ нового поисковика заявлялось, в частности, разделение прибыли между поисковиком и авторами проиндексированного им контента.
Всё это мне очень напомнило историю тринадцатилетней давности (2006 год) о запуске российского поисковика Webalta, создатель которого поднявшийся на перепродаже трафика Алексей Гурешов заявлял о намерении занять за год 30% поискового рынка Рунета. Тогда было тоже много громких слов о том, что Яндекс зажрался, повернувшись к вебмастерам, а в особенности к сеошникам, исключительно задом, а Вебальта повернется к ним передом, будет с ними дружить и сотрудничать, помогать вебмастерам зарабатывать на своем контенте, а сеошники будут помогать ей улучшать качество поиска (ага, пусти козла в огород :) ). В общем, эдакий свойский поисковик для вебмастеров и сеошников «с блэкджеком и шлюхами». В итоге никакой доли рынка Вебальта не отжала, а через некоторое время была замечена на том, что без ведома пользователя стала устанавливаться на его компьютере в качестве стартовой страницы браузера, по сути став банальным вирусом. Как говорится, благими намерениями вымощена дорога в ад.

вторник, 2 апреля 2019 г.

Google запатентовал поведенческие факторы

Исторически Google, в отличие от Яндекса, никогда официально не признавал использование в ранжировании поведенческих факторов. Более того, устами своих сотрудников он открыто отрицал это, объясняя свое решение низким качеством этих сигналов.
Так, в 2014-м году на московской конференции Cybermarketing-2014 во время телемоста с европейской штаб-квартирой Google в Дублине сотрудник отдела качества поиска Андрей Липатцев недвусмысленно заявил, что поведенческие и социальные факторы с точки зрения разработчиков алгоритма ранжирования Google являются очень плохими и слишком шумными сигналами и поэтому не учитываются в алгоритме. Эта мысль постоянно звучала затем в многочисленных видеоконференциях сотрудников Google, как русско-, так и англоязычных, в частности Джона Мюллера.
И вот 18 марта 2019 года американский SEO-специалист Билл Славски обнаружил свеженький, датированный 12 марта 2019 года, патент Google под названием «Modifying search result ranking based on implicit user feedback» («Изменение ранжирования результатов поиска на основе неявной обратной связи с пользователем»).
Итак, что же подразумевается под «неявной обратной связью с пользователем»? Как оказалось, старые добрые поведенческие факторы. В частности, в патенте упоминаются следующие сигналы:
  1. Запрос, заданный пользователем, результаты поиска, предоставленные поисковой системой, документ, выбранный пользователем из числа результатов поиска, его позиция в порядке представления результатов поиска (“a query submitted by the user, one or more search results presented by the search engine in response to the query, a document selected by the user from among the search results, an ordinal position in a presentation order of the search results of the search result selected by the user”). То есть речь идет о так называемых «кликовых» поведенческих факторах, непосредственно связанных с поведением пользователя на странице поисковой выдачи. Замечу, что Яндекс вот уже 10 лет (начиная с алгоритма «Арзамас», запущенного в апреле 2009-го года) учитывает кликовые факторы (в свое время я достаточно подробно писал о кликовых факторах ранжирования в Яндексе).
  2. Время, проведенное пользователем на выбранном документе (“a time the user spent on the document”). Так называемая «длина клика». Далее поясняется, что под временем, потраченным пользователем на документ, подразумевается время, прошедшее от клика на документ в результатах поиска до возвращения к результатам поиска и выбора в них нового документа.
  3. Язык, используемый пользователем, и страна, где пользователь с большой долей вероятности находится (“a language employed by the user, and a country where the user is likely located”). Что свидетельствует о дифференцированном подходе к учету поведения пользователей в зависимости от их языка и страны. В общем-то, вполне логично, что разноязычные пользователи, равно как и пользователи, живущие в разных странах, могут иметь различные предпочтения в выдаче по одному и тому же запросу.
Информация по длине кликов в выдаче по определенному запросу от различных пользователей взвешивается на основе длины клика по срезам:
  1. запрос-документ
  2. запрос-документ-язык
  3. запрос-документ-язык-страна
По длине клики классифицируются на короткие, средние и длинные (причем, дифференциация по этим категориям на основе длины клика зависит от запроса), также выделяется категория «последнего клика». Каждая категория имеет соответствующий вес. В качестве примера приводятся следующие весовые коэффициенты. Короткий клик может считаться признаком плохой страницы и, следовательно, получает малый вес (например, 0,1). Средний клик может считаться показателем потенциально полезной страницы и, следовательно, получает несколько больший вес (например, 0,5). Длинный клик может считаться показателем хорошей страницы и, таким образом, получает гораздо больший вес (например, 1,0). Последний клик (когда пользователь не возвращается на страницу с результатами поиска) может считаться вероятным показателем хорошей страницы и, следовательно, иметь достаточно большой вес (например, 0,9).
При взвешивании кликов предлагается назначать меньший вес кликам тех пользователей, которые почти всегда выбирают высоко ранжируемые документы, по сравнению с кликами пользователей, которые чаще их выбирают документы с более низкими позициями. В общем-то, на мой взгляд, вполне логично понизить вес «голосов» пользователей, занимающихся тупым перебором всех подряд элементов в списке, не обращая внимание на сниппеты.
Также предлагается разделять пользователей на определенные типы. Указывается, что более опытным пользователям требуется меньше времени на получение информации, таким образом при учете кликов определенного пользователя может использоваться весовой коэффициент в зависимости от его индивидуального поведения в сети, например, учитывающий среднюю продолжительность сессии или частоту переходов между документами.
Кроме того, пользователь может быть определенным образом классифицирован на основе его потока запросов. В частности, предполагается, что пользователь, который задает много запросов по определенной теме, может иметь высокий уровень знаний по ней, и данные о его кликах могут быть соответствующим образом взвешены для будущих запросов от данного пользователя по данной теме.
В качестве «меры релевантности» предлагается использование составных показателей, таких, например, как отношение числа длинных кликов к коротким или отношение числа длинных кликов ко всем кликам для конкретного документа по конкретному запросу (доля длинных кликов). Причем, к отношениям может быть добавлен в качестве защиты от шума параметр сглаживания, обладающий следующим свойством – если общее количество кликов невелико, то результат будет стремится к нулю. Благодаря составным показателям документы, получающие относительно небольшое количество кликов, но в большинстве своем длинные, в итоге могут получить больший вес, чем документы, находящиеся на более высоких позициях и получающие за счет этого большее количество кликов, но имеющие относительно небольшую долю длинных кликов. То есть, как говорится, не CTR’ом единым…
Также параметры сглаживания могут варьироваться в зависимости от языка или страны пользователей. Примечательно, что в качестве примера географического источника запросов, среди которых исторически генерировалось больше спам-активности и которые потому требуют более жесткого сглаживания, указана Россия.
Упоминается и о возможности учета дополнительной информации, такой как позиции, численные значения релевантности и сниппеты как выбранных пользователем документов, так и показанных ему, но не выбранных им.
В итоге вычисленные значения меры релевантности в явном или преобразованном виде предлагается применять в качестве повышающего коэффициента к значениям релевантности, вычисленным алгоритмом ранжирования.
В тексте патента также провозглашается необходимость обеспечения защиты пользовательских данных от накруток. Что ж, вещь, несомненно, весьма актуальная, особенно для исторически спам-активной в этом плане России. Интересно, насколько эффективно ее будет решать Google, если дело дойдет до реализации заявленных в патенте положений.
Резюмируя, можно отметить, что ничего революционного в патенте не содержится. Всё вертится вокруг доли длинных кликов, как основной меры активности пользователя, и нюансах взвешивания данных от различных категорий пользователей. В хорошо известных статьях сотрудников Яндекса шести-семилетней давности на тему учета кликовых факторов «Session-based Query Performance Prediction» и «Through the looking glass: utilizing rich post-search trail statistics for web search» содержится информация о гораздо более разнообразных сигналах.
Ну, и не следует забывать, что наличие патента еще не означает непременной реализации указанных в нем вещей в «боевом» поиске. Но в любом случае мы получаем еще одно подтверждение, что задача удержания пользователей на сайте является одной из основных.


Технологии Blogger.