вторник, 3 марта 2020 г.

Очистка органической выдачи Яндекса от примесей


Одной из важных задач SEO-аналитики является корректная идентификация документов в поисковой выдаче Яндекса, которые не являются органическими результатами поиска, получаемыми в результате штатной работы основного алгоритма ранжирования. Такие документы принято называть примесью к органике, и они являются ненужным шумом при решении различных аналитических задач, например, задачи текстового анализа документов из топа выдачи. Идентифицировав примесь, мы можем очистить от нее органические результаты поиска для дальнейшего использования их при решении подобных задач.

Можно выделить два типа документов, которые не являются органическими результатами поиска. Первый тип (я бы назвал его внешней примесью) – это документы, которые отсутствуют в результатах выдачи сервиса Яндекс.XML. В обычной выдаче их можно визуально отличить от органики по различным признакам. К внешней примеси можно отнести:
  1. Рекламные места в результатах поиска (контекстная реклама).
Сотрудники Яндекса, несомненно, очень бы хотели, чтоб рекламные места на странице поисковой выдачи ничем бы не отличались от органики. Однако, им все-таки приходится помечать контекстную рекламу. В «Правилах показа Яндекс.Директ» указывается, что «Показ Рекламных объявлений (далее по тексту также — «объявления») на Рекламных местах может сопровождаться пометкой: "Яндекс.Директ", "Директ", "Реклама", "₽" или "Р"». Причем, с любопытной оговорочкой: «В связи с техническими ограничениями пометка может быть сокращена либо отсутствовать». 
На страницах поисковой выдачи на данный момент для маркировки рекламных объявлений используется слово «реклама», написанное более мелким шрифтом, чем шрифт, используемый в объявлении. И в некоторых случаях эта пометка действительно может практически исчезать, вырождаясь буквально до одной буквы. Например, в мобильной выдаче:
В остальном же рекламные объявления практически ничем не отличаются от сниппетов органики. Ну, разве что, у рекламных объявлений никогда не бывает ссылки «Читать ещё >». Впрочем, она не всегда присутствует и в органических сниппетах, так что этот признак нельзя считать надежным средством идентификации рекламы в обычной выдаче. Также следует учитывать, что рекламные объявления могут показываться не только до или после органических результатов, но и между ними.

  1. Поисковые колдунщики, фактовые и объектные ответы.
Поисковые колдунщики - это специальным образом оформленные ответы, найденные на собственных сервисах Яндекса. Подробнее о них можно прочесть на сайте Технологии Яндекса
Фактовый и объектный ответы – это специальные карточки с кратким ответом на вопрос, расположенные над результатами поиска и справа от них соответственно. 
Ввиду специфики представления спутать эти элементы с органическими результатами поиска очень сложно.
Впрочем, как уже указывалось ранее, если у Вас есть возможность получать выдачу от сервиса Яндекс.XML, то задача идентификации внешней примеси становится неактуальной – таких документов в XML выдаче просто нет.
Второй тип примеси к органике (назовем его внутренней примесью) находится в результатах поиска, получаемых от сервиса Яндекс.XML. К нему можно отнести:
  1. Витальные ответы. 
Это документы, считающиеся однозначно лучшим ответом на запрос, например, главная страница официального сайта компании по запросу ее бренда. По сути это органические результаты, получающие огромный искусственный буст к рассчитанному основным алгоритмом значению релевантности запросу, который прочно ставит их на первые места выдачи. По внешнему виду витальные ответы не отличимы от органических сниппетов. Их идентификация возможно только по анализу выдачи сервиса Яндекс.XML. У витальных ответов значение поля name параметра <categ> содержит специальный идентификатор, включающий в себя подстроку UngroupVital, например, <categ attr="d" name="UngroupVital59.ru"/>. Причем, витальных ответов может быть несколько:
  1. Свежие результаты
    Свежие результаты показываются в ответ на «событийные запросы», для которых по мнению Яндекса важны свежие ответы. В сеошной среде для таких ответов используется термин «быстроботовская примесь». Это результаты, составленные из документов, индексируемых специальным роботом – быстроботом – и в течение очень короткого времени попадающих в индекс.  Ранжирование их осуществляется специальным алгоритмом, и поэтому очистка органики от подобных результатов актуальна при анализе работы основного алгоритма. Идентифицитовать быстроботовскую примесь можно по наличию специальных меток свежести документа («N минут назад», «N часов назад», «вчера», «позавчера»):
  1. Разгруппированные результаты
По умолчанию результаты поиска с одного сайта группируются в поисковой выдаче, и мы видим только один результат с каждого сайта, самый релевантный запросу. B XML выдаче у сгруппированных по сайту органических результатов значение поля name параметра <categ> представляет собой доменное имя, например, <categ attr="d" name="yandex.ru"/>. Но иногда Яндекс оказывает преференции отдельным страницам с отдельных сайтов и показывает их в выдаче вне группировки по сайту. Так, например, по запросу геморрой можно увидеть два результата c сайта kp.ru:
В XML выдаче один из этих результатов имеет в качестве значения поля name параметра <categ> доменное имя, а вот второй – малопонятную конструкцию MiddleUngroup_kp.ru_68.ru:
Также в качестве значения поля name параметра <categ> может фигурировать не доменное имя сайта, а URL документа. И это тоже может быть признаком того, что такие результаты не являются органическими.
Так, например, в последнее время сайт принадлежащего Яндексу сервиса Едадил замечен в топах по огромному количеству запросов, причем, зачастую контент страниц сайта этим запросам совершенно нерелевантен. Такое впечатление, что документы с этого сайта получили значительный буст к своему регулярному значению релевантности запросам. Типичный пример:
 
В XML выдаче в значение поля name параметра <categ> для этого результата содержит именно URL документа, а не доменное имя сайта:

Я рекомендую все результаты, которые в XML выдаче имеют значение поля name параметра <categ>, отличное от доменного имени сайта, на котором находятся, исключать из анализа органической выдачи, так как есть определенные основания считать, что эти результаты либо обрабатываются не основным алгоритмом ранжирования либо получают некоторый буст к значению релевантности, вычисленному основным алгоритмом.

  1. Собственные проекты Яндекса
Так как есть определенные основания утверждать, что Яндекс может давать буст к органическому значению релевантности запросу, вычисленному основным алгоритмом для документов собственных проектов (как расположенных на домене yandex.ru, например, Яндекс.Район, Яндекс.Дзен или Яндекс.Коллекции, так и на других доменах, например, Едадил, Кинопоиск или Авто.ру), то рекомендую такие ответы исключать из анализа органической выдачи в любом случае, даже если в качестве значения поля name параметра <categ> XML выдачи содержится доменное имя сайта. 

Blog Archive

Технологии Blogger.