четверг, 2 апреля 2020 г.

Сужение выдачи в Яндексе – лайфхаки

Одной и важных исследовательских задач SEO-аналитики является сужение выдачи на определенную группу документов или сайтов. 
Попробуем задать запрос поиск, ограничив выдачу только двумя документами – главными страницами сайта Яндекса и русскоязычного сайта Google. 
Для сужения поиска на заданные URL воспользуемся документированным оператором url:, относящемуся к группе «Документные операторы», который прекрасно справляется со своей задачей в случае поиска по одному документу:
Однако его применение «в лоб» в случае с двумя документами задачу не решает:
 
В этом случае решить задачу помогает небольшой трюк – добавление между операторами url: документированного оператора | (поиск документов, в которых присутствует любое слово из запроса). Согласно официальной документации этот оператор относится к группе «Морфология и поисковый контекст» и его следует применять к ключевым словам. Однако, как показывает практика, он прекрасно справляется с задачей, будучи примененным и к документным операторам:
   
Убедимся, что оператор | применяется именно к операторам url: т.е. имеет логику 
поиск (url:yandex.ru | url:www.google.ru),
а не делит запрос на две части, имея логику 
(поиск url:yandex.ru) | (url:www.google.ru).
Для этого возьмем запрос, по которому ищется главная страница Яндекса, но не ищется главная страница Google:
 
Если оператор | работает как нам надо, то мы в результатах поиска увидим только один Яндекс, если нет – то оба документа. Убеждаемся, что имеет место первый вариант:
Также все прекрасно работает и в случае с тремя документами:
Проверка на логику работы в случае трех документов также дает ожидаемый результат:

Таким же образом можно организовывать поиск сужением на несколько сайтов, используя вместо оператора url: оператор site:
Также исследовательские задачи SEO-аналитики могут требовать исключение определенных документов или сайтов из поисковой выдачи по запросу. 
Для наглядности возьмем запрос, по которому в поисковой выдаче находится всего три сайта:


В текущем официальном языке запросов Яндекса есть документированный оператор отрицания: («минус»). Однако он работает только со словами и неприменим для документных операторов. В случае применения его с документным оператором, он попросту игнорируется, и вместо удаления документа или сайта из выдачи мы получаем поиск по этому документу или сайту:
К текущему моменту официальный язык запросов Яндекса сжался буквально до нескольких документированных операторов – 8 документных и 6 морфологии и поискового контекста. Хотя ранее Яндекс мог похвастаться весьма обширным языком запросов, позволяющим решать разнообразнейшие поисковые задачи. 
Однако некоторые операторы, бывшие когда-то документированными, а сейчас исчезнувшие из официального списка, продолжают работать и помогать решать задачи, с которыми только лишь с помощью документированных операторов справиться не получается.
И в данном случае нам приходит на помощь бывший некогда документированным оператор отрицания ~~двойная тильда»)
Он прекрасно справляется в поставленной задачей, очищая выдачу как от заданного сайта в связке c оператором site:
Так и от заданного документа в связке с оператором url:
Причем можно исключать из выдачи несколько сайтов или документов, применяя оператор последовательно к каждому:
Либо можно сгруппировать исключаемые сайты иди документы, используя уже упоминавшийся документированный оператор | в связке с еще одним оператором, бывшим некогда документированным, но потом исчезнувшим из языка запросов – оператором группировки ()скобки»):
Без оператора группировки оператор отрицания будет применяться только к одному сайту или документу, т.е. в данном случае автоматической группировки не происходит:
Любопытно, что в других случаях оператор группировки может не работать. Например, нам не удастся с его помощью изменить логику учета операторов в примере, который рассматривался в первом случае. После применения оператора группировки главная страница сайта Google по-прежнему не находится:
Так что применять недокументированный оператор группировки в общем случае следует с осторожностью.

вторник, 3 марта 2020 г.

Очистка органической выдачи Яндекса от примесей


Одной из важных задач SEO-аналитики является корректная идентификация документов в поисковой выдаче Яндекса, которые не являются органическими результатами поиска, получаемыми в результате штатной работы основного алгоритма ранжирования. Такие документы принято называть примесью к органике, и они являются ненужным шумом при решении различных аналитических задач, например, задачи текстового анализа документов из топа выдачи. Идентифицировав примесь, мы можем очистить от нее органические результаты поиска для дальнейшего использования их при решении подобных задач.

Можно выделить два типа документов, которые не являются органическими результатами поиска. Первый тип (я бы назвал его внешней примесью) – это документы, которые отсутствуют в результатах выдачи сервиса Яндекс.XML. В обычной выдаче их можно визуально отличить от органики по различным признакам. К внешней примеси можно отнести:
  1. Рекламные места в результатах поиска (контекстная реклама).
Сотрудники Яндекса, несомненно, очень бы хотели, чтоб рекламные места на странице поисковой выдачи ничем бы не отличались от органики. Однако, им все-таки приходится помечать контекстную рекламу. В «Правилах показа Яндекс.Директ» указывается, что «Показ Рекламных объявлений (далее по тексту также — «объявления») на Рекламных местах может сопровождаться пометкой: "Яндекс.Директ", "Директ", "Реклама", "₽" или "Р"». Причем, с любопытной оговорочкой: «В связи с техническими ограничениями пометка может быть сокращена либо отсутствовать». 
На страницах поисковой выдачи на данный момент для маркировки рекламных объявлений используется слово «реклама», написанное более мелким шрифтом, чем шрифт, используемый в объявлении. И в некоторых случаях эта пометка действительно может практически исчезать, вырождаясь буквально до одной буквы. Например, в мобильной выдаче:
В остальном же рекламные объявления практически ничем не отличаются от сниппетов органики. Ну, разве что, у рекламных объявлений никогда не бывает ссылки «Читать ещё >». Впрочем, она не всегда присутствует и в органических сниппетах, так что этот признак нельзя считать надежным средством идентификации рекламы в обычной выдаче. Также следует учитывать, что рекламные объявления могут показываться не только до или после органических результатов, но и между ними.

  1. Поисковые колдунщики, фактовые и объектные ответы.
Поисковые колдунщики - это специальным образом оформленные ответы, найденные на собственных сервисах Яндекса. Подробнее о них можно прочесть на сайте Технологии Яндекса
Фактовый и объектный ответы – это специальные карточки с кратким ответом на вопрос, расположенные над результатами поиска и справа от них соответственно. 
Ввиду специфики представления спутать эти элементы с органическими результатами поиска очень сложно.
Впрочем, как уже указывалось ранее, если у Вас есть возможность получать выдачу от сервиса Яндекс.XML, то задача идентификации внешней примеси становится неактуальной – таких документов в XML выдаче просто нет.
Второй тип примеси к органике (назовем его внутренней примесью) находится в результатах поиска, получаемых от сервиса Яндекс.XML. К нему можно отнести:
  1. Витальные ответы. 
Это документы, считающиеся однозначно лучшим ответом на запрос, например, главная страница официального сайта компании по запросу ее бренда. По сути это органические результаты, получающие огромный искусственный буст к рассчитанному основным алгоритмом значению релевантности запросу, который прочно ставит их на первые места выдачи. По внешнему виду витальные ответы не отличимы от органических сниппетов. Их идентификация возможно только по анализу выдачи сервиса Яндекс.XML. У витальных ответов значение поля name параметра <categ> содержит специальный идентификатор, включающий в себя подстроку UngroupVital, например, <categ attr="d" name="UngroupVital59.ru"/>. Причем, витальных ответов может быть несколько:
  1. Свежие результаты
    Свежие результаты показываются в ответ на «событийные запросы», для которых по мнению Яндекса важны свежие ответы. В сеошной среде для таких ответов используется термин «быстроботовская примесь». Это результаты, составленные из документов, индексируемых специальным роботом – быстроботом – и в течение очень короткого времени попадающих в индекс.  Ранжирование их осуществляется специальным алгоритмом, и поэтому очистка органики от подобных результатов актуальна при анализе работы основного алгоритма. Идентифицитовать быстроботовскую примесь можно по наличию специальных меток свежести документа («N минут назад», «N часов назад», «вчера», «позавчера»):
  1. Разгруппированные результаты
По умолчанию результаты поиска с одного сайта группируются в поисковой выдаче, и мы видим только один результат с каждого сайта, самый релевантный запросу. B XML выдаче у сгруппированных по сайту органических результатов значение поля name параметра <categ> представляет собой доменное имя, например, <categ attr="d" name="yandex.ru"/>. Но иногда Яндекс оказывает преференции отдельным страницам с отдельных сайтов и показывает их в выдаче вне группировки по сайту. Так, например, по запросу геморрой можно увидеть два результата c сайта kp.ru:
В XML выдаче один из этих результатов имеет в качестве значения поля name параметра <categ> доменное имя, а вот второй – малопонятную конструкцию MiddleUngroup_kp.ru_68.ru:
Также в качестве значения поля name параметра <categ> может фигурировать не доменное имя сайта, а URL документа. И это тоже может быть признаком того, что такие результаты не являются органическими.
Так, например, в последнее время сайт принадлежащего Яндексу сервиса Едадил замечен в топах по огромному количеству запросов, причем, зачастую контент страниц сайта этим запросам совершенно нерелевантен. Такое впечатление, что документы с этого сайта получили значительный буст к своему регулярному значению релевантности запросам. Типичный пример:
 
В XML выдаче в значение поля name параметра <categ> для этого результата содержит именно URL документа, а не доменное имя сайта:

Я рекомендую все результаты, которые в XML выдаче имеют значение поля name параметра <categ>, отличное от доменного имени сайта, на котором находятся, исключать из анализа органической выдачи, так как есть определенные основания считать, что эти результаты либо обрабатываются не основным алгоритмом ранжирования либо получают некоторый буст к значению релевантности, вычисленному основным алгоритмом.

  1. Собственные проекты Яндекса
Так как есть определенные основания утверждать, что Яндекс может давать буст к органическому значению релевантности запросу, вычисленному основным алгоритмом для документов собственных проектов (как расположенных на домене yandex.ru, например, Яндекс.Район, Яндекс.Дзен или Яндекс.Коллекции, так и на других доменах, например, Едадил, Кинопоиск или Авто.ру), то рекомендую такие ответы исключать из анализа органической выдачи в любом случае, даже если в качестве значения поля name параметра <categ> XML выдачи содержится доменное имя сайта. 

среда, 5 февраля 2020 г.

Поведенческие факторы в Яндексе – новый виток накруток

В последнее время в социальных сетях и профессиональных сообществах все чаще стали появляться «крики души» различных SEO-специалистов по поводу того, что стало практически невозможно в Яндексе «белыми» методами противостоять накрутке поведенческих факторов. Предложений на рынке о «гарантированном» выводе в топ Яндекса за считанные дни становится все больше, и все чаще SEO-специалисты слышат от клиентов предложения в духе «А может накрутить по-быстрому, раз ваши профессиональные методы буксуют?». Складывается впечатление, что Яндекс катастрофически упускает контроль над ситуацией с накруткой поведенческих факторов, которая из маргинального занятия ловкачей рискует в скором времени превратиться чуть ли не в отраслевой стандарт поисковой оптимизации.
В связи с этим вспоминается ситуация с ссылочным ранжированием. В начале 2000-х годов в алгоритме Яндекса появились ссылочные факторы, а к середине «нулевых» они набрали колоссальный вес. Тут же стали появляться искусственные ссылки, позволявшие очень быстро вывести сайт в топ поисковой выдачи. Яндекс старательно обозначал своё негативное отношение к таким ссылкам, очень не рекомендовал их использовать, но никаких действенных методов по противостоянию подобным ссылкам не предпринимал. В итоге SEO-специалисты (тогда называвшиеся оптимизаторами) довольно быстро прошли путь от неприятия ссылочной торговли до ее активного использования. Буквально на глазах сформировалась целая индустрия по купле-продаже ссылок, на добрый десяток лет ставшая основным методом поискового продвижения. Самое неприятное было то, что вес ссылочных факторов был настолько высок, что покупные ссылки позволяли выводить в топ поисковой выдачи практически любой сайт, независимо от его качества и способности решать задачу пользователя, основным фактором была величина ссылочного бюджета.  А главным навыком SEO-специалиста стало умение закупать ссылки на ссылочной бирже. 
Бездействие Яндекса по отношению к покупным ссылкам на фоне декларируемого негативного отношения к них было довольно странным. Причем сотрудники Яндекса уже тогда умели достаточно точно определять SEO-ссылки. Так, в знаменитом «Мадридском докладе» от 2009-го года упоминалась точность определения в 94%. В качестве одной из возможных причин происходящего в среде оптимизаторов ходило поверие, что полная фильтрация коммерческого ссылочного ухудшает внутренние метрики качества поиска, в чем не заинтересованы многие сотрудники Яндекса, чьи KPI «завязаны» на эти метрики.
И лишь только в 2015-м году Яндекс решился на радикальные действия по отношению к искусственным ссылкам, запустив алгоритм «Минусинск», ознаменовавшийся массовыми санкциями в отношении сайтов, активно закупавших коммерческие ссылки. Впрочем, к тому времени вес ссылочных факторов стал стремительно уменьшаться. Их место как меры авторитетности и качества сайта заняли поведенческие факторы. 
Они были введены в алгоритм ранжирования под названием «Арзамас» еще в 2009-м году. Причем кликовые факторы ранжирования (то есть учитывающие поведение пользователей на странице поисковой выдачи и кликабельность сниппетов) практически сразу же получили большой вес, и в 2009-2011 годах даже немногочисленные искусственные клики на документы, находящиеся на низких местах поисковой выдачи, позволяли выводить их за очень короткий срок в топ выдачи по этим запросам. Как и в случае с ссылочным ранжированием, стали появляться сервисы, предлагающие услуги накликивания результатов поиска с помощью ботов. Но надо отдать должное Яндексу, он не стал закрывать на это глаза. В мае 2011-го года было объявлено о санкциях за эмуляцию действий пользователей, классифицировав их как один методов поискового спама. В отличие от ситуации с ссылочным ранжированием, одними декларациями дело не ограничилось. Была произведена показательная «порка» ряда довольно известных сайтов, что возымело определенный эффект – накликивать результаты поиска с помощью ботов стало опасно, и массовое развитие этого направления прекратилось. 
Однако через два года начался новый виток массовой накрутки поведенческих факторов – выполнение реальными пользователями за вознаграждение заданий по переходу на указанные сайта из результатов поиска и выполнение определенных действий на них. Для этих целей стали активно использоваться так называемые биржи заданий. Вторую жизнь получили специализированные публичные сервисы по накрутке поведенческих факторов, ставшие массово привлекать исполнителей для выполнения действий. 
Но Яндекс и в это раз отреагировал достаточно быстро. В мае 2014-го года появилось очередное заявление о недопустимости подобных методов и о санкциях, примененных к некоторым сайтам, однако масштабы санкций были довольно незначительны, и массовая накрутка поведенческих факторов продолжалась. И тогда в декабре 2014-го года Яндекс нанес гораздо более ощутимый удар, сотни сайтов потеряли позиции буквально по всем запросам. Возвращение позиций после отказа от накрутки стало возможным только через 6-8 месяцев.  Это было очень показательно и действенно. Индустрия накрутки поведенческих опять ушла в глубокое подполье.
Этот удар по индустрии накрутки ПФ вкупе с алгоритмами «Минусинск», ударившем по коммерческим ссылкам, и «Баден-Баден», ударившем по текстовому спаму, значительно оздоровили ситуацию в области SEO-услуг. SEO-специалисты начали реально помогать делать полезные и удобные сайты. Спам и накрутки стали опасны и непопулярны. 
Казалось бы, проблема была решена. Но к 2018-му году стали опять заметны случаи стремительного появления в топах поисковой выдачи сайтов «из ниоткуда». Наиболее вероятным объяснением подобному могла быть только накрутка ПФ. Это явление становилось все более заметным, и в декабре 2018-го года Яндекс разродился очередным грозным предупреждением, в котором опять упоминал о системах автоматического накликивания.  
Однако, в отличие от предыдущих случаев, за целый год, прошедший со времени этого заявления, никаких практических действий от Яндекса не последовало. И на данный момент можно смело констатировать факт, что накрутка поведенческих факторов в очередной приобрела массовый характер. Едва ли не более массовый, чем прежде. 
Причем бездействие Яндекса только стимулирует ее бурный рост. Всё чаще различные SEO-специалисты начинают публично бахвалиться, что они могут вывести в топ за считанные дни буквально любой сайт.  А те, кто исповедуют «белые» методы, стали все чаще публично сожалеть о том, что они не в состоянии с их помощью противостоять тем, кто использует накрутку. 
Всё это, на мой взгляд провоцирует очень опасное развитие ситуации, когда рынок SEO-услуг снова уйдет в «тень», и главным навыков SEO-специалиста станет умение ловко эмулировать действия пользователей. И на этом фоне бездействие Яндекса вызывает очень большую тревогу. 
Анализ ситуации позволяет предположить, что массовые накрутки сейчас осуществляются с помощью мобильного трафика. Казалось бы, даже если Яндекс по какой-то причине не может эффективно отфильтровать подобную эмуляцию пользователей, то что может быть проще, нежели просто не учитывать мобильный трафик при расчете значений поведенческих факторов как слишком мусорный сигнал? Но, видимо, сотрудники Яндекса в силу каких-то внутренних причин, не могут себе этого позволить. Сразу же всплывают аналогии с коммерческими ссылками «доминусинских» времен, которые Яндекс упорно отказывался фильтровать. Не исключено, что из-за слишком большого веса, который имеют поведенческие факторы в алгоритме ранжирования на данный момент, исключение мобильного трафика также может ухудшить внутренние метрики качества поиска. В чем могут быть не заинтересованы сотрудники Яндекса, чьи KPI увязаны с этими метриками.
Но если сотрудники Яндекса в ближайшее время не смогут справиться с ситуацией, то, боюсь, SEO-индустрия рискует окончательно свалиться в яму обмана и читерства.

вторник, 21 января 2020 г.

SEO-итоги 2019 года: ставка на асессоров



Традиционно в последнем выпуске рассылки уходящего года вспоминаем события, оказавшие наибольшее влияние на отечественный рынок поисковой оптимизации. 
В 2019-м году поисковые машины продолжили целенаправленно урезать свой поисковый функционал. Так, в марте Google официально объявил сначала о прекращении поддержки директивы rel=prev/next, а буквально через неделю – о прекращении поддержки оператора info:, лишив SEO-специалистов удобного и точного инструмента проверки индексации конкретного URL на произвольном сайте. 
Однако, надо отдать должное, кое-что новенькое в поисковом функционале Google все-таки появилось – в апреле появилась новость о вводе новых операторов поиска before: и after:. Конечно, отрадно, что поисковый функционал не только урезается, но и расширяется, однако, практических задач в SEO-аналитике, требующих применения данных операторов, оказалось не так уж и много. 
Довольно неприятная новость об изменениях в его поисковом функционале поступила в июле от Яндекса. Изменилось отношение Яндекса к выполнению директивы rel=canonical. Теперь он оставляет за собой право игнорировать эту директиву, если посчитает, что страница, на которой эта директива находится, существенно отличается от той, которая указана в этой директиве как каноническая. Впрочем, здесь Яндекс оказался неоригинальным – Google также оставляет за собой право игнорировать директиву canonical. Но тем не менее SEO-специалисты лишились еще одного удобного инструмента, который позволял гибко управлять индексацией страниц сайта в Яндексе, склеивая нечеткие дубликаты с консолидацией URL, при которой объединяются нетекстовые факторы ранжирования для канонической и неканонической страниц. В результате возникают ситуации, когда Яндекс проигнорировав директиву canonical, удаляет содержащую ее страницу из индекса как некачественную. Что, несомненно, не идет на пользу продвигаемому сайту. 
В августе поисковый интерфейс Яндекса подвергся еще одному «обрезанию». Из меню дополнительной информации сниппетов поисковой выдачи исчез пункт «Показать еще с сайта». Хорошо еще, что оператор поиска по сайту site:, равно как и get-параметр страницы поисковой выдачи &site с аналогичным функционалом, свою работоспособность пока что сохраняют. 
В общем, наблюдается устойчивая тенденция к «упрощению» поисковых интерфейсов и поисковых функционалов. Пользователя попросту отучают думать, как правильно сформулировать запрос, чтоб найти именно то, что ему нужно. Вместо этого поисковик пытается угадать, что хочет найти пользователь, задавая запрос в максимально простой форме. Насколько он это успешно делает – судить со стороны не так легко, но факт, что основные усилия, что Яндекс, что Google сосредотачивают сейчас именно в обработке длинного хвоста микрочастотных запросов на естественном языке. 
Итак, что касается изменений в алгоритмах ранжирования поисковых систем, то 2019 год в Google прошел под знаком E-A-T (Expertise, Authoritativeness, and Trustworthiness – Экспертность, Авторитетность и Надежность). Тренд, заданный знаковым Medic Update в 2018-м году, продолжился и в 2019-м. К страницам, считающимся носителями контента категории «Your Money or Your Life (YMYL)», стали предъявляться все более жесткие требования по качеству контента и авторитетности его авторов. А в существенно обновленном Руководстве Google для асессоров значительно расширилась трактовка того, какие страницы считаются носителями контента YMYL. И несколько крупных обновлений алгоритмов ранжирования (т.н. Core Update) в 2019-м году существенно перетрясли выдачу в медицинской, правовой, новостной и других тематиках.
В конце октября Google анонсировал введение алгоритма BERT, который затронул длинный хвост микрочастотных запросов на естественном языке, выпадающий из традиционных сфер интересов SEO-индустрии в поисковой выдаче. Поэтому, его введение на рынок поисковой оптимизации никакого влияния практически не оказало.
Что же касается Яндекса, то грозное предупреждение накрутчикам поведенческих факторов, сделанное в самом конце 2018-го года, в 2019-м году никаких заметных подтверждений на практике не получило. В результате на отечественном SEO-рынке предложение услуг по быстрому выводу в топ с оплатой по факту продолжает расцветать буйным цветом. 
В 2019-м году, как и в предыдущем, Яндекс разродился только одним официальным «именным» алгоритмом, получившим название «Вега», да и то буквально в самом конце года. В этом обновлении Яндекс продолжил курс на увеличение разнообразных «колдунщиков» внутренних сервисов Яндекса, вытесняющих органическую выдачу из поля зрения пользователя, взятый в предыдущем алгоритме «Андромеда». Так в выдаче появился новый кондунщик сервиса ответов Яндекс.Кью, который заметно отодвинул органику по широкому спектру информационных запросов. В результате такой вид сеошной деятельности, как заработок на так называемых инфосайтах, грозит оказаться нерентабельным. 
Но лично мне представляется наиболее интересным заявление Яндекса по сути о ручной разметке поисковой выдачи, когда оценки асессоров-экспертов имеют достаточно большой вес по сравнению с другими сигналами при обучении алгоритма. Похоже, асессоры призваны стать чуть ли не важнейшим фактором ранжирования, и именно они по сути должны будут решать, какой сайт (или какой тип сайтов) достоин занять высокое место в задвигаемой все глубже органике. Таким образом наблюдается интересная тенденция в эволюции критериев авторитетности и качества сайта от ссылочной популярности (цитируемости) через поведенческие характеристики к экспертным оценкам. 
Остается только надеяться, что оценки асессоров действительно будут хорошо коррелировать с качеством сайтов, и что это наконец-то забьет гвоздь в крышку гроба накрутки поведенческих факторов, которые на данный момент все еще играют важнейшую роль в ранжировании Яндекса. И с явной накруткой которых сотрудники Яндекса почему не хотят бороться. Такое впечатление, что если провести бытовую аналогию, то мы получим следующий пример логики: «Зачем нам сейчас гоняться за тараканами с тапком в руке, если через какое-то время мы придумаем действенную формулу дихлофоса, который уничтожит их как класс?» Ну что ж, логика понятная, вопрос только в том, через какое время всё это получится.

Ну, и в заключении хочу традиционно пожелать всем SEO-специалистам в новом году высоких позиций в выдаче, качественного поискового трафика и, главное, предсказуемости результата приложения своих усилий. С наступившим!

Технологии Blogger.