вторник, 2 мая 2017 г.

Алгоритм «Баден-Баден» – новый виток борьбы Яндекса с текстовой переоптимизацией


На фото – красная панда из зоопарка Карлсруэ близ Баден-Бадена (с легкой руки Андрея Липатцева из Google – собирательный образ борьбы поисковиков с текстовым спамом)

23 марта 2017 года в блоге Яндекса для вебмастеров появился анонс нового алгоритма, получившего название «Баден-Баден». И хотя в Яндексе в 2008 году решили давать новым поисковым программам названия российских городов, на этот раз ради того, чтобы подчеркнуть специфику нового алгоритма, он получил название немецкого города, состоящего из двух одинаковых слов. И намек, заключенный в названии, вполне прозрачен. Впрочем, справедливости ради стоит сказать, что иностранный город в семействе алгоритмов Яндекса уже встречался – Рейкьявик в 2011-м году, ознаменовавший алгоритм, связанный с языковыми предпочтениями пользователей.
В анонсе алгоритма сказано, что «результатом его работы может стать ухудшение позиций переоптимизированных страниц в результатах поиска». Что в общем-то подтверждает анализ сайтов, предположительно подвергнувшихся его воздействию – наблюдается ухудшение ранжирования отдельных страниц сайтов по отдельным запросам. 
7 апреля в Минске на конференции «Неделя Байнета 2017» руководитель службы Яндекса по работе с вебмастерами Михаил Сливинский анонсировал второй этап алгоритма «Баден-Баден. «Неделя Байнета» уже традиционно является площадкой для анонса Яндексом знаковых нововведений. В 2014-м прямо на сцене отключали ссылочное ранжирование по отдельному классу коммерческих запросов, в 2015-м – запускали алгоритм борьбы с SEO-ссылками «Минусинск». Прошлый 2016-й год прошел без громких анонсов, однако в 2017-м традиция возобновилась. 
Второй этап «Баден-Бадена» имеет характерную особенность – обещано, что санкции будут применяться ко всему сайту, а их наличие будет отображаться как нарушение «Переоптимизация» в сервисе Яндекс.Вебмастер. Михаил Сливинский пообещал, что санкции могут затронуть несколько тысяч сайтов.
В своем комментарии к анонсу первого этапа алгоритма «Баден-Баден» менеджер Яндекса Елена Першина дифференцирует его этапы на «Баден-Баден как алгоритм» (первый этап) и «Баден-Баден как нарушение» (второй этап). Вполне вероятно, что доменные санкции в виде пост-штрафа будут применяться к сайту в случае, когда у него накопится некоторая критическая масса страниц, получивших низкие оценки алгоритма. То есть второй этап – это не модификация собственно алгоритма, а более жесткие санкции к нарушителям, выявленным им.
Примечательно, что в анонсе первого этапа алгоритма «Баден-Бадена» сказано, что «он является частью общего алгоритма ранжирования». В то время как предыдущая версия алгоритма борьбы с переоптимизированными текстами образца 2011-го года была явной надстройкой и даже не удостоилась «именного» названия. Вообще наблюдается устойчивая тенденция перетекания антиспама в основное ядро алгоритма ранжирования. Так, например, в сентябре 2016-го года Google объявил о том, что алгоритм антиспама «Penguin» из отдельной надстройки стал обновляющейся в режиме реального времени частью ядра алгоритма.  
Включение алгоритмов антиспама в основное ядро значительно затрудняет их реверс-инжиниринг на предмет определения граничных значений срабатывания санкций. Ведь пороги срабатывания, к примеру, алгоритма текстового антиспама, могут зависеть не только собственно от значений текстовых характеристик, но и от других групп факторов. Как говорится, что русскому – здорово, то немцу – смерть. Неслучайно Михаил Сливинский, отвечая на вопросы слушателей во время своего выступления на «Неделе Байнета», подчеркнул, что текстовый анализ документов, попавших под санкции, равно как и документов, находящихся в топе выдачи, мало что даст тем, кто постарается найти технические пути обхода алгоритма. 
Вообще, на мой взгляд, сама идея текстовых анализаторов, старающихся найти якобы идеальные текстовые характеристики для конкретного запроса путем усреднения значений отдельных текстовых факторов (как правило простейших, таких как количество употреблений термина или его плотность), замеренных у находящихся в топе выдачи документов, изначально провальна. Эта идея базируется на ложной предпосылке о том, что у находящихся в топе выдачи документов значения всех факторов близки к идеалу. Но дело в том, что это совершенно не обязательно так. Численное значение релевантности – это результирующая значений множества факторов и конкретный фактор может дать в нее, как плюс, так и минус. Да и абсолютные величины вклада могут быть совершенно разные. И вполне может оказаться так, что как раз-таки замеряемые текстовыми анализаторами факторы у конкретных находящихся в топе документов на самом деле дают минусовой вклад в релевантность, а высокое значение результирующей достигается за счет большого положительного вклада в неё других групп факторов. И если скопировать значения этих текстовых факторов и повторить их на другом документе на другом сайте, то эта манипуляция вместо того, что б вытолкнуть этот документ наверх, наоборот, уронит его вниз. 
К тому же в топе выдачи могут быть не только органические результаты, но и различные примеси к «органике» - например, «спектральная» или «быстроботовская» (подробнее смотри в моей статье «Примеси к органической выдаче Яндекса»). И замерять значения факторов у «подмешанных» документов, чтоб постараться повлиять на органическую выдачу, вообще бессмысленно. В общем, по факту, на выходе текстовые анализаторы выдают не что, иное, как белый шум.
Текстовые анализаторы хоть как-то могли бы приблизиться к решению задачи нахождения идеальных текстовых характеристик в том случае, если бы можно было применить их к анализу выдачи, полностью очищенной от примесей и построенной с минимальным влиянием иных факторов, кроме текстовых. До недавнего времени, к примеру, можно было в выдаче Яндекса «обнулить» значения ссылочных факторов с помощью недокументированного оператора intext: (подробнее смотри в моей статье «Сеанс поисковой магии. Недокументированные операторы языка запросов Яндекса»). Однако, с недавних пор этот оператор, к сожалению, перестал функционировать
На мой взгляд, действие «Баден-Бадена» направлено в первую очередь на технологию, получившую название «выжигание семантики». Это технология массового воздействия на выдачу, которую активно стараются автоматизировать различные SEO-сервисы. Сначала собирается максимально возможно семантическое ядро, потом оно кластеризуется на группы запросов, которые привязываются к отдельным страницам. Текстовые анализаторы на основе анализа топа выдачи по запросам выдают некие рекомендации по простейшим текстовым характеристикам. На основе этих рекомендаций изготавливаются SEO-тексты в массовых количествах, как правильно однотипные и недостаточно качественные, написанные в первую очередь, не для того, чтоб их читали люди, а для того, чтоб соблюсти поставленные текстовым анализатором перед копирайтером количественные рамки.
Думаю, что не ошибусь, предположив, что у подобной технологии в новых реалиях немного шансов на существование. Также, полагаю, не за горами пристальный интерес со стороны поисковиков и к другой ипостаси технологии «выжигания семантики», а именно к генерации большого количества вариантов листингов товарных предложений на основе использования фильтров по разнообразнейшим характеристикам. Нередко это приводит к тому, что количество разнообразных листингов на сайте может превышать собственно количество самих товаров.
В общем, Яндекс нам в очередной раз (после массовых санкций в декабре 2014 года за накрутку поведенческих факторов и ввода алгоритма «Минусинск» в мае 2015-го с санкциями за накрутку ссылочных) даёт понять, что массовые искусственные SEO-решения, не связанные напрямую с улучшением собственно качества сайта, имеют исчезающе мало перспектив в современных реалиях.


Blog Archive

Технологии Blogger.