воскресенье, 24 апреля 2016 г.

Проверка аффилированности двух сайтов в Яндексе

В своем докладе на только что прошедшей минской конференции «Неделя Байнета» поделился с аудиторией методом проверки аффилированности двух сайтов в Яндексе.
Суть метода такова. Берем два сайта, которые подозреваются в аффилированности. Посредством операторов url: и |  («логическое ИЛИ») формируем выдачу, в которой присутствуют одновременно главные страницы проверяемых сайтов. Для примера я взял пару сайтов, просто найдя в сети информацию о том, что они были когда-то аффилированы:
Дело в том, что аффилированность есть по сути группировка сайтов в выдаче. Ну, то есть так же, как группируются в выдаче страницы одного сайта, в случае аффилированности группируются страницы всех аффилированных сайтов. И по какому-либо запросу будет показываться только одна самая релевантная запросу из всех страниц аффилированных сайтов. Оператор url: имеет свойство разгруппировывать выдачу, то есть по тем запросам, в которых присутствует этот оператор, в выдаче отсутствует группировка по сайтам (и в том числе по группам аффилированных сайтов). Возникла идея попытаться как-то сгруппировать выдачу по запросу, содержащему оператор url:, обратно. Интересное решение нашлось, если добавить к запросу оператор url: с произвольным значением после оператора отрицания ~~. Для выбранного примера это приводит к исчезновению одной из главных страниц из выдачи:
Остается убедиться, что в случае явно неаффилированных сайтов данный прием исчезновений не вызывает:

Таким образом получаем простой и изящный инструмент проверки двух сайтов на аффилированность.

среда, 20 апреля 2016 г.

Параметры URL страницы выдачи Яндекса

Помимо использования операторов языка запроса в поисковой системе Яндекс существует возможность регулировать результаты выдачи по базовому запросу (в URL страницы выдачи ему соответствует значение параметра text) с помощью целого ряда get-параметров формата переменная=значение, используемых в URL страницы выдачи.

Базовый набор этих параметров можно определить с помощью использования фильтров расширенного поиска, а также индивидуальных настроек поиска.
С помощью настройки региона поиска https://tune.yandex.ru/region/ происходит управление параметром
  • lr (регион выдачи) – в качестве значения используется номер региона. Числовые значения номеров некоторых распространенных регионов можно найти на странице https://yandex.ru/yaca/geo.c2n , но используемая база значительно полней (в ней по различным оценкам, полученным методом перебора значений, содержится несколько десятков тысяч регионов). Этот параметр не имеет аналога в языке запросов.
Фильтры расширенного поиска активируются по нажатию соответствующей кнопки в поисковой форме: https://yandex.ru/support/search/how-to-search/advanced-search.xml. Также отдельно форма расширенного поиска Яндекса в несколько ином формате находится по адресу https://www.yandex.ru/search/advanced, но, не исключено, что она уже не относится к документированным возможностям поиска, а является позабытым артефактом. С помощью расширенного поиска возможно определить ряд параметров URL страницы выдачи. Некоторые из них по сути дублируют соответствующие операторы языка запросов, а некоторые в языке запросов не имеют аналогов. Следует отметить, что мне представляется более предпочтительным при исследовании выдачи, где это возможно, применять именно get-параметры, а не операторы языка запроса. Так как при этом сам базовый запрос формально остается неизменным, что обеспечивает, на мой взгляд, большую чистоту исследования.
  • rstr (поиск по сайтам из заданного региона) – в качестве значения используется номер региона аналогично оператору lr с одним отличием, что перед номером региона необходимо поместить знак «минус», например: rstr=-15. К сожалению, на самом деле в выдаче с использованием этого параметра содержатся не документы, привязанные к заданному региону, а документы, которые содержат в тексте или анкор-файле упоминание заданного региона, т.е. по сути происходит некоторая модификация базового запроса путем добавления к нему названия региона.
  • site (поиск на заданном сайте) – в качестве значения используется имя домена или поддомена.
По принципу действия аналогичен оператору site:, однако результаты выдачи могут отличаться друг от друга
  • lang (язык документа) – принимает значения:
ru (русский)
en (английский)
fr (французский)
de (немецкий)
uk (украинский)
be (белорусский)
tt (татарский)
kk (казахский)
tr (турецкий)
id (индонезийский)
По принципу действия аналогичен оператору lang:, однако результаты выдачи могут отличаться друг от друга
  • mime (формат документа) – принимает значения html, pdf, rtf, doc, swf, xls, ppt, docx, odt, odp, ods, odg, xlsx, pptx.
По принципу действия аналогичен оператору mime:, однако этот оператор, в отличие от параметра, не поддерживает значение html
  • zone (зона документа) – принимает значения
all (где угодно)
title (в заголовке), по принципу действия аналогично оператору title:, однако результаты выдачи могут отличаться друг от друга
  • wordforms (употребление слов) – принимает значения
all (в любой форме)
exact (как в запросе), по принципу действия аналогично оператору “” (поиск по цитате), однако результаты выдачи могут отличаться друг от друга
  • numdoc (количество результатов на странице выдачи) – принимает значения 10, 20, 30 и 50. При использовании чисел, отличных от этих значений, меньших 50, происходит округление вверх до ближайшего из них. При использовании чисел более 50, происходит округление до 50.
Также существует ряд параметров даты обновления документа, по принципу действия аналогичных оператору date:
  • from_date_full (начальное значение диапазона дат) – принимает значения в виде ДД.ММ.ГГГГ
  • to_date_full (конечное значение диапазона дат) – принимает значения в виде ДД.ММ.ГГГГ
  • within (диапазон дат) – принимает значения
1 (за две недели)
2 (за месяц)
3 (за три месяца)
4 (за полгода)
5 (за год)
6 (за два года)
7 (за сутки)
77 (за сутки)
8 (за трое суток)
9 (за неделю)
Оператор within имеет приоритет над операторами from_date_full и to_date_full при совместном использовании
В основном поиске также поддерживается один из параметров, указанных в документации get-запросов для сервиса Яндекс.XML
  • l10n (язык уведомлений) – устанавливает язык интерфейса страницы с результатами поиска, принимает значения:
ru (русский)
uk (украинский)
be (белорусский)
kk (казахский)
Кроме того, в различных служебных сообщениях на странице выдачи можно обнаружить ссылки на страницы выдачи, содержащие следующие параметры:
  • page (номер страницы выдачи) – принимает значения от 0 (первая страница) до  18
  • noreask=1 – отключение автоматического исправления опечаток, добавления результатов выдачи по схожим запросам
Также продолжают работать некоторые параметры-артефакты, которые некогда содержались в ссылках из различных служебных сообщений на странице выдачи, но со временем эти сообщения перестали показываться:
  • nomisspell=1 – в настоящий момент по действию аналогичен параметру noreask=1
  • nosyn=1 – отключение подсветки синонимов в сниппетах
  • how=tm – сортировка выдачи по дате первичной индексации документа
  • rd=0 – отключение фильтра дубликатов (в терминах Яндекса – «слишком похожих страниц»)
  • pag=u – разгруппировка результатов выдачи по сайтам
    Учитывая тот факт, что при этом также происходит и разгруппировка аффилиатов, этот параметр можно использовать для поиска отфильтрованных аффилиатов в выдаче, правда здесь нужно учитывать, что разгруппированные страницы с некоторых сайтов могут занять много мест в топе, что затруднит поиск аффилиатов.  

В завершении стоит, пожалуй, заметить, что есть еще один параметр-артефакт, который некоторым образом изменяет результаты поиска по базовому запросу. Это параметр hodreq, значение которого представляет собой некоторый поисковый запрос. Когда-то это параметр использовался в режиме «Искать в найденном», фиксируя предыдущий поисковый запрос, который ограничивал выборку документов для применения базового запроса. Однако на данный момент корректно интерпретировать действие этого параметра мне, к сожалению, не удалось.


четверг, 14 апреля 2016 г.

В поисках серебряных пуль

Открываю рубрику «Записки уездного доктора». Почему уездного доктора? Да был такой замечательный персонаж в исполнении Леонида Броневого в фильме «Формула любви».
Один из моих любимых кинематографических персонажей, которого отличает здоровый скептицизм на основе богатого жизненного опыта. Его простые и ёмкие ироничные комментарии к ловким фокусам графа Калиостро по сути являлись разоблачениями трюков, призванных вводить людей в заблуждение. Вот эту роль уездного доктора я и попробую сыграть в применении к современным трюкам и фокусам, практикуемым определенными людьми в области моих профессиональных интересов – в области SEO.
Десятилетний период торжества платных ссылок на отечественном рынке SEO породил одну очень неприятную вещь – а именно устойчивую парадигму, что успех в поисковом продвижении достигается не на уровне организации сайта, а где-то вовне его. Что практически любой сайт можно продвинуть, ограничиваясь лишь косметическими правками в его основном содержимом, а всё остальное – дело каких-то изощренных внешних практик. Ну, и отчасти внутренних, если под ними подразумевается невмешательство в основную структуру представления информации на сайте, а дело ограничивается редактированием отдельных зон документов (SEO-текстов) и генерацией спецстраниц («лендингов»). Но, в общем-то, основная доля успеха в продвижении подразумевалась именно за счет покупки ссылок. Именно они играли роль «серебряных пуль», «волшебного эликсира», «лома, против которого нет приема».
Крестовый поход Яндекса против индустрии платных ссылок, предпринятый им в последние два года, серьезно пошатнул их значимость в нише «серебряных пуль» SEO. Но свято место пусто не бывает, и тут же на арену начали вылезать новые фокусники с новыми трюками. Рассмотрю первую, на мой взгляд, тройку из них.
«Кластеризация по топу». Трюк, основанный на вере людей в какие-то скрытые ото всех связи между сущностями, познав которые, можно легко добиться успеха. Декларируется, что запросы, по которым продвигается страница, могут как помогать, так и мешать друг другу. Если правильно понять, какие запросы в семантическом ядре «магическим образом» выталкивают друг друга в топ, то чисто косметическими правками контента можно добиться феерических результатов. Понятное дело, что правильно понять это могут только платные сервисы, способные перемалывать «бигдату» поисковой выдачи. Никаких пруфов и доказательств, только смутные намеки на тайные знания, полученные из инсайдерских закромов. «Кластеризация по топу» возводится по сути в религиозный культ, служители которого (по совместительству держатели тех самых платных сервисов) всегда готовы укрепить сомневающихся адептов в правильности веры. А по существу вопроса – так была на этот счет у дедушки Крылова известная басня, которая гласила, что от перемены мест музыкантов качество их игры не меняется.


«Контент-маркетинг». В общем-то, контент-маркетинг как таковой есть вполне себе самостоятельная дисциплина, имеющая весьма отдаленное (если не сказать больше) отношение к SEO. Но в последнее время некоторые трюкачи пытаются завернуть в эту благообразную обертку свои старые сеошные практики.  Когда у новоиспеченных апологетов «контент-маркетинга» в их проповедях начинают проскальзывать словечки типа «иерархия URL» или «наличие сайтов трастовых каталогах», не надо быть совершенным дураком, чтобы понять, что речь на самом деле идет о старом добром SEO. И что пуля из, скажем так, не совсем подходящего материала, завернутая в новую блестящую упаковку, не становится от этого серебряной. В сухом остатке – тупо подмена понятий в попытке отжать под новым соусом слегка потерявшую берега сеошную клиентуру. Но как говорил Козьма Прутков, «Если на клетке слона прочтёшь надпись «буйвол», не верь глазам своим», и вообще «Бди!»


«Крауд-маркетинг». Под этим внешне благообразным термином скрывается не что иное, как старый «добрый» ссылочный спам в любые формы user-generated content’а (UGC) на сторонних ресурсах – посты в форумах, комментарии в блогах, социальных сетях и т.п. Способ, старый как сам интернет. И давно известный в том числе и поисковым системам, которые так же давно научились его вполне эффективно распознавать и отфильтровывать. Но трюкачами на голубом глазу утверждается, что сейчас, в условиях, когда идет борьба с покупными SEO-ссылками, именно типа «естественные» ссылки, отложенные в разнообразнейших местах UGC, обязательно дадут свои плоды в плане SEO. На чем основывается уверенность, что сейчас поисковые системы вдруг позабыли все свои прежние наработки – остается только догадываться. Хотя на самом деле поисковые системы ничего не забыли, а просто разыгрывается очередной трюк со впариванием давно просроченного товара в новой упаковке. В общем, как гласит старый афоризм из толково-фразеологического словаря Михельсона, «как тебя ни назови, все от тебя не розами пахнет»
 


Вы спросите, так а где же сейчас эти «серебряные пули»? Где чудесные методы манипуляции алгоритмом? Я же сделал офигительный сайт, и вообще, у всех сайты почти одинаковые, там улучшать уже практически нечего, надо искать то, чем всех победить, где-то в другом месте, например, ссылочек входящих побольше насыпать, словечки ключевые в SEO-портянке поправильней перетасовать и тому подобное. Так вот я вам скажу – надо внимательно присмотреться именно к вашему сайту как к средству представления информации пользователю. Залог успеха в современном SEO лежит именно внутри сайта. И улучшать там наверняка есть чего.


Технологии Blogger.