вторник, 13 февраля 2018 г.

Лайфхак №5. Альтернативный способ поиска поддоменов в Яндексе с помощью документированных операторов

В начале ноября 2017 года в рассылке Searchengines.ru вышла статья SEO-специалиста интернет-магазина «220 Вольт» Павла Лукина «Поиск поддоменов в Яндексе с помощью документированных операторов», в которой был предложен метод решения заявленной задачи, в основу которого была положена идея последовательного отрицания ключевых слов, являющихся префиксами поддоменов. Я знаю Павла, как отличного специалиста в области SEO, мы одно время довольно плотно общались в рамках моих консультаций по продвижению интернет-магазина «220 Вольт», где работает Павел, но, на мой взгляд, предложенная им реализация своей идеи не совсем корректна. И я хотел бы в данной статье предложить более корректный метод реализации озвученной им идеи.
Напомню, что до произошедшей в прошлом году отмены Яндексом поддержки ряда операторов, в числе которых был оператор отрицания ~~, поставленная задача решалась способом, предложенным мною в статье «Поиск поддоменов сайта в индексе Яндекса и Google». В основу этого способа была положена идея последовательного отрицания при поиске по сайту уже известных нам поддоменов. Однако к концу прошлого года операторы отрицания ~~ и ~ частично потеряли свою работоспособность, став по сути аналогом единственного оставшегося документированным оператора отрицания (минус). Утратив при этом важное свойство – корректно работать с документными операторами, т.е. исключать из поиска страницы и сайты (о чем я писал в своей недавней статье «Новая логика работы операторов языка запросов Яндекса. Морфология и поисковый контекст»).
Павел Лукин, учитывая, что одним из текстовых факторов ранжирования является вхождение запроса в URL, предложил вместо ставшего недоступным отрицания поддоменов использовать с помощью документированного оператора (минус) отрицание ключевых слов, являющихся префиксами поддоменов. Павел обнаружил, что этот оператор некорректно работает справа от документного оператора site:, т.е. не гарантирует исключение страниц, в URL которых входит ключевое слово, к которому он применяется. Кстати, это легко видно на следующем примере:
Вместо оператора site: Павел предложил использовать другой документный оператор rhost:, предположив, что справа от этого оператора оператор отрицания (минус) работает корректно. Однако можно наглядно продемонстрировать, что это не так, на следующих примерах:
Суть моей реализации идеи, предложенной Павлом, состоит в том, чтобы использовать оператор отрицания (минус) не справа, а слева от документного оператора. А, в свою очередь, справа от оператора (минус) использовать какое-либо ключевое слово. В качестве такого ключевого слова удобно взять доменное имя 2-го уровня рассматриваемого сайта, т.к. запросу, состоящему из него, будут релевантны все страницы сайта благодаря фактору вхождения ключевого слова в URL. Т.е. для рассматриваемого примера запрос будет выглядеть следующим образом:
Справедливости ради стоит отметить, что Павел упоминал эту реализацию в своей последующей статье «Оператор «минус» в Яндексе: особенности работы, применение для SEO», но не сделал ее подробного анализа, поэтому я считаю нужным его сделать. Анализ показывает, что подобное использование оператора отрицания работает корректно для префиксов доменов, состоящих только из букв, с оператором site:
Равно как и с оператором rhost:
К сожалению, данная реализация (так же, как и реализация, предложенная Павлом), не работает для отрицания префиксов доменов, состоящих только из цифр:
Это происходит по той причине, что оператор отрицания (минус) некорректно работает при применении к ключевым словам, которые состоят только из цифр:
Если же префикс домена является цифробуквенной комбинацией, то его отрицание предложенным способом также не дает желаемого результата:
Однако для тех случаев, когда в цифробуквенной комбинации встречаются несколько букв подряд, нужный результат обеспечивает отрицание этой буквенной подстроки:
Это также связано с особенностью применения оператора отрицания (минус) к ключевым словам, являющимися цифробуквенными комбинациями.


вторник, 9 января 2018 г.

SEO-итоги 2017 года: Яндекс методично закручивает гайки, повернувшись к сеошникам лицом

Традиционно подвожу итоги основных событий, повлиявших на отечественную SEO-индустрию. И на мой взгляд, 2017-й год оказался на подобные события гораздо более богат, нежели достаточно спокойный 2016-й.
Основным ньюсмейкером в 2017-м году, несомненно, оказался главный отечественный поисковик – Яндекс.
Начался 2017-й год с довольно неприятного для SEO-аналитиков события – в январе Яндекс объявил о прекращении поддержки целого ряда операторов языка запросов. Некоторые из этих операторов активно использовались SEO-аналитиками для решения весьма полезных исследовательских и прикладных задач, например, таких как поиск по анкор-файлу или определение аффилиатов. Слова яндексоидов оказались не пустым звуком, и в течение некоторого времени операторы, которым было официально отказано в поддержке, полностью или частично потеряли свою работоспособность. То же самое произошло и со многими из так называемых «недокументированных операторов», т.е. тех, которые когда-либо упоминались в официальной документации, но со временем исчезли из неё, сохранив при этом свою работоспособность. Да к тому же еще и некоторые из тех немногих из операторов, что сохранили прописку в документации, либо изменили логику своей работы, либо работают нестабильно. Всё это заставляет искать альтернативные методы решения целого ряда аналитических задач, и, к сожалению, не для всех из них это удается сделать в полной мере.
Но отмена операторов была только началом очередного наступления Яндекса на позиции отечественной SEO-индустрии. Буквально через пару месяцев произошло, пожалуй, самое громкое событие года – в марте Яндекс представил новый алгоритм под названием «Баден-Баден», призванный бороться с переоптимизированными текстами. При этом было объявлено, что «он является частью общего алгоритма ранжирования». Таким образом, и в Яндексе, вслед за Google, проявляется тенденция перетекания антиспама в основное ядро алгоритма. «Баден-Баден» затронул, в основном, коммерческие сайты, которые явно злоупотребляли так называемыми SEO-текстами – густо сдобренными ключевиками «портянками», как правило, расположенными где-то между листингом товаров и «подвалом» страницы. Яндекс явно дал понять, что собственно представление продукции для алгоритма коммерческого ранжирования гораздо важнее, нежели некая информационная составляющая, практически бесполезная для пользователя в процессе выбора товара. Таким образом оказался забит еще один гвоздь в крышку гроба манипулятивного подхода к SEO, подразумевающего не развитие и улучшение качества сайта, а прямую накрутку определенных факторов ранжирования, в данном случае – текстовых. Времена, когда в топ можно было протолкнуть сайт практически любого качества с помощью манипулятивных техник, как правило, тем или иным образом автоматизированных, всё отчётливей становятся историей.
В июле Яндекс объявил о разработке нового метода машинного обучения, получившего название CatBoost и призванного заменить знаменитый MatrixNet. Вслед за этим, в августе, был запущен новый алгоритм ранжирования «Королёв», и не исключено, что он уже использует новый метод машинного обучения. Несмотря на тревожные ожидания (а запуск нового алгоритма был заранее анонсирован вопреки традициям Яндекса не сообщать о своих планах), это событие оказалось по факту мало значимым для SEO-сообщества, т.к. «Королёв» (являясь продолжением «Палеха») имеет целью улучшить ранжирование по лежащему вне сферы традиционных сеошных интересов длинному хвосту микрочастотных многословных запросов на естественном языке, с которым у Яндекса на протяжении долгого времени были определенные проблемы.
Достаточно много шума в SEO-сообществе наделало введение Яндексом четвертого места в рекламном блоке спецразмещения, анонсированное в июне, а также замеченное в октябре появление рекламных объявлений в середине страницы поисковой выдачи. Многие специалисты отмечают, что эти нововведения отрицательно повлияли на объем трафика, получаемого сайтами с тех же самых мест в органической выдаче, т.е. налицо пресловутая каннибализация органических кликов Директом.
И, наконец, завершило год декабрьское объявление Яндекса о начале процесса закрытия Яндекс.Каталога. SEO-сообщество увидело в этом шаге, в первую очередь, угрозу отмены ТИЦ – «пузомерки», традиционно используемой как основа ценообразования в процессе купли-продажи SEO-ссылок. Покупатели ссылок опасались за последующие за этим затруднения в оценке качества ссылок, ведь ТИЦ является по сути единственной «пузомеркой», имеющей хоть какое-то отношение к Яндексу, в отличие от рисуемых вилами на воде различными сервисами «трастов». Продавцы – очередного снижения доходов от «ссылочных доноров» с заботливо выращиваемым годами ТИЦем. Однако сотрудники Яндекса поспешили уверить в том, что заморозка сервиса Яндекс.Каталог никак не отразится на ТИЦ.
Кстати, что же касается собственно самой индустрии ссылкоторговли, то после введения «Минусинска» она медленно, но верно угасает. Конечно, сеошники еще продолжают покупать ссылки, но уже в гораздо меньших количествах и скорее по инерции. Характерным звоночком явилось выставление на продажу на одной из бирж сайтов довольно известного в сеошных кругах сервиса, который как раз занимается вот уже не один год «измерением» (вернее, рисованием вилами на воде) мифического «траста», используемого для оценки ссылочных доноров. Как известно, курицу, несущую золотые яйца, не режут. Любопытно, что на том аукционе не было сделано ни одной ставки по данному лоту.
С другой стороны, в 2017 году Яндекс откровенно порадовал и некоторыми положительными движениями в сторону вебмастеров и SEO-специалистов. Таким, например, как значительное расширение функционала сервиса Яндекс.Вебмастер. В нём появились новые полезные инструменты, такие как, например, расширенные настройки фильтров, позволяющие использовать регулярные выражения, или инструмент «Тренды», позволяющий сравнить динамику развития вашего сайта относительно схожих сайтов; a также новые отчеты, такие, например, как раздельная статистика по десктопам и мобильным устройствам или весьма информативный подраздел «Исключенные страницы» раздела «Страницы в поиске», благодаря которому можно наглядно увидеть, какие страницы сайта и по какой причине были сочтены алгоритмами Яндекса недостойными для попадания в поисковый индекс.
Также Яндекс провел серию вебинаров под названием «Поисковая оптимизация сайта: вопросы и ответы» и уже седьмую по счету конференцию «Вебмастерская» с привлечением в качестве спикеров некоторых SEO-специалистов. В общем, сотрудники Яндекса прилагают немало усилий, чтоб донести до SEO-специалистов, каким должно быть правильное SEO с их точки зрения.
Что же касается Google, то он в уходящем году предоставил гораздо меньше интересных для отечественного SEO-сообщества информационных поводов. Можно вспомнить, пожалуй, заявление сотрудника Google Гэри Илша (Gary Illyes), на конференции SMX Advanced, что покупка ссылок равносильна швырянию денег из окна. Судя по всему, Гэри при этом не имел при этом в виду второстепенные для Google национальные рынки поиска типа российского. Ибо на нём покупные ссылки явно сохраняют своё влияние на выдачу. Ну, и еще, пожалуй, заслуживает внимания другое заявление того же Гэри Илша, что Google пока не намерен увеличивать вес использующих протокол HTTPS страниц в ранжировании. И это, несмотря на то, что на протяжении всего года Google рассылал вебмастерам письма с предупреждением, что в очередной версии браузера Chrome определенные страницы сайтов (например, собирающие данные о паролях и кредитных картах или содержащие текстовые формы) будут помечаться, как небезопасные, а в будущем такая пометка появится для любых страниц, не использующих протокол HTTPS. Довольно много шума в англоязычном сегменте наделали массовые санкции, ударившие по сайтам в начале марта. На сайте Search Engine Land их назвали новым фильтром, которому дали имя «Fred», однако сотрудники Google никакого нового фильтра не признали, и, по всей видимости, это был результат плановой работы антиспама.
Что же касается общих тенденций в отечественном SEO, то устойчиво сохраняется заданный в предыдущие годы тренд на развитие «сервисов ради сервисов», сопровождаемый постоянным информационным шумом, значительно преувеличивающим значимость предлагаемых данными сервисами услуг в деле поискового продвижения сайтов и серьезно искажающим профессиональное инфополе. Самые ловкие сеошники давно поняли, что продавать золотоискателям лопаты гораздо выгоднее, чем искать золото. Тем более, что вера самих «золотоискателей» в наличие волшебной «лопаты», сиречь кнопки «в топ», нисколько не уменьшается.


среда, 13 декабря 2017 г.

Новая логика работы операторов языка запросов Яндекса. Документные операторы

В своей предыдущей статье я проанализировал работоспособность операторов языка запросов Яндекса из группы «Морфология и поисковый контекст», о прекращении поддержки которых было официально объявлено Яндексом в январе 2017 года. Нововведения объяснялись «рядом важных изменений, направленных на увеличение производительности поиска, а именно изменением формата поискового индекса и связанным с ним изменением механизма разбора поисковых запросов». Вместе с тем изменения замечены и в работе другой группы операторов языка запросов Яндекса, а именно «Документные операторы».
Несмотря на то, что в документации языка запросов указано, что документные операторы используются для уточнения поискового запроса, ограничивая область его применения, раньше все операторы этой группы корректно работали и при их прямом применении (или, другими словами, в связке с пустым поисковым запросом). Теперь же эту способность сохранили только операторы url:, site:, host:, rhost:, domain: и date: (назовем их документными операторами 1-го типа). Операторы же mime:, lang: и cat: (назовем их документными операторами 2-го типа) при прямом применении работоспособность явно потеряли:
Документные операторы 2-го типа работают корректно только в связке с непустым запросом, причем, как справа, так и слева от него. Правда, при использовании этих операторов слева от непустого поискового запроса в выдаче могут возникать любопытные артефакты:
Есть также одно исключение, когда эти операторы корректно работают в случае пустого запроса – в связке с документным оператором site:, причем, только справа от него:
При использовании же слева от оператора site: документные операторы 2-го типа просто игнорируются:
Точно также документные операторы 2-го типа игнорируются и в случае пустого запроса в связке с операторами url:, host:, rhost:, domain: и date:, не зависимо от расположения справа или слева от них.
В случае же непустого запроса и нескольких документных операторов, порядок следования запроса и операторов роли не играет.
Представляется интересным также исследовать текущую работоспособность документных операторов, когда-либо упоминавшихся, но в разное время исчезнувших из официальной документации языка запросов.
Так, летом 2016-го года из раздела Яндекс.Помощи «Документные операторы» без каких-либо объявлений исчезли два оператора, сохранив, однако, на тот момент свою работоспособность:
  • title: – оператор поиска по заголовкам документов (тег title);
  • inurl: – оператор поиска по страницам, в адресе которых есть заданный фрагмент.
Сейчас оператор title:  явно перестал выполнять заявленную функцию, такое впечатление, что он просто игнорируется, не зависимо от того, используется ли он с пустым или непустым поисковым запросом:
А вот оператор inurl:, в отличие от него, свою работоспособность сохранил. Так же, как и документированные документные операторы 2-го типа, он не работает при применении с пустым поисковым запросом
и работает в связке с непустым:
О других недокументированных операторах я в своё время писал в своих статьях «Сеанс поисковой магии. Недокументированные операторы языка запросов Яндекса» и «Недокументированные операторы языка запросов Яндекса. Продолжение сеанса поисковой магии». К сожалению, самые из них интересные операторы intext: и inlink: потеряли свою работоспособность в апреле 2017-го года, а операторы linkint: и anchorint: – еще раньше.
Из числа недокументированных работоспособными на текущий момент остаются только гораздо менее интересные для решения аналитических задач документные операторы:
  • idate: – оператор поиска по дате последней индексации документа;
  • style: – оператор поиска по адресам файлов таблиц стилей (значение атрибута href тега link c атрибутом stylesheet);
  • profile: – оператор поиска по адресам профилей метаданных (значение атрибута profile тега head)
Все эти операторы имеют свойства документных операторов 2-го типа.

четверг, 2 ноября 2017 г.

Новая логика работы операторов языка запросов Яндекса. Морфология и поисковый контекст.

В начале 2017 года Яндекс объявил о прекращении поддержки ряда операторов языка запросов. Я подробно писал об этом в своей статье «Кастрация языка запросов Яндекса». Отказ от поддержки ряда операторов объяснялся сотрудниками Яндекса изменением формата поискового индекса и связанного с ним изменением механизма разбора поисковых запросов. По прошествии некоторого времени хотелось бы проанализировать, какие изменения на самом деле произошли в логике работы операторов языка запросов Яндекса.
Самый неприятный итог изменений – это то, что все указанные в анонсе операторы из группы «Морфология и поисковый контекст», а именно &, &&, <<, ~, (), !!, на данный момент действительно перестали работать (возможно, за исключением малоинтересного с точки зрения аналитики оператора !!). Эти операторы оказывали неоценимую помощь при исследовании поисковой выдачи, позволяя конструировать разнообразнейшие запросы для решения широкого спектра аналитических задач. Теперь же они явно не поддерживают свои функции.
Оператор ~ теперь является аналогом документированного оператора (минус), который осущствляет поиск документов, в которых отсутствует заданное слово, хотя раньше работал с точностью до предложения, т.е. позволял искать документы, в которых заданное слово не содержится в одном предложении со словом, указанным до оператора. Также аналогом оператора (минус) сейчас является и оператор ~~, почему-то не упомянутый в анонсе Яндекса о прекращении поддержки операторов, но исчезнувший из официальной документации. Раньше с помощью оператора ~~ можно было исключать из поиска целые поисковые фразы, а также страницы и сайты (т.е. он работал с документными операторами), а теперь он применим только к отдельным ключевым словам. Впрочем, аналогия простирается лишь на случай, когда операторы применяются к последним словам запроса. Если же использовать их в середине, то получившиеся результаты поиска могут разниться и осмысленной логике не поддаются:
Оператор &, призванный искать слова в пределах одного предложения, определенно этого не делает. В приведенном ниже примере, на сайте, по которому идет поиск, нет предложений, где бы встречались оба указанных слова, но тем не менее, выдача не пуста:
Оператор поиска в пределах документа && тоже не выполняет своих функций. В приведенном примере на сайте, по которому идет поиск, нет документов, в которых встречаются оба слова из запроса. Тем не менее в выдаче фигурируют документы, где они встречаются поодиночке:
Оператор << (неранжирующее И) перестал ограничивать выдачу документами, релевантными запросу, находящемуся по правую сторону оператора. На приведенном примере справа находится «абракадабра», которая вообще не встречается ни в одном документе. Тем не менее, это не оказывает никакого влияния на число найденных документов:
Проверим работу оператора группировки слов при сложных запросах (). Возьмем два запроса поиска по сайту с пустой выдачей:
И сгруппируем их с помощью оператора () и документированного оператора | (логическое ИЛИ). Если группировка работает корректно, то выдача должна быть пуста. Однако это не так:
Что же касается оператора поиска слова по начальной форме !!, то проверить его корректную работоспособность очень трудно. По крайней мере, можно убедиться, что применяя его к словам, которые сами по себе не являются начальной формой, можно найти документы только с точными вхождениями этих слов. А вот для слов, которые являются начальной формой слов, ищутся документы, где нет точного вхождения, но есть формы этого слова. С другой стороны, очень похоже на то, что начальная форма слова в запросе теперь учитывается по умолчанию (пищу для размышления привожу ниже на скриншотах, хотя никакой практической ценности я в этом факте не вижу).


Технологии Blogger.