среда, 11 декабря 2019 г.

Федот, да не тот: небольшой курьёз в анонсе BERT для русскоязычной выдачи

9 декабря 2019 года Google анонсировал ввод алгоритма BERT для выдачи на русском языке. С одним из примеров, призванном продемонстрировать улучшение поисковой выдачи с использованием технологии BERT, произошел курьёзный момент. Речь идет о запросе «Может ли преподаватель выгнать студента с занятия?», по поводу которого объясняется, что с помощью алгоритма BERT Google стал лучше понимать его смысл и теперь отвечает правильно, именно про «выгнать», в то время как раньше отвечал про «не пустить».
В качестве примера приводится ответ из так называемого «Выделенного описания» («Featured snippets»), в сниппете которого хорошо видно, что речь, хоть и идет о «выгнать», но не про студентов, а про школьников:
 
Забавно, что этот же документ находится и на первом месте органической выдачи с уже вполне корректным с формальной точки зрения сниппетом (т.к. в документе содержатся ответы как про школьников, так и про студентов):

Получается, что демонстрируя достижения алгоритма BERT в понимании контекста запроса, сотрудники Google параллельно продемонстрировали его несостоятельность в формировании сниппета для выделенного описания. 


понедельник, 9 декабря 2019 г.

Чего ждать от алгоритма BERT?

Пожалуй, наиболее ярким событием прошедшего месяца в сфере SEO стало обсуждение алгоритма BERT, начавшееся после объявления сотрудниками Google о том, что этот алгоритм уже используется в поиске для ряда запросов. И хотя, на мой взгляд, этот алгоритм не оказывает сколько-либо заметного влияния на традиционные сферы сеошных интересов в поиске, обойти его вниманием, думаю, было бы не совсем правильно.
25 октября 2019-го года в блоге разработчиков поисковой машины Google появилась статья под заголовком «Understanding searches better than ever before» («Понимание поисковых запросов лучше, чем когда-либо прежде») за авторством вице-президента Google Search Панду Наяка (Pandu Nayak). В ней помимо весьма пространного раcсказа о технологии поиска под названием BERT, впервые анонсированной год назад, было упомянуто об ее уже состоявшемся запуске в «боевой» поиск: «We’re also applying BERT to make Search better for people across the world». В статье как свершившийся факт рассматриваются примеры улучшения выдачи по некоторым запросам. Впрочем, ни о каком отдельном релизе в явном виде не было заявлено, и все выглядит так, что улучшения внедряются постепенно на протяжении некоторого времени, причем SEO-сообщество их не заметило до выхода этой статьи. А вот после появились заявления о дате релиза алгоритма. Так, сначала известный в западных SEO-кругах специалист Барри Шварц (Barry Schwartz) по горячим следам в день выхода статьи заявил о том, что алгоритм стал выкатываться на текущей неделе, а через несколько дней другой специалист Джордж Нгуен (George Nguyen) назвал точную дату: 21 октября, которую потом растиражировали различные отраслевые СМИ. 
Впрочем, не заметить изменения в поиске действительно не мудрено, даже учитывая тот факт, что специалисты Google оценивают, что они затронут каждый десятый запрос на английском языке. Дело в том, что улучшения касаются длинного хвоста микрочастотных запросов на естественном языке, которые попросту выпадает из поля зрения сеошных систем мониторинга выдачи. В связи с этим вспоминаются яндексовские релизы алгоритмов «Палех» и «Королев», которые также практически не затронули традиционные сферы интересов SEO-индустрии в поисковой выдаче, хотя сотрудники Яндекса, несомненно, придавали им большое значение. Судя по всему, то же самое происходит и с последствиями внедрения алгоритма BERT. 
Так что SEO-специалисты, на мой взгляд, могут расслабиться и последовать совету евангелиста поиска Google Дэннни Салливана (Danny Sullivan), данному им в своем Твиттере: «There's nothing to optimize for with BERT, nor anything for anyone to be rethinking. The fundamentals of us seeking to reward great content remain unchanged.» (в вольном переводе – «Не нужно ничего оптимизировать под BERT, равно как и что-то переосмысливать. Наши фундаментальные основы искать достойный контент остаются неизменными.»). Беспокоиться, пожалуй, стоит лишь «выжигателям» семантики по инфозапросам, которым стоит задуматься о повышении качества своих статей «на все случаи жизни».
Впрочем, любые изменения в поиске многие владельцы сайтов теперь будут связывать именно с алгоритмом BERT. Показателен любопытный диалог, состоявшийся во время видеовстречи для вебмастеров сотрудника Google Джона Мюллера (John Mueller). Владелец сайта, который ноябре упал по высокочастотным запросам на 4-5 страницу, сохранив при этом позиции по низкочастотному хвосту, обвинил в этом падении алгоритм BERT. Демонстрируя тем самым полное непонимание природы алгоритма, и получив от Мюллера ожидаемый ответ, что ситуация с его сайтом связана с рутинными изменениями алгоритма, не имеющими отношения к технологии BERT.
Полагаю, что если с позициями в выдаче Google и любого другого сайта в ноябре произошли значительные изменения, то очень вряд ли в этом повинен BERT.
Что же касается русскоязычных запросов, то пока не совсем ясно, насколько широко применяется к ним алгоритм BERT и применяется ли вообще, хотя Панду Наяк в своей в статье упоминает, что он используется для улучшения поиска по всему миру. 
Как один из примеров работы алгоритма Панду Наяк приводит англоязычный запрос «parking on a hill with no curb», демонстрируя как улучшилась выдача с учетом слова “no”, прежде игнорировавшегося:
Посмотрим, что происходит в выдаче по русскоязычным аналогам этого запроса. Запрос «парковка на склоне если нет бордюра» обрабатывается корректно, в первых двух сниппетах мы видим, что документы должны содержать ответ на вопрос:
Однако, чуть изменив запрос на «парковка на склоне без бордюра», мы видим, что сниппеты первых мест выдачи уже не указывают на то, что в документе содержится ответ на вопрос:
Кстати, Яндекс с его «Королевым» решает эту задачу аналогично. В первом случае сниппеты второго и третьего места содержат ответ на вопрос:
А вот во втором случае – нет:
В общем, алгоритмам обработки запросов на естественном языке в обоих поисковиках еще явно есть над чем поработать.


понедельник, 25 ноября 2019 г.

Новый формат сохраненной копии страницы в Яндексе

В октябре 2019-го года Яндекс тихой сапой, безо всяких анонсов и объявлений, заменил формат сохраненной копии страницы. Нажав на ссылку «Сохраненная копия» в сниппете, 
мы попадаем на домен yandexwebcache.net, который раньше не использовался для хранения сохраненных копий. Собственно, этот домен был зарегистрирован совсем недавно, в августе 2019-го года:


Дизайн шапки страницы сохраненной копии со служебной информации изменился:


Хорошая новость – ссылка на текстовую копию стала рабочей в отличие от старого формата сохраненки. Она доступна по ссылке «Только текст», URL страницы текстовой версии сохраненной копии отличается от URL полной версии наличием get-параметра mode=text:
Но есть и очень неприятная особенность нового формата сохраненной копии – полностью исчезла подсветка ключевых слов запроса как в полной версии, так и в текстовой:
К счастью, подсветку ключевых слов все-таки можно увидеть, применив несложный лайфхак. Оказывается, с вводом нового формата сохраненной копии Яндекс пока еще не удалил возможность пользоваться старым форматом. Для доступа к сохраненкам в старом формате нам нужно заменить в URL сохраненки имя домена с https://yandexwebcache.net/ на https://hghltd.yandex.net/
При этом нужно иметь в виду, что при загрузке полной версии сохраненной копии Яндекс может убирать из ее URL в командной строке браузера get-параметр sign (по крайней мере, это происходит для сохраненной копии исследуемой нами главной страницы Яндекса). Если такое происходит, то URL полной версии сохраненки нужно скопировать не из командной строки браузера, а из ссылок на нее из сниппета на странице выдачи или со страницы текстовой сохраненной копии, в которых этот параметр присутствует. Далее заменяем в скопированном URL домен и получаем полную версию сохраненной копии в старом формате с подсветкой ключевых слов:
Для получения текстовой версии сохраненной копии в старом формате с подсветкой, надо к сконструированному нами URL полной версии сохраненки добавить get-параметр &cht=1, т.к. ссылка «Посмотреть текстовую копию», как я уже упоминал выше, здесь работает некорректно:
При этом надо иметь в виду тот факт, что время жизни текущего значения get-параметра sign в URL сохраненных версий как нового, так и старого формата ограничено. И если мы начинаем при попытке ее загрузить получать 404-ю ошибку, то необходимо обновить страницу с результатами поиска и извлечь из сниппета ссылку на сохраненную копию с новым значением get-параметра sign, которое будет рабочим некоторое время. Так, например, за время написания этой статьи рабочее значение get-параметра sign в URL сохраненных копий рассматриваемого примера менялось несколько раз, что можно заметить на скриншотах.
Хотелось бы надеяться, что сотрудники Яндекса восстановят подсветку ключевых слов запроса в новом формате сохраненки. А пока придется совершать вот такие вот танцы с бубнами с возвращением к старому формату для продуктивного анализа сохраненных копий страниц. При этом проблема возможного несоответствия показываемой версии сохраненной копии страницы и той, что находится в индексе и используется для ранжирования, о которой я писал ранее, к сожалению, все еще остается актуальной.

вторник, 22 октября 2019 г.

«Кошелек или жизнь?» – как понравиться асессорам Google

5 сентября 2019 года вышла очередная версия Руководства Google для асессоров. Ну, а 24 сентября стартовал очередной апдейт алгоритма ранжирования – September 2019 Core Update. Уже стало традицией, что обновления этого Руководства непременно предшествуют скорому знаковому обновлению алгоритма ранжирования. Так, например, предыдущее обновление случилось 16 мая 2019-го года, а уже в начале июня выдачу по многим тематикам основательно перетряхнул June 2019 Core Update. А предшествовавшее ему обновление Руководства от 20 июля 2018-го года ознаменовалось в начале августа 2018-го знаменитым Medic Update
Эти явно неслучайные совпадения заставляют подходить к изменениям в Руководстве Google для асессоров с большим вниманием. Да и сотрудник Google Дэнни Салливан в свое время заявлял, что руководство для асессоров является ключом к обновлениям основного алгоритма. Лично мне показались заслуживающими пристального внимания изменения в следующих разделах.
Во-первых, значительно обновился раздел 2.3 Your Money or Your Life (YMYL) Pages. Указанные в нем категории были изменены, изменился также и порядок их представления.  


Первое место заняла категория «Новости и текущие события» («News and current events»), что может означать, что Google повысил приоритет этой категории среди других источников YMYL контента. Сразу же вспоминается нашумевшая в западном SEO-сообществе история про то, как после последнего июньского апдейта алгоритма (June 2019 Core Update) сайт английской газеты Daily Mail потерял половину трафика из Google. Обращает на себя внимания также тот факт, что собственно новости выделены из более общей категории «Новостные статьи или публичные/официальные страницы, важные для информирования населения» («News articles or public/official information pages important for having an informed citizenry»).
Оставшаяся без новостей часть этой категории вместе с категорией «Правовая информация» («Legal information pages») сформировали новую категорию «Гражданское право, правительство и закон» («Civics, government, and law»), расположившуюся на втором месте списка. Кстати, июньский апдейт Google вместе с новостными ресурсами основательно «потрепал» и информационные сайты правовой сферы.
Категория «Покупки и финансовые операции» («Shopping or financial transaction pages») превратилась просто в «Покупки» («Shopping»). Судя по новому описанию этой категории, информационный контент, связанный с потребительской сферой, также является YMYL контентом наряду с онлайн-магазинами и другими страницами, где совершаются финансовые онлайн-операции.  Думаю, этот факт стоит учесть владельцам информационных ресурсов в этой сфере – обзорников, отзовиков и т.п.
Категория «Медицинская информация» («Medical information pages») оказалась переименована в «Здоровье и безопасность» («Health and safety»). Налицо явное расширение профессиональной медицинской темы на более общую информационную тему о здоровье в общем. Сразу же вспоминается нашумевший «медицинский» апдейт («Medic Update»), и не исключено, что можно ожидать повторения, затрагивающего большее количество информационных ресурсов данного направления.
Ну, и внизу списка появилась новая категория «Группы людей» («Groups of people»), судя по ее описанию, затрагивающая информационный контент, связанный с различными социальными группами. Есть повод задуматься владельцам различных «сообществ по интересам».
Также обращает на себя внимание тот факт, что в качестве носителя контента YMYL в новой редакции Руководства указаны не только страницы («pages»), но и темы («topics»), что может означать то, что страница может быть признана носителем YMYL контента в том случае, когда под определение YMYL попадает только часть ее содержимого, не являющееся основной целью страницы.  
Собственно, из всего вышеперечисленного можно сделать вывод, что количество ресурсов (особенно информационных), попадающих под определение носителей YMYL контента, может значительно увеличиться, а, значит, их владельцам придется основательно задуматься о соответствии их ресурсов обозначенным в пункте 3.2 Expertise, Authoritativeness, and Trustworthiness (E-A-T) Руководства Google для асессоров принципам E-A-T («Экспертность, Авторитетность и Надежность»). 
Анонимный или скопированный без указания авторства контент, размещенный на ноунейм сайтах теперь, похоже, будет иметь ничтожно мало шансов на хорошее ранжирование в YMYL темах. У контента должны быть обозначены конкретные авторы, равно как у сайта – владельцы. Даже если на сайте преобладает user-generated контент (форумы, Q&A сайты и т.п.), пользователи, его генерирующие, должны иметь индивидуальные профили, и чем больше в профиле будет информации, подтверждающей экспертность пользователя в данной теме, тем лучше. 
Не случайно абзац, добавленный в пункт 5.2 Very Positive Reputation Руководства Google для асессоров свидетельствует о достаточно высоких требованиях к уровню экспертизы создателей контента, особенно в профессиональных областях, таких как медицина:




Кроме того, о качестве и актуальности контента тоже придется позаботиться. Собственно, раскрытию понятия высококачественного основного контента (Main Content или МС) как раз посвящено еще одно значимое изменение в Руководстве Google для асессоров – значительное увеличение информации в пункте 5.1 Very High Quality MC:
 


В обновленной версии появилось описание признаков качества для новостного, художественного и информационного типов контента. Подчеркнуты важность оригинальности, точности, полноты, соответствия профессиональным стандартам, а также упоминания первоисточников в случае необходимости. 
В общем, чтобы не стать жертвой очередного апдейта Google, многим сайтам, похоже, придется основательно позаботиться о качестве своего контента и об авторитетности его авторов. Ну, или продолжать уповать на то, что прошлогодние слова сотрудника Google Джона Мюллера от том, что Google не смотрит на репутацию авторов контента при ранжировании сайта все еще остаются актуальными. Впрочем, апдейт покажет.

понедельник, 23 сентября 2019 г.

Летние изменения в поиске Яндекса

Несмотря на то, что лето традиционно является периодом отпусков, похоже, в поисковом департаменте Яндекса вовсю кипит работа. Ибо нововведения в поиске продолжают появляться одно за другим.
Начнем с того, что в начале июня в блоге разработчиков Яндекса устами Платона Щукина было заявлено об изменениях в учете директивы canonical, а именно, что "атрибут rel со значением canonical элемента link теперь рассматривается как указание на главное зеркало в группах зеркал сайтов с www и без www, а также с http и https". Вместе с тем Платон Щукин подчеркнул, что "межхостовый атрибут все ещё не поддерживается, поэтому, если отдельные страницы будут содержать атрибут с такими указаниями, как неканонические, они из поиска не выпадут". Да и на соответствующей странице Яндекс.Помощи указано, что "робот Яндекса не учтет канонический адрес, если: ... В качестве канонического адреса указан URL в другом домене или поддомене"
Однако мне удалось встретить в отчетах сервиса Яндекс.Вебмастер самое что ни на есть прямое подтверждение, что страница на одном поддомене признана канонической для страницы с другого поддомена:
Причем, здесь идет речь не о склейке поддоменов, а именно о консолидации отдельных страниц. Возможно, расширение функционала директивы canonical вызвало вот такие любопытные артефакты. Что ж, нововведение скорее положительное, а если еще и заработает междоменный canonical, то это будет однозначный плюс.
Но на этом Яндекс в изменении своего взгляда на директиву canonical не успокоился. В начале июля последовал анонс нового отношения Яндекса к директиве canonical, который я анализировал в своей предыдущей статье «Неканонический canonical». Вкратце – Яндекс заявил, что будет игнорировать директиву canonical в том случае, если сочтет, что контент страниц, указанных как каноническая и неканоническая, существенно различается. По горячим следам анонса я высказал надежду, что директива canonical будет игнорироваться только в случае, если неканоническая страница будет сочтена действительно полезной и качественной. Однако, увы, практика показала, что неканонические страницы запросто удаляются Яндексом из индекса как некачественные:
   
То есть по сути директива canonical перестала быть удобным инструментом для консолидации страниц, контент которых может различаться (например, страниц пагинации, сортировки, результатов фильтрации и т.п.). И если для конкретного сайта игнорирование директивы canonical с последующим признанием неканонических страниц некачественными будет носить массовый характер, то, на мой взгляд, будет целесообразным отказываться от использования этой директивы в пользу 301-го редиректа для индексирующих ботов. Так что данное нововведение представляется мне однозначно со знаком «минус», так как сильно ограничивает возможность управления консолидацией страниц сайта.
В середине августа произошло изменение в интерфейсе поиска Яндекса, не удостоившееся официального анонса. Тихо и незаметно из меню дополнительной информации сниппетов поисковой выдачи исчез пункт «Показать еще с сайта». Причем, на момент написания статьи упоминание об этом пункте еще сохраняется в соответствующем разделе Яндекс.Помощи. И пока еще можно увидеть, как это меню выглядело еще совсем недавно:
А вот как это меню выглядит в поисковой выдаче сейчас:
Вместо пункта «Показать еще с сайта» появились пункты «Информация о сайте» и «В избранное», не имеющие отношения к поисковому функционалу. 
О том, что это отнюдь не случайность, свидетельствует и исчезновение поиска по сайту из фильтров расширенного поиска:
Причем, в данном случае соответствующая страница Яндекс.Помощи это изменение зафиксировала оперативно.
В общем, в Яндексе отчетливо прослеживается тенденция к упрощению поискового функционала. Так сказать, возврат от сложных форм к простым. Можно это называть архаизацией, можно дебилизацией, но суть от этого не меняется. Времена Кубка Яндекса по поиску давно канули в лету, поисковые инженеры теперь думают над тем, как избавить пользователя от необходимости думать. Такое впечатление, что эволюция поискового интерфейса Яндекса медленно, но верно идет к аналогу легендарной гугловской кнопки «I’m Feeling Lucky» («Мне повезет»), но с той разницей, что она будет единственной и выдавать ответ будет с наиболее подходящего яндексовского сервиса.
Хотя, следует признать, что физически возможность поиска по сайту не исчезла, пока еще функционируют get-параметр site
и поисковый оператор site:
Исчезла только возможность воспользоваться этой функцией, используя интерфейс.
Что же касается Google, то у него также нет возможности поиска по сайту ни из сниппетов, ни из инструментов поиска на странице выдачи. Однако у него есть такая возможность на странице расширенного поиска, аналог которой в Яндексе на данный момент отсутствует. Конечно, пока функционал поиска по сайту в Яндексе физически существует, это нововведение нельзя считать сколько-либо значимым в плане ограничения возможностей для анализа поисковой выдачи, но сам по себе звоночек, на мой взгляд, тревожный.
И, наконец, 20 августа 2019 года Яндекс объявил об изменении правил работы с контентными зеркалами. Суть изменений заключается в том, что Яндекс теперь не будет склеивать полные дубли сайтов. Склейка зеркал сайтов будет осуществляться только через 301-й редирект. Таким образом Яндекс наконец-то прикрыл одну очень неприятную дыру в алгоритме склейки зеркал. Дело в том, что разместив на подконтрольном домене копию чужого сайта можно было рассчитывать на то, что при склейке зеркал Яндекс может назначить главным зеркалом именно ваш дубликат, а не чужой оригинал. Соответственно, весь поисковый трафик и все внешние поисковые сигналы оригинала перетекали при склейке к главному зеркалу, то есть подконтрольному злоумышленнику сайту. Ну, а как дальше распоряжаться полученным добром, это уже зависело целиком от его фантазии. Самое интересное, что когда владелец оригинала, обнаружив, что его сайт стал второстепенным зеркалом неподконтрольного ему дубликата, обращался в Яндекс, то он получал от Платона Щукина стандартный отлуп, о том, что "вручную расклеить сайты возможности нет, так как процесс автоматизирован", с предложением решать проблему с хостером сайта-дубликата или радикально изменить контент своего сайта, чтоб могла сработать автоматическая расклейка: 
В общем, данное нововведение Яндекса можно только всячески приветствовать как несомненно оздоравливающее поисковую экосреду. Здесь поисковым инженерам Яндекса можно поставить однозначный зачёт.


Технологии Blogger.