среда, 11 декабря 2019 г.

Федот, да не тот: небольшой курьёз в анонсе BERT для русскоязычной выдачи

9 декабря 2019 года Google анонсировал ввод алгоритма BERT для выдачи на русском языке. С одним из примеров, призванном продемонстрировать улучшение поисковой выдачи с использованием технологии BERT, произошел курьёзный момент. Речь идет о запросе «Может ли преподаватель выгнать студента с занятия?», по поводу которого объясняется, что с помощью алгоритма BERT Google стал лучше понимать его смысл и теперь отвечает правильно, именно про «выгнать», в то время как раньше отвечал про «не пустить».
В качестве примера приводится ответ из так называемого «Выделенного описания» («Featured snippets»), в сниппете которого хорошо видно, что речь, хоть и идет о «выгнать», но не про студентов, а про школьников:
 
Забавно, что этот же документ находится и на первом месте органической выдачи с уже вполне корректным с формальной точки зрения сниппетом (т.к. в документе содержатся ответы как про школьников, так и про студентов):

Получается, что демонстрируя достижения алгоритма BERT в понимании контекста запроса, сотрудники Google параллельно продемонстрировали его несостоятельность в формировании сниппета для выделенного описания. 


понедельник, 9 декабря 2019 г.

Чего ждать от алгоритма BERT?

Пожалуй, наиболее ярким событием прошедшего месяца в сфере SEO стало обсуждение алгоритма BERT, начавшееся после объявления сотрудниками Google о том, что этот алгоритм уже используется в поиске для ряда запросов. И хотя, на мой взгляд, этот алгоритм не оказывает сколько-либо заметного влияния на традиционные сферы сеошных интересов в поиске, обойти его вниманием, думаю, было бы не совсем правильно.
25 октября 2019-го года в блоге разработчиков поисковой машины Google появилась статья под заголовком «Understanding searches better than ever before» («Понимание поисковых запросов лучше, чем когда-либо прежде») за авторством вице-президента Google Search Панду Наяка (Pandu Nayak). В ней помимо весьма пространного раcсказа о технологии поиска под названием BERT, впервые анонсированной год назад, было упомянуто об ее уже состоявшемся запуске в «боевой» поиск: «We’re also applying BERT to make Search better for people across the world». В статье как свершившийся факт рассматриваются примеры улучшения выдачи по некоторым запросам. Впрочем, ни о каком отдельном релизе в явном виде не было заявлено, и все выглядит так, что улучшения внедряются постепенно на протяжении некоторого времени, причем SEO-сообщество их не заметило до выхода этой статьи. А вот после появились заявления о дате релиза алгоритма. Так, сначала известный в западных SEO-кругах специалист Барри Шварц (Barry Schwartz) по горячим следам в день выхода статьи заявил о том, что алгоритм стал выкатываться на текущей неделе, а через несколько дней другой специалист Джордж Нгуен (George Nguyen) назвал точную дату: 21 октября, которую потом растиражировали различные отраслевые СМИ. 
Впрочем, не заметить изменения в поиске действительно не мудрено, даже учитывая тот факт, что специалисты Google оценивают, что они затронут каждый десятый запрос на английском языке. Дело в том, что улучшения касаются длинного хвоста микрочастотных запросов на естественном языке, которые попросту выпадает из поля зрения сеошных систем мониторинга выдачи. В связи с этим вспоминаются яндексовские релизы алгоритмов «Палех» и «Королев», которые также практически не затронули традиционные сферы интересов SEO-индустрии в поисковой выдаче, хотя сотрудники Яндекса, несомненно, придавали им большое значение. Судя по всему, то же самое происходит и с последствиями внедрения алгоритма BERT. 
Так что SEO-специалисты, на мой взгляд, могут расслабиться и последовать совету евангелиста поиска Google Дэннни Салливана (Danny Sullivan), данному им в своем Твиттере: «There's nothing to optimize for with BERT, nor anything for anyone to be rethinking. The fundamentals of us seeking to reward great content remain unchanged.» (в вольном переводе – «Не нужно ничего оптимизировать под BERT, равно как и что-то переосмысливать. Наши фундаментальные основы искать достойный контент остаются неизменными.»). Беспокоиться, пожалуй, стоит лишь «выжигателям» семантики по инфозапросам, которым стоит задуматься о повышении качества своих статей «на все случаи жизни».
Впрочем, любые изменения в поиске многие владельцы сайтов теперь будут связывать именно с алгоритмом BERT. Показателен любопытный диалог, состоявшийся во время видеовстречи для вебмастеров сотрудника Google Джона Мюллера (John Mueller). Владелец сайта, который ноябре упал по высокочастотным запросам на 4-5 страницу, сохранив при этом позиции по низкочастотному хвосту, обвинил в этом падении алгоритм BERT. Демонстрируя тем самым полное непонимание природы алгоритма, и получив от Мюллера ожидаемый ответ, что ситуация с его сайтом связана с рутинными изменениями алгоритма, не имеющими отношения к технологии BERT.
Полагаю, что если с позициями в выдаче Google и любого другого сайта в ноябре произошли значительные изменения, то очень вряд ли в этом повинен BERT.
Что же касается русскоязычных запросов, то пока не совсем ясно, насколько широко применяется к ним алгоритм BERT и применяется ли вообще, хотя Панду Наяк в своей в статье упоминает, что он используется для улучшения поиска по всему миру. 
Как один из примеров работы алгоритма Панду Наяк приводит англоязычный запрос «parking on a hill with no curb», демонстрируя как улучшилась выдача с учетом слова “no”, прежде игнорировавшегося:
Посмотрим, что происходит в выдаче по русскоязычным аналогам этого запроса. Запрос «парковка на склоне если нет бордюра» обрабатывается корректно, в первых двух сниппетах мы видим, что документы должны содержать ответ на вопрос:
Однако, чуть изменив запрос на «парковка на склоне без бордюра», мы видим, что сниппеты первых мест выдачи уже не указывают на то, что в документе содержится ответ на вопрос:
Кстати, Яндекс с его «Королевым» решает эту задачу аналогично. В первом случае сниппеты второго и третьего места содержат ответ на вопрос:
А вот во втором случае – нет:
В общем, алгоритмам обработки запросов на естественном языке в обоих поисковиках еще явно есть над чем поработать.


Технологии Blogger.