«Атипичная синонимия» в выдаче Яндекса – проделки «Палеха»?
В текущем году Яндекс уже во второй раз нас порадовал внедрением нового официального «именного» алгоритма ранжирования. И если февральский «Владивосток» касался только мобильной выдачи, то ноябрьский «Палех» был анонсирован для общей формулы. Вкратце – Палех предназначен для поиска таких ответов на запросы, которые не содержат ключевых слов, входящих в запрос, но тем не менее релевантны ему. Это особенно актуально для длинного хвоста низкочастотных запросов, когда пользователь формулирует запрос достаточно нечетко, не сумев подобрать «правильных» ключевых слов, по которым поисковая система может выдать ему релевантный ответ. Поэтому поисковику приходится подбирать некоторые «ассоциации» к исходному запросу.
Впрочем, проблема с подбором расширенных результатов поиска не нова, и Яндекс уже давно пытается ее решить. Первой ласточкой было внедрение в 2008-м году в алгоритме «Магадан» первых вариантов синонимов ключевых слов – перевода и транслитерации. Затем синонимы сильно расширились за счет создания специального словаря. Также было внедрение в 2010-м году в алгоритме «Краснодар» технологии «Спектр» – попытки расширить выдачу за счет учета возможных вариантов расширения потребностей пользователя, заданных в общем, достаточно неоднозначно сформулированном, запросе.
Но все эти нововведения не решали проблему релевантной выдачи для «длинного хвоста», и вот появился «Палех». И сразу же стала весьма интересной задача определения, какие именно результаты выдачи сформированы именно этим алгоритмом.
Об идентификации различных уже известных примесей к органической выдаче Яндекса, в том числе, и сформированной технологией «Спектр», я писал в своей статье «Примеси к органической выдачи Яндекса».
Примерно месяц назад (еще до анонса «Палеха») мне показали один любопытный запрос, отдельные результаты в выдаче по которому, заставили задуматься о том, что в ней могло появиться что-то новое. Выдача по запросу по названию русскоязычной школы «Адриатик Колледж», находящейся в черногорском городе Будва, содержит ссылки на документы, касающиеся других русскоязычных школ Черногории и не имеющие подсветки ключевых слов из запроса в сниппетах:
Оказывается, что эти страницы вообще не содержат слов запроса ни в контенте, ни в текстах входящих ссылок:
В общем-то, подобная картина характерна для документов, найденных с помощью одних только синонимов слов запроса. Так, например, находящийся на первом месте документ, имеет точно такие же свойства, демонстрируя нам подсвеченные синонимы (а именно, перевод слов запроса на английский язык) в сниппете:
Однако, мне удалось найти конструкцию запроса (с добавлением оператора отрицания с термином, заведомо не содержащимся в документе, например, произвольной абракадабры), при которой выдача для данных документов ведет себя по-разному, в одном случае документ продолжает находиться, в другом - нет:
Что дает возможность предположить, что документы, для которых в таком случае выдача пуста, попали в выдачу каким-то иным способом, нежели с помощью традиционного со времен релиза «Магадан» механизма учета синонимов. Назову это явление «атипичной синонимией».
Дальнейшее исследование показало, что документы, ведущие себя в выдаче по базовому запросу [адриатик колледж] как найденные с помощью «атипичной синонимии», достаточно хорошо находятся с помощью следующего запроса (по крайней мере, такими свойствами обладают четыре документа из топ-5):
Что позволяет предположить наличие некоей связи между запросами [адриатик колледж] и [русская школа в черногории] или схожим ему по смыслу и набору ключевых слов. Документ, который мы выбрали для примера идентификации «атипичной синонимии», также находится по запросу [русская школа в черногории], хоть и по тексту входящих ссылок:
Анонс алгоритма «Палех», в котором говорится, что семантический вектор стал использоваться несколько месяцев назад, наталкивает на мысль, что подобная «атипичная синонимия» может быть не чем иным, как результатом работы «Палеха».
Еще один пример «атипичной синонимии» я обнаружил у запросов, представляющих собой некоторые достаточно редко употребляемые русскоязычные варианты корейского бренда «Hyunday»:
Кроме запроса [хенде] «атипичная синонимия» наблюдается на запросах [хендей], [хэндэй], [хендеи], [хендаи], [хюнде].
Другие же (более распространенные?) русскоязычные варианты бренда, такие как [хендай] ведут себя, как «типичные» синонимы:
К ним также относятся запросы [хюндэй], [хюндай], [хюндаи] и др.
Я буду очень признателен, если кто-то из читателей найдет в выдаче подобные примеры «атипичной синонимии» и пришлет мне на е-мейл ludkiewicz@yandex.ru для исследования. А вдруг это действительно реальный способ идентифицировать примесь к органике, сформированную «Палехом».