вторник, 7 февраля 2017 г.

Синонимы в поисковой выдаче Google

Еще в 2010-м году в официальном блоге Google была опубликована статья «Helping computers understand language», в которой рассказывалось об учете синонимов ключевых слов запроса (в том числе и расшифровок аббревиатур) при ранжировании. Характерной особенностью учитываемых синонимов является то, что они «подсвечиваются» жирным шрифтом в сниппетах точно так же, как и базовые ключевые слова, входящие в запрос. Эта особенность существенно облегчает идентификацию синонимов для конкретного запроса. И сегодня я хотел бы поделиться одним способом, существенно облегчающим поиск всевозможных вариантов синонимов ключевых слов запроса. 
Способ этот заключается в постепенном сужении поисковой выдачи путем исключения из поиска базовых ключевых слов и уже известных нам синонимов.
Итак, возьмем пример из упомянутой выше статьи – запрос [pictures developed with coffee]. Сразу же находим в сниппетах на первой странице выдачи подсвеченные синонимы для слова pictures photos и photographs:
Исключим с помощью оператора ‘‘ («минус») слова pictures, photos и photographs. В сниппетах наблюдаем подсвеченными различные вариации слова pictures, образованные с помощью замены букв на их аналоги с различными подстрочными и надстрочными (диактритическими) знаками:
Последовательно исключая подобные синонимы, мы обнаружим все возможные их значения. Единственный минус – синонимов может быть так много, что можно не уложиться в ограничение на 32 слова для поискового запроса. Именно это происходит для рассматриваемого базового запроса с последовательным исключением слова coffee и его синонимов, которые правда, все являются разнообразнейшими вариациями базового слова с добавлением диакритических знаков. Вот, к примеру, наиболее экзотические из них: Ĉõfféê, Cøffëë, Çófféé, Çófféé, Cøffęę, Çøffëé, čøffęë, Cøffęę.
В русскоязычных запросах, конечно же, вариантов синонимов с диактирическими знаками встречается намного меньше (в основном, в виде обозначения ударений), но зато есть своя особенность – зачастую приходится «минусовать» различные словоформы базового слова. Например, по запросу [дизайн сайта], чтобы «добраться» до обнаружения подсветки в сниппете слова site, надо «отминусовать» несколько словоформ слова сайт:
Ну и вообще, набор синонимов для базовых слов в русскоязычных запросах у Google довольно скудный, в основном это перевод на английский язык или транслитерация, расшифровка аббревиатур, а также переход из одной части речи в другую (например, достопримечательность -> достопримечательный). Но иногда встречаются и довольно любопытные варианты образования синонимов:
Какой логикой руководствовался Google, назначая синонимом для слова bgoperator (сайт bgoperator.ru принадлежит туроператору «Библио Глобус») слово Черногория, остается только догадываться, но больше ни одна из стран, куда организует туры «Библио Глобус», такой чести не удостоилась:


Blog Archive

Технологии Blogger.