пятница, 27 мая 2016 г.

И еще раз о кластеризации



26 мая в Москве в лектории компании Rambler на Варшавском шоссе прошло второе мероприятие в рамках проекта "Data Driven SEO", называвшееся «Кластеризация и текстовый анализ». Один из организаторов проекта Виталий Шаповал попросил меня высказать свое экспертное мнение о докладах, прочитанных в рамках этого мероприятия. Хочу поделиться этим мнением и на страницах своего блога.
В докладе Михаила Жуковца решается вполне понятная задача кластеризации запросов на основе семантического сходства, которая может применяться в комплексе методов для распределения поисковых запросов по страницам сайта. Но только в комплексе, так как сама по себе кластеризация по семантическому сходству не учитывает многих критически важных для ранжирования свойств запросов, таких как геозависимость, коммерческость и т.п.
В докладе Тимура Токурова было не совсем о SEO, а о применении кластеризации к задачам веб-аналитики, а именно оценки степени вовлеченности пользователя определенным текстом. Тем не менее, в принципе, данное решение может быть применимо косвенным образом и для SEO, как мера оценки контента в плане его влияния на поведенческие характеристики, в основном, для некоммерческих запросов. Хотя, не исключаю, что при определенной доработке эти идеи могут быть применимы и для коммерческих запросов.
Третий и четвертый доклад (Олег Шестаков и Алексей Чекушин) не буду разделять, так как они, в общем-то по сути об одном – о так называемой кластеризации по топу. По этому поводу я целиком и полностью согласен с мнением Ильи Зябрева, озвученным в прелюдии к круглому столу. Сомнительный подход, базирующийся на сомнительных гипотезах, по сути превращается в некий религиозный культ со своими служителями (владельцами сервисов, продающих этот продукт), идолами, отправлениями и обрядами. Из докладов ясно следует, что в общем случае на выходе получается результат, не совсем соответствующий элементарной логике, поэтому его нужно подгонять под неё. Для этого придумываются различные искусственные методы подгона (типа часто упоминаемых в докладах "хард" и "софт" и прочих ухищрениях). Если же подогнать так и не удается, некачественный результат списывается на глюки Яндекса или другую надуманную причину. При этом не приводится никаких результатов проверки гипотез, на которых базируется подход, просто предлагается верить на слово (в духе "на самом деле это так"). У Алексея Чекушина была еще часть про так называемый текстовый анализатор, но по качеству она находится на том же уровне, что и кластеризация по топу. Берется сомнительная гипотеза и на ее основе строится некий анализ "по копеечке за запрос" без проверки правильности самой базовой гипотезы. В общем, все танцы с бубном и ведутся ради получения этой самой "копеечки".



пятница, 20 мая 2016 г.

Как москвичи приезжали в Тулу SEO учиться

Думаю, можно не покривить душой, если сказать, что в первой половине 2000-х годов Тула по праву была неофициальной SEO-столицей Рунета. По крайней мере плотность SEO-специалистов на душу населения в тульском регионе до сих пор остается одной из самых высоких. А тогда даже ходили байки, что тульские бабушки на трамвайной остановке вместе с семечками продают ссылки. По рупь пучок. Хотя нет,  продажа ссылок – это было несколько попозже… А пока в апреле 2004-го года московские начинающие сеошники запросто приезжают в Тулу учиться уму-разуму у тульских сеошников практикующих. Задушевный разговор на свежем воздухе – что может быть лучше?
Хотя тогда еще термина «сеошник» не было, был гордый, но уже несколько позабытый термин «оптимизатор». Все были молоды, поджары, подтянуты и энергичны.

Рассуждали, как делать сайты для людей и нести клиенту счастье. И еще никто и не подозревал, что буквально через пару лет продажа ссылок напрочь перевернет весь этот рынок. И оптимизаторы превратятся на долгое время в ссылочных брокеров. Но это уже совсем другая история. ☺

вторник, 17 мая 2016 г.

Определение геозависимости в Яндексе одним запросом

Встретил сегодня в фейсбучной ленте интересную задачку, сформулированную одним из френдов – украинским оптимизатором Олегом Саламахой – «Как определить геозависимость в Яндексе одним запросом?»
В общем-то, задача определения геозависимости запроса в Яндексе не очень сложна – нужно просто сравнить выдачи по проверяемому запросу в разных регионах. Там, где они совпадают – запрос геонезависимый (ГНЗ):
Там, где не совпадают – геозависимый (ГЗ):
Но это надо делать минимум два запроса. Да, к тому еще и «многорукий бандит» может вмешаться в одну из региональных выдач, и мы получим ложноположительное срабатывание на геозависимость.
Если обратить внимание на сниппеты у скриншота с геозависимыми запросами, то легко заметить, что вместе со словами запроса подсвечиваются также и топонимы – слово «Москва» для московской выдачи и слово «Тула» соответственно для тульской. Для ГНЗ топоним, соответствующий региону выдачи, в сниппетах не подсвечивается:
Это свойство и постараемся использовать для решения поставленной задачи. Однако далеко не всегда в сниппетах базового запроса можно найти нужный топоним, чтоб проверить его подсветку. Так, например, по запросу вкусный борщ он не встречается в первых 50 результатах поиска (а это максимальное количество результатов, которое можно получить одним запросом). Возникает мысль сузить выдачу таким образом, чтоб максимизировать вероятность нахождения топонима в сниппете. Так как содержимое тега title – непременный атрибут поискового сниппета, то логично сузить выдачу только на те документы, которые содержат в теге title искомый топоним. Однако, если делать это в лоб, то у ГНЗ появляется подсветка топонима:
То есть в лоб задача не решается. Но каждый знакомый с логикой знает, что двойное отрицание есть утверждение. Поэтому построим запрос на двойном отрицании. И подсветка топонима для ГНЗ чудесным образом исчезает:
Проверим, остается ли она для ГЗ. Здесь всё в порядке:
Таким образом, получаем простой способ получить одним запросом выдачу с очень большой вероятностью нахождения топонима в сниппете, по наличию подсветки которого можно определить геозависимость запроса.
И в заключении небольшой нюанс, касающийся класса запросов, уже содержащих какие-либо топонимы в своем содержимом. В этом случае для проверки нужно выбрать регион для выдачи, который не связан с уже имеющимися в запросе топонимами. Например, запрос билеты москва минск можно проверять на геозависимость в тульской выдаче:
Пользуйтесь на здоровье ☺

Технологии Blogger.