пятница, 27 мая 2016 г.

И еще раз о кластеризации



26 мая в Москве в лектории компании Rambler на Варшавском шоссе прошло второе мероприятие в рамках проекта "Data Driven SEO", называвшееся «Кластеризация и текстовый анализ». Один из организаторов проекта Виталий Шаповал попросил меня высказать свое экспертное мнение о докладах, прочитанных в рамках этого мероприятия. Хочу поделиться этим мнением и на страницах своего блога.
В докладе Михаила Жуковца решается вполне понятная задача кластеризации запросов на основе семантического сходства, которая может применяться в комплексе методов для распределения поисковых запросов по страницам сайта. Но только в комплексе, так как сама по себе кластеризация по семантическому сходству не учитывает многих критически важных для ранжирования свойств запросов, таких как геозависимость, коммерческость и т.п.
В докладе Тимура Токурова было не совсем о SEO, а о применении кластеризации к задачам веб-аналитики, а именно оценки степени вовлеченности пользователя определенным текстом. Тем не менее, в принципе, данное решение может быть применимо косвенным образом и для SEO, как мера оценки контента в плане его влияния на поведенческие характеристики, в основном, для некоммерческих запросов. Хотя, не исключаю, что при определенной доработке эти идеи могут быть применимы и для коммерческих запросов.
Третий и четвертый доклад (Олег Шестаков и Алексей Чекушин) не буду разделять, так как они, в общем-то по сути об одном – о так называемой кластеризации по топу. По этому поводу я целиком и полностью согласен с мнением Ильи Зябрева, озвученным в прелюдии к круглому столу. Сомнительный подход, базирующийся на сомнительных гипотезах, по сути превращается в некий религиозный культ со своими служителями (владельцами сервисов, продающих этот продукт), идолами, отправлениями и обрядами. Из докладов ясно следует, что в общем случае на выходе получается результат, не совсем соответствующий элементарной логике, поэтому его нужно подгонять под неё. Для этого придумываются различные искусственные методы подгона (типа часто упоминаемых в докладах "хард" и "софт" и прочих ухищрениях). Если же подогнать так и не удается, некачественный результат списывается на глюки Яндекса или другую надуманную причину. При этом не приводится никаких результатов проверки гипотез, на которых базируется подход, просто предлагается верить на слово (в духе "на самом деле это так"). У Алексея Чекушина была еще часть про так называемый текстовый анализатор, но по качеству она находится на том же уровне, что и кластеризация по топу. Берется сомнительная гипотеза и на ее основе строится некий анализ "по копеечке за запрос" без проверки правильности самой базовой гипотезы. В общем, все танцы с бубном и ведутся ради получения этой самой "копеечки".


Share this


3 Comments
avatar

1. Как надо кластеризировать?
2. Хард кластер даже без Чекушина описан в методе кластеризации ПС, если не ошибаюсь .
3. Будучи адептом текарта и бдбд, что-то от вас на рынок ничего не попало.
Вопрос остался как вы кластеризируете и двигаетесь в топ?

Reply
avatar

Дмитрий, мое видение правильной кластеризации запросов следующее:
1. Выполнение совпадения критически важных признаков запросов - геозавасимости, коммерческости и т.п.
2. Достижение максимального семантического сходства (с учетом том числе и синонимов)
То есть работаем от причины, а не от следствия.

Reply
avatar

Автор, измените цвет текста комментариев!

Reply

Технологии Blogger.