«Нужно искать те запросы, где агрегаторов еще нет»
Руководитель поисковых технологий в Ostrovok
Алексей Чекушин
Сегодня в рубрике «Интервью с героем» самое большое интервью с гением SEO Алексеем Чекушиным. Поговорили о вечных вопросах инхауса, машинного обучения, разобрали хард и софт кластеризации. Разузнал все о его деятельности в Островке и почему Алексей ушел из Кокоса. Поехали!
Алексей, почему «Островок»? Почему ушел из «Кокоса»?


— По многим причинам. Не могу сказать, что была какая-то одна конкретная, решающая. Я собрался уходить, потому что мне там стало просто неинтересно в последние полгода. Закончились какие-то важные для меня вещи, началась рутина, а «Островок» достаточно интересную возможность для развития предоставляет.
Чем ты конкретно занимаешься в «Островке»?


— Я отвечаю за сео-продвижение в меньшей части и в большей части — за технологии: разработку сервисов автоматизации, которые должны быть полезны как поисковому продвижению, так и контекстной рекламе, но и в целом за все, что можно делать с поисковыми системами. То есть это такая нестандартная должность.
Как я понимаю, для тебя это дебют в такой должности?


— Да нет. В последние год-полтора я только этим и занимался, когда перестал руководить трафиком. Я фактически учил оптимизаторов, разрабатывал автоматизацию, разбирал сложные кейсы, плюс еще с некоторыми клиентами общался.
Ты когда работал в «Викимарте», там за аналитику сеошники отвечали?


— За эффективность SEO-каналов отвечали сеошники.
На чем строится аналитика, какие инструменты используете: стандартные или самописные?


— Сложно сказать, это такой гибрид, собранный из разных частей: есть какие-то самописные, есть покупные решения, но это не просто стандартные вещи типа Google analytics или «Яндекс.Метрики».
Отдаете ли вы что-то на аутсорс?


— Вопрос, что считать аутсорсом. Понятное дело, копирайтеры не сидят у нас в офисе. Если считать, что не сидят в офисе, то, наверное, это аутсорс. А так для маркетинга мы стараемся сторонние компании не привлекать, все делать самостоятельно на текущем этапе.
Бывает, что мы спим до 12, а потом в 3-4 часа ночи переписываемся по рабочим вопросам.
Как формируете конкурентные преимущества для «Островка»?


— Основное конкурентное преимущество «Островка» в том, что у нас дешевле. То есть мы можем продать размещение в отеле в те же даты, в той же категории номера, но дешевле, чем конкуренты. Это достигается через особые системы. За это нас очень не любят отельеры. Примерно так же, как таксисты не любят «Убер». Но тем не менее мы успешно это делаем. У нас по огромному числу отелей самое лучшее ценовое предложение.
Как у ваших сеошников построен типичный рабочий день? В чем отличие от типичного рабочего дня в digital-агентстве?


— Отличается тем, что в «Островке» нет рядовых сеошников. Там работают специалисты очень высокого уровня, у которых нет фиксированного рабочего дня. Бывает, что мы спим до 12, а потом в 3-4 часа ночи переписываемся по рабочим вопросам. Это не такие люди, которых нужно регламентировать, это классные специалисты, которые занимаются как сео-продвижением, так и сео-разработкой.
Раскроем тайну для соискателей. Назови пару каверзных вопросов, которые вы задаете на собеседовании на вакансию сеошника.


— Очень сложно сказать про какие-то каверзные вопросы. Я обычно человеку даю сложные, реально сложные задачи, которые рассчитаны на то, что человек не сможет быстро найти решение. И основная оценка, которую я делаю, это не то, как быстро он решит проблему, а как именно он подходит к решению. Почему это важно? В сео очень часто возникают ситуации, когда что-то случилось, а ты не понимаешь что, пытаешься найти и не можешь. И вот непонятно вообще, есть решение или нет, может, решения и нет. И поэтому очень важно понимать, как на это человек будет реагировать. Также мы тестируем интеллект и основные навыки понимания в сео.
Расскажи, как формируется рейтинг отелей, ранжирование внутри «Островка»?


— Там достаточно сложный алгоритм, который учитывает большое количество параметров и направлен на максимизацию одновременно двух метрик: конверсии пользователей и нашей маржи.
Про машинное обучение существует много мифов и легенд; в частности, один из мифов, что машинное обучение сильно бьет по эвристике.
Значит, свой «Матрикснет» изобретаете?


— Не совсем. «Матрикснет» — это все-таки система машинного обучения. А у нас ситуация такая, что далек тот самый потенциал эвристических методов, когда ты формулу составляешь вручную. Про машинное обучение существует много мифов и легенд; в частности, один из мифов, что машинное обучение сильно бьет по эвристике. Это не так. Машинное обучение, в случае когда у тебя есть сильные эвристические факторы, позволяет улучшить показатели на 5-10%. Это было очень четко видно, когда мы еще в «Викимарте» принимали участие в конкурсе «Яндекса». Там была задача — оценить релевантность документа по клику. И оказалось, что один единственный фактор в виде last-клика доминирует практически над всем. То есть формула, в которой 90% веса — это фактор last-клика, борется чуть ли не на равных с умельцами из Microsoft и «Яндекса». То есть, когда у тебя есть сильный, тяжелый, мощный фактор, тебе мало что даст машинное обучение. Когда у тебя есть набор мелких, малозначащих факторов, вот тогда — только машинное обучение.
Что показывает статистика по зарубежным отелям? Как изменились предпочтения россиян в кризис?


— У меня не было какой-то глубокой аналитики, мы в целом смотрели не по конкретным отелям, а по направлениям. Можно сказать, что в связи с тем, что спрос существенно упал на Турцию и Египет, возрос спрос на какие-то дешевые направления типа Болгарии, Греции. Но во многом это не наша тематика, потому что люди, которые ездили в Турцию и Египет, предпочитают не бронировать самостоятельно, а приобретать пакетные туры. А пакетными турами мы не занимаемся. Мы для тех, кто хочет забронировать себе отель самостоятельно и самостоятельно выбирать свое путешествие.
Люди, когда пользуются логикой, намного больше ошибок в распределении запросов допускают, чем кластеризаторы.
Автоматические кластеризаторы типа just-magic или rush-analytics позволяют выполнить распределение запросов на основании машинного конкурентного анализа. Сервис посылает запросы поисковику и находит соответствующие адреса web-страниц в выдаче для каждого отправленного поискового запроса. Если же поисковая система возвращает одни и те же документы по поисковым запросам и таких совпадений несколько, такие запросы объединяются в группы. Расскажи подробнее читателям.


— Как-то странно про автоматические кластеризаторы сказано, потому что это вспомогательный инструмент. Он не принимает на себя окончательное решение о распределении запросов, там часто приходится отправлять результаты руками. Я про эту тему и на вебинаре рассказывал, и статью написал большую. Кластеризатор в данном случае выступает как вспомогательный инструмент, который предварительно может запросы сгруппировать по принципу выдачи серпа. А ты дальше уже смотришь, что, например, вот в этой группе вроде серп схожий, но она реально слишком большая, и я ее вручную почистил. Или смотришь, что вот эти две группы похожи, однотипные запросы — раскидал в разные, посмотрел, что семантическая близость достаточная, что конкуренция не особая, и объединил их в одну. То есть вот такие действия надо выполнять, нельзя копипастом заниматься. А логика — это абсолютно неприменимый путь просто потому, что логично смартфон и смартфоны продвигать на одной странице. Это разнотипные запросы. Смартфоны вообще даже геонезависимые. Когда ты пишешь «логика», нужно пояснять, в чем логика заключается, потому что обычно люди логически распределяют так: (посмотрел на запросы) «Так, вот это сюда, это сюда, а это — сюда». Дело в том, что люди, когда пользуются логикой, намного больше ошибок в распределении запросов допускают, чем кластеризаторы. Самое эффективное — это человек + кластеризатор. Наборы даже в 100 запросов очень сложно распределить, если делать это руками. Это огромный объем работы, поэтому нужно кластеризовать и снять типы запросов.

А такая информация, как количество главных страниц по запросу, есть ли витальные ответы, очень важна, потому что это ни разу не очевидно: может собирать витальный ответ типа «отзывы об отеле». Или, наоборот, сайт отеля может не являться витальным по запросу, и его можно с этого места потеснить. И выдается тематика запроса для того, чтобы можно было быстро принять решение, запрос про то или не про то.

На самом деле, даже в таких очевидных тематиках очень сложно сориентироваться. Например, «виолончель»: подойдет ли этот запрос для магазина музыкальных инструментов. Я, например, не смогу сразу ответить на этот вопрос. Соответственно, математическая классификация позволяет это все дело определять автоматически и разделять. Потом еще мы добавим геозависимость. Там просто сложнее реализация алгоритма, мы пока не успели его сделать. Следующее — оптимизация страницы, запросы. Здесь уже кластеризаторы вообще никак не помогут. Потому что кластеризатор максимум может дать информацию о том, по каким URL у тебя было посещение. И то, если он кластеризует по хард-методу. Потому что если он кластеризует по софт, кластеризует как Rush, у тебя в группе может не быть ни одного URL между двумя запросами. Это недостаток софт-метода кластеризации, из-за чего я его не использую. Здесь нужно работать при помощи текстового анализатора, потому что он за тебя анализирует топ и говорит, какие есть закономерности. А ты уже на основании этих данных принимаешь решение по оптимизации страниц. Вот как это работает.
Вопрос инхауса и агентств. Чтобы ты посоветовал для владельца бизнеса: идти в агентство или инхаус начать?


— Это вопрос, который не имеет однозначного ответа. Что я могу посоветовать владельцу бизнеса, если он не разбирается в сео? Срочно начинать повышать свой уровень образованности. Это очень важный метод. Я не могу сказать то, что это решающий канал по объему трафика, но он решающий по маржинальности. Он дает большое количество лидов с очень низкой ценой за лид. Ни контекстная реклама, ни СРС-сети на это не способны. Они дают очень высокую стоимость заказа, а у сео стоимость заказа низкая, что дает очень высокую маржинальность; это маржа, которую можно использовать на развитие бизнеса. Когда владелец бизнеса сам разбирается, он сможет подобрать себе в штат хорошего специалиста либо подобрать хорошее агентство и контролировать процесс продвижения.

Касательно кейсов. Это очень сильно зависит от того, за что готова делать инхаус. Потому что, как правило, инхаус существенно дороже, потому что фактически необходимо построить внутреннюю сео-компанию и где-то купить эти компетенции. Обычная история про инхаус: «Мы дофига денег платим в агентство, давайте наймем сеошника за 100 тыщ, дадим 50 тыщ на ссылки. Платим миллион, платим 200 тыщ, все хорошо». Но через 6-9 месяцев начинается стагнация и снижение. Почему так происходит? Потому что все думают, что в агентстве за продвижение отвечает только оптимизатор. Это не так. В агентстве есть огромное количество компетенций, которые вливаются в оптимизаторов. Это большая обвязка в виде автоматизации, которой просто нет у инхауса. Это работа аккаунта. В правильно построенном агентстве оптимизатор занимается чисто продвижением, а в инхаусе он занимается написанием отчетов, взаимодействием с руководителем отдела маркетинга, отделом разработки и т. д. У него меньше времени остается на технические работы. Многие поэтому приходят к схеме оптимизатор + агентство, т. е. когда есть внутренний человек, который очень хорошо в этом разбирается и использует агентство как ресурс.
«Островок» неплохо выведен, очевидно, что в ближайшее время стремительного роста, как в начале, не будет. Что требовать от сеошника?


— На самом деле, когда проект очень хорошо выведен, то там немного другие механизмы. Когда ты активно растешь, ты можешь использовать рисковые методики. Есть такое соотношение как profit risk ratio — это отношение возможного профита к рискам, которые ты несешь, когда пытаешься его достичь. Когда у тебя низкий результат, ты можешь сильно рисковать. Когда у тебя хороший результат, ты не можешь позволить себе рисковать, поэтому здесь вступает очень осторожная тактика. По тем направлениям, где результат пока низкий, мы можем позволить себе рискованные методы.
Смешанная выдача. Живой пример: тематика кровли и сайдинга. На 10 мест мы получаем два агрегатора, «Авито», пару информационных ресурсов и остается места заметно меньше. Как в этой среде бороться?


— Есть два типа сайтов, с которыми очень сложно бороться. С агрегатором сложнее бороться и это очевидно, потому что агрегаторы представляют собой большую пользу для пользователя. Еще один момент связан с известностью бренда, что выражается в прямом трафике на сайт. Если у сайта есть хотя бы 100 000 прямых переходов, он получает преимущество, и такие сайты легко вводятся в топ. И что с этим делать? С этим живут. Нужно искать те запросы, где агрегаторов еще нет.
Немножко про кластеризацию. Например, у нас основные группы факторов с конкурентами сходные. Остается работать с текстовым фактором и ссылочным. Ссылочный фактор пассивен, не рассматриваем его. Остается только текст. Что делать? Естественно, оптимизировать. Но есть естественное ограничение: можно разместить только какой-то определенный пул на страницу. Как бороться в высококонкурентной среде?


— Есть тематика очень жесткая, когда мы растаскивали даже синонимы на разные страницы. Потому что в пластиковых окнах была жесточайшая конкуренция. И поэтому мы растаскивали цену и стоимость на разные страницы. И мы были единственным сайтом, который по цене и стоимости стоял в топ-10. Нужно понимать, как реагировать, когда есть высокая конкуренция запроса. И можем ли мы обойтись там какими-то косметическими методами или нужно перейти к оптимизации по хардкор. JustMagic позволяет очень быстро понимать, как устроен топ и принимать решение. И просчитать все-все-все вхождения, которые оптимизатору просто так не видны.
А есть тематика, которую было очень сложно выводить или вообще не вывел?


— Был один сайт в продвижении, мы за счет Google сделали весь прогноз трафика, который мы нарисовали для «Яндекса» и «Гугл». Но «Яндекс» — просто 0. Нам не получилось убедить «Яндекс», что это не БАД, и что мы сайт достойной компании. Нам сказали, что вообще ранжировать не будут. Ну вот такие случаи встречаются. Ну тут корректно говорить не про тематику, а про какой то конкретный проект. Сео — это вероятностный процесс. От того, насколько квалифицированный сеошник, зависит только то, какой процент трафика у него выходит. Чем опытней и больше навыков, тем больше трафика выходит. Но даже у самого опытного встречаются неудачи. Ну вот был один сайт, над которым я сидел, руководитель группы сидел — никто не понял, что с ним не так. Это не фильтр, он просто не ранжировался «Яндексом». Да, встречаются такие моменты, но не могу сказать, что есть конкретная тематика. Но у меня есть предпочтения. Я люблю больше занимать трафиковым продвижением, чем позиционным.
Расскажи подробнее про JustMagic.


— Изначально я делал инструмент для себя. Технологией, которая выложена в паблик, мы очень дорожили года 2 назад. Боялись, что потеряем конкурентное преимущество. Но оказалось, что многие отвергают текстовую кластеризацию и анализ, несмотря на то, что они приносят реальный результат. В основном сервис старается не копировать какие-то существующие решения, а предоставлять уникальные вещи. Например, у нас можно через работу статической базы мгновенно получать семантику сайта. Выбрать один запрос и получить все запросы, которые ведут на данную страницу, включая синонимы. Причем, это будет кластеризованный результат. А есть модуль, когда тебе лень даже запросы подбирать, просто завести ID своего счетчика, и он тебе выдаст на основании «Яндекс.Метрики» запрос, уже распределенный по страницам. А еще есть хитрый алгоритм, который пытается угадать по действиям пользователя на странице, понравился ли ему данный сайт. Есть модули по кластеризации и текстовому анализу. Текстовый анализ просто анализирует топ и смотрит, какие есть закономерности, и выводит их подробную статистику. Есть модули серии «Акварель». Они выполняют так называемый NSA-анализ. То есть анализ по словам, насколько они релевантны тематике запроса.
Софт-кластеризация — максимизация полноты, то есть найти максимально много запросов при более менее вменяемой точности. А хард-кластеризация — это когда нам нужна большая точность
Ты выбираешь для себя хард или софт-кластеризацию?


— Это два разных метода и имеют различное применение. Кластеризация именно под сео применяет не совсем стандартные математические методы, потому что она решает очень прикладную задачу: или правильно сгруппировать запросы, или распределить их по страницам. Все.

Что такое софт-кластеризация? Это когда у нас есть какой-то центральный запрос, и софт-кластеризация измеряет расстояние в количестве общих URL, не доменов (это важно!) между центральным запросом и всеми остальными запросами. И говорит, что с этим запросом 5 общих URL. И, соответственно, есть понятие порога. И можем сказать, что к этим запросам мы можем отнести только те, у которых есть, например, 4 пересечения по URL. Цифры подобраны экспериментально. Используется это в одном случае: когда необходимо распределить запросы по страницам на сайте для трафикового продвижения. Потому что кластеризация может допустить попадание в группу запросов, по которым нет вообще ни одного общего URL. Особенно если смешанный запрос — на вход. Значит, что все запросы одновременно на странице мы продвинуть не сможем. Но с точки зрения трафикового продвижения, нам это абсолютно безразлично. Потому что задача продвинуть — максимум из возможного. И неважно какие. А в позиционном продвижении нам важно все наши запросы продвигать, поэтому мы сделаем две или три страницы.

Хард-кластеризация строится немного по-другому. Есть набор URL, 3 или 4, и эти URL присутствуют в каждом наборе запросов, в каждом топе. Вот так формируется группа. И за счет этого мы уверены, что в принципе эти запросы на одну страницу совместимы. Это важно, при формировании кластера для позиционного продвижения мы должны быть уверены, что запросы там в принципе возможно посадить на одну страницу. Эта же методика используется не только при позиционном продвижении, но и когда нам нужно сгруппировать при разборе большого ядра. Группы, конечно, больше, но в группу попадают однотипные запросы, поэтому с этим проще работать. И ядро разбирается очень быстро, особенно если подцепить Wordstat.

Фактически, софт-кластеризация — это максимизация полноты, то есть найти максимально много запросов при более менее вменяемой точности. А хард-кластеризация — это когда нам нужна большая точность, а полнота — как получится. Вот метод, который по середине, он достоинств новых не несет, зато объединяет недостатки двух предыдущих методов. Он не такой полный, как софт, и не решает нам задачу попадания в группу совместимых запросов, как хард. Ну он не применим. Нет задач под него.