- релевантность страницы
- вес страницы
- переиндексация страницы
- релевантные страницы
- процент ключевых слов
- вес страницы
Опыты без взрывов
Можно ли, поставив эксперимент, узнать алгоритм поисковика или его часть? Конечно!
Метод деления пополам
Допустим, вас заинтересовал какой-либо показатель, влияющий на релевантность страницы, и вы предполагаете, что у него есть оптимум — меньшее значение делает страницу менее релевантной, а большее уже рассматривается как спам. Условно будем считать таким показателем процент ключевых слов на странице.
Для эксперимента создаются три страницы, в одной из которых процент ключевых слов близок к нулю, во второй таков, что гарантированно будет сочтен спамом, а третья находится ровно посередине. Регистрируем и ждем индексации страниц. В зависимости от того, первая или вторая страница оказалась более релевантной, отсекаем половину исследуемого диапазона сверху или снизу. Повторяем до тех пор, пока оптимум не найден с нужной точностью.
Недостатков у метода всего два, но очень больших. Во-первых, никто не говорил про простой и линейный характер зависимости. Во-вторых, метод требует многократной переиндексации страницы, что обычно слишком долго, да и алгоритм поисковика тем временем может измениться. Как избежать недостатков?
Метод дроби
Зная, как и в предыдущем случае, примерный диапазон изменения процента ключевых слов , можно сделать не одну страницу, а 10–20, где процент ключевых слов изменяется с шагом, например, в 1%. Когда среди них станут известны две-три наиболее релевантные страницы, чтобы точнее выяснить оптимальный процент ключевых слов , можно будет добавить еще 10–20 страниц с шагом исследуемого показателя в 0,1%. Когда поисковики их зарегистрируют, в любой момент, взглянув на их положение в результатах, можно будет сказать, какой процент ключевых слов на данный момент оптимален. Недостаток, касающийся сложного характера зависимости, остался. Что же делать с ним?
Аналитические методы
В случаях, когда характер зависимости не ясен даже примерно, либо на исследуемые показатели нет возможности влиять, следует изучать зависимости на основе чужих сайтов. В такой ситуации резко возрастает влияние посторонних факторов и шумов, поэтому появляется необходимость использовать методы интеллектуального анализа данных (data mining, статистические пакеты и др.).
Учитывая сложность получения данных (например, веса страницы по алгоритму PageRank), на первом этапе сбор информации может касаться относительно небольшого числа страниц и запросов (десятки), для которых будет собрано максимальное число показателей, известных вам. После предварительного анализа информации можно выделить показатели, наиболее сильно связанные с интересующим вас параметром, и затем собирать данные только о них.
Аналитические методы получили большую популярность, что доказывают многочисленные попытки реализовать их программно, о которых мы расскажем далее.
Статья взаимствована с журнала Chip
Автор:Александр Садовский