Здесь я пишу о том, что мне интересно

Всегда в топе

· профессиональный аудит сайтов
· теория работы поисковых систем
· консультации по всем этапам продвижения
· блокады сайта фильтрами поиска
· стратегии непоискового и вирусного продвижения
· настройка компаний контекстной рекламы
· корпоративные аккаунты в соцсетях
· вывод сайтов из под санкций Google
· индивидуальное обучение

сентябрь 29, 2012, 15:48

Как самому оценить качество страницы?




Возможно ли, оценить качество веб-страницы? Вопрос, несомненно, заслуживающий внимания, потому как, четкий ответ на него, в перспективе, обещает много всего интересного…

Однако, для начала следует определиться с понятиями. Под качеством страницы, в данной статье, подразумевается ее качество с пользовательской точки зрения и его поискового запроса.

Кроме того, обращение к тем, кто ищет конкретное решение – здесь вы его, к сожалению, не найдете, поскольку все решения очень «индивидуальны» и зависят от многих факторов, учесть которые в небольшой статье – просто невозможно. Но, вполне возможно, рассмотреть структуру таких решений в целом и узнать, что же, нужно, для того, чтобы «подогнать» решение под отдельно взятую ситуацию.

Итак, для кого важно качество страницы?

Во-первых, для поисковых систем. Основываясь на запросе пользователя, поисковая машина определяет релевантность найденной страницы, присваивая ей определенный балл, что потом позволяет сравнивать найденные страницы друг с другом.

Во-вторых, для адресной рекламы. Так, например adnetwork явно проверяет соответствие рекламы и целевой страницы поисковому запросу пользователя. И, в-третьих, для будущего поиска. Иными словами, поисковая машина сама, без каких-либо поисковых запросов, проверяет все сайты, составляя некий собственный рейтинг, с целью определения «жизненного потенциала» веб-страницы.

Итак, вот, примеры тех подходов, которые могут применяться для оценки качества страницы.

Первая группа таких подходов, направлена на определение балльной оценки документа, которая представлена в виде функции того или иного пользовательского запроса. Это может быть оценка информационного поиска и оценка полезности.

Как оценить информационный поиск?


Вопрос о том, каким образом определить максимально соответствующую поисковому запросу оценку останется открытым видимо навсегда, пока существуют такие монстры как Яндекс и Google. Одной из причин отсутствия решения является тот факт, что данная оценка, пожалуй, самая важная из всех тех, что оценивают качество веб-страницы. Вот, к примеру, алгоритм, применяемый разнообразными поисковыми системами (в частности, Lucene) при запросе, состоящем из трех слов (Q={q1, q2, q3}) и страницы P.

Во-первых, относительный вес каждого блока веб-страницы. Заголовки, названия, текст «разного размера», ссылки, изображения, адреса сайтов на страницу все это есть практически на любой странице. Как правило, если пользователь находит страницу через поисковый запрос, то он просматривает название сайта и краткое его описание (сниппет).

Во-вторых, характеристика по запросу. Сначала поисковый запрос разделяется на, так называемые n-граммы (логические словосочетания, которые можно выделить из запроса), каждой из которых присваивается свой вес. Так, например, запрос Sony mp3 player (mp3 проигрыватель Sony) разделится следующим образом: 1-ая n-грамма – Sony (поскольку это слово относится к названию компании, то оно будет выделено в униграмму), 2-ая n-грамма – sony mp3 (биграмма) – будет, наверняка, «плохим» словосочетанием, и в противоположность ему 3-я n-грамма – mp3 player – будет «хорошим словосочетанием». Далее, для каждой n-граммы, определяется собственный вес (обычно при помощи численного показателя TF-IDF).

В-третьих, качество документа для определения оценки TF-IDF. Если поисковому запросу соответствует контент всех страниц сайта, то, ваш запрос оказывается максимально выполненным, однако объемный по содержанию документ не всегда удобен для пользователя, а документ полностью соответствующий пользовательскому запросу не всегда полезен, поскольку может не содержать новой для пользователя информации. Кроме того, здесь важную роль играет и то устройство, с которого пользователь «зашел» в интернет, а точнее, размер экрана перед пользователем. Факт того, что большой объем информации проще читать с экрана ноутбука или десктопного ПК, чем с экрана смартфона, остается фактом и никем он оспаривается. И, наконец, здесь же, стоит применять какой-либо способ балльной оценки качества документа в соответствии с его объемом.

В-четвертых, ниже приведу один из способов оценки документа, в качестве примера.



В данной формуле P – страница, di – поля страницы, wi - вес, Q – запрос, dk – слова запроса, L – длина страницы, Nq – количество словосочетаний в запросе, f – функция элемента нормализации.

Итак, вот изображения двух страниц одного и того же товара, находимого поисковой машиной по запросу «Canon digital camera». Какая из страниц получит более высокую оценку информационного поиска? Та, у которой лучшая оценка качества.



Как оценить полезность страницы?


Полезность, в данном случае, является синонимом слову конверсия – т.е. доля пользователей совершивших определенное требуемое действие от числа всех пользователей зашедших на данную страницу. Иными словами, как часто пользователи, посетившие данную страницу, сочли ее полезной. Вполне логично, что коэффициент конверсии может выступать той самой балльной оценкой поведения пользователей. Но вся сложность состоит в том, что данных для подсчета коэффициента конверсии слишком мало (даже у сайтов онлайн-торговли, коэффициент оказывается не слишком высоким, что же в этом случае можно говорить об обычных сайтах?).

Впрочем, и такую проблему можно «обойти»:

· осчитать балльную оценку абстрактного (общего) запроса, а не какого-либо конкретного. Так, в случае с «Canon digital camera», этот запрос можно рассматривать как: а) запрос из 3 слов, б) запрос с названием торговой марки, в) запрос, который содержит все слова в названии страницы.

· при необходимости – выбрать наиболее «удобный» вариант обобщения (а, б или в, из рассмотренных выше).

· принять во внимание «ненужные просмотры» или «ненужную конверсию». Здесь подразумевается примерно следующее: при реальном 0,5 – 1% коэффициенте конверсии, количество просмотров или выполнения другого определенного действия, считающегося тем, самым, ожидаемым и требуемым от пользователя, кроме, пожалуй, покупки на торговом сайте, может составлять от 20 до 80%. Иными словами, пользователь, вроде и совершил требуемое действия, однако, сделал это непреднамеренно, либо из любопытства, либо, по какой-либо другой причине. Данная ситуация, показывает лишь то, что для вычисления реального коэффициента конверсии на самом деле, требуется меньше данных.

Вторая группа подходов, подразумевает вычисление оценки страницы вне зависимости от запроса пользователя. К таким подходам относится поведенческая балльная оценка (не путать с полезностью!!!), репутация страницы и качество языка на странице.

Никто, как правило, не возражает против того, что качество страницы зависит от поведения пользователей на ней. Само же поведение рассчитывается исходя из таких факторов как: оценка конверсии в баллах; количество «ненужных просмотров»; количество просмотренных страниц (перед посещением нужно страницы); количество повторных посещений; доля посетителей, купивших продукт, предлагаемый на данной странице; время, проведенное пользователем на странице.

Кроме того, все эти факторы должны рассчитываться в отношении и других, похожих страниц сайта. Одной из формул расчета, при этом может быть:



В данной формуле, fi – является значением характеристики (например, количество просмотренных страниц и т.д.), mfi – среднее значение этой характеристики на всех подобных страницах сайта, wi – весовой индекс той или иной характеристики.

Что же касается репутации страницы, то под ней подразумевается выстраивание обычного рейтинга страниц, основанного на их популярности, относительно прочих страниц этого же сайта. Впрочем, на репутацию также может оказывать влияние «расстояние» данной страницы от главной (имеется ввиду, количество переходов, требуемых для того, чтобы попасть на данную страницу с главной страницы сайта).

И, наконец, качество языка на странице. Как правило, оно определяется путем создания языковой модели для той информации, которая понравилась посетителям и ее оценивания. С целью моделирования, обычно применяют модели НММ.

Итак, что же делать после определения оценки качества страницы?

На самом деле, проще, да и логичнее, объединить все эти оценки в одно целое. Например, так:

«Оценка информационного поиска*вес + поведенческая оценка*вес + репутация*вес + оценка языковой модели*вес»

Уровень веса можно изменять, для придания большего или меньшего уровня важности той или иной характеристике. Так, поведение посетителей на новой странице, как правило, неизвестно, соответственно, этой характеристике следует присвоить меньший вес, чем, той странице, которая существует уже несколько лет.

Все перечисленные выше алгоритмы, конечно, будут интересны как для поисковых служб, так и для владельцев крупных сайтов, для определения основанной на пользовательском запросе оценки страницы, но, к сожалению, развитие этого направления, потребует серьезных финансовых вложений, и потому, вероятнее всего, окажется недоступным для мелких и средних участников сферы IT.

Рекомендую также изучить отличия некоторых языковых моделей оценки качества, применяемые Google:

· http://dl.acm.org/citation.cfm?id=383970

· http://dl.acm.org/citation.cfm?id=383970

· http://dl.acm.org/citation.cfm?id=383970



Использована работа "The Shamisen Player" by Alan
Credits: Ashutosh Garg




Поделитесь постом

f t                                                                         

Вам будет интересно

Если вас заинтересовали мои услуги


Мои расценки


Аудит сайта
от $900
срок исполнения 6 рабочих дней


Консультация
$200-$400 в час
в рабочее по Москве время


Мои реквизиты


ИП Смирнов Евгений Дмитриевич
св-во №309343525900080
выдано 16 сентября 2009
ИНН: 344100235769
КПП: 344402001
Расчетный счет: 40802810831000379201
Кор. Счет: 30101810100000000715
БИК: 041806715
Банк: Южный ф-л ПАО «Промсвязьбанк», г.Волгоград

TOP