Здесь я пишу о том, что мне интересно

Всегда в топе

· профессиональный аудит сайтов
· теория работы поисковых систем
· консультации по всем этапам продвижения
· блокады сайта фильтрами поиска
· стратегии непоискового и вирусного продвижения
· настройка компаний контекстной рекламы
· корпоративные аккаунты в соцсетях
· вывод сайтов из под санкций Google
· индивидуальное обучение

август 16, 2011, 18:04

Почему Гугл находит не то, что нужно?




Поисковая система Google, несмотря на свою популярность, также может «ошибаться» и находить не совсем то или совсем не то, что ищет пользователь. Существует ли выход из такой ситуации и если да, то каким же образом можно получить желаемую информацию в Интернете?

Во-первых, «ошибку» поисковой системы принято называть не состоятельным поиском, иначе говоря, это такой тип поиска, в результате которого на первой странице выдачи не оказалось ни одной релевантной ссылки. Некоторые западные специалисты ниже перечисляют ряд ситуаций, в которых Google оказывается бесполезен и возможные варианты проведения «правильного» поиска.

Кевин Лэкер – один из разработчиков поисковых алгоритмов Google приводит несколько примеров, основной характеристикой которых является то, что они заданы на естественном языке (т.е. на том, который используется в общении людей).

Итак, если вы введете фразу «web pages with misspelled titles» (англ. – страницы с опечатками в заголовках), то в результатах выдачи не найдете того, что хотели. Это, конечно не означает, что в сети нет страниц, в заголовках которых не содержалось бы опечаток, однако, поисковая система «не понимает» смысл данной фразы и просто выдает информацию об опечатках.

Другой пример из этой же серии – «the social network like myspace but bigger» (англ. – социальная сеть типа myspace, но больше) снова показывает несостоятельность Google при обработке запросов на естественном языке. Да, вы можете возразить, что вы сами пишите запросами «обычными буквами, которые складываются в слова» и получаете нормальные ссылки в выдаче. Разница лишь в том, что написанные вами слова являются ключевыми, а их комбинация не всегда несет смысловую нагрузку и потому Google просто выдает все страницы, где находит все эти слова, употребляемые вместе. В случае же с примером про социальную сеть myspace явно виден не запрос, а настоящий вопрос, на который, по мнению пользователя, должна ответить поисковая система. А поисковая система, получив такой запрос, станет искать те страницы, где есть сочетание всех этих слов.

Майкл Хохстер, статистик, в свою очередь, приводит гораздо больше примеров, которые заводят Гугл «в тупик», однако, как и в предыдущем примере, их отличительной чертой является смысл самой фразы. Например:

1.​ Найти не знаменитого человека с распространенным именем.

2.​ Найти полный список на любую тему.

3.​ Чем заняться?

Однако, как и в предыдущем примере, Гугл будет выдавать нерелевантные ссылки до тех пор, пока в сети не появится страница, соответствующая поисковому запросу. Тем не менее, и это не означает, что Гугл «научился» понимать смысл пользовательских запросов.

Грэг Линдэл, технический директор в blekko дополняет категории, в которых происходят «проколы» Гугла такими сферами как медицина и здоровье. Все дело в том, что в указанных отраслях достаточно большое количество явного спама и при реальной необходимости найти информацию, например, только по традиционным западным методам лечения – практически невозможно. В свою очередь Грэг приводит, не без доли рекламы, решение, которое использует его компания, к слову, достаточно долго работающая в области поиска информации по околомедицинским тематикам. Просто перед запросом ставится знак слэш и спам исчезает из результатов выдачи. Следующий вариант «провального» запроса приводит Энтон Джонсон, сотрудник Excite в 2000-2002 годах. Его примеры более «жизненные» и показывают несостоятельность Гугла при поиске информации о товарах или услугах от оффлайновых магазинов. Иными словами, практически любой товар можно приобрести в онлайн магазине, но его нужно ждать, а в ситуации «необходимо здесь и сейчас» поисковая система не выдаст релевантных ссылок. Впрочем, могу предположить, что дело здесь не только в несостоятельности поисковика, но и, в первую очередь, в отсутствии соответствующе информации в сети.

Элан Моррисон приводит несколько примеров, когда поисковая система «понимает» смысл запроса пользователя. В целом Гугл является хорошей поисковой системой, однако, только среди открытых сетей, информация в которых ранжируется по PageRank'у присвоенному поисковыми ботами Гугла. Тем не менее, всем известно, что в интернете существует и множество «закрытых» от публичного доступа сетей (например, корпоративных). Итак, примеры, приведенные Эланом, отличаются от стандартных «ответов» Гугла именно тем, что они на самом деле – ответы. TrueKnowledge (http://www.trueknowledge.com) и Wolfram|Alpha (http://www.wolframalpha.com) – это две обучаемые машины, поддерживающие множество баз данных, из которых они и берут ответы на ваши вопросы. И если, сейчас, одна из них не ответила на ваш вопрос, возможно она сможет сделать это через несколько дней. Не буду вдаваться в тонкости работы этих машин, однако, по своим принципам, они схожи с алгоритмом работы IBM Watson. Кроме того, другие специалисты из различных IT компаний, приводят свои варианты того, что не может искать Google и как с этим бороться. К примеру, поиск информации по подкастам оставляет желать лучшего и, по мнению, некоторых экспертов, несомненно, нуждается в исправлении. Также необходимо дорабатывать контекстный поиск, потому как поиск Гугла по ключевым словам не всегда может оказаться правильным для пользователя. Более того, есть и проблемы с поиском информации в режиме реального времени. Иначе говоря, алгоритм поиска информации в режиме реального времени существенно не отличается от того, который используется при поиске прочей информации, не зависящей от времени, что, конечно, не совсем правильно.

Эксперты указывают и на «санкции» Гугла по отношению к продвинутым пользователям, использующим при поиске операторы и звездочки. Иногда таких пользователей Гугл воспринимает как ботов и предлагает вводить капчи, что, в свою очередь существенно замедляет поиск. Что же касается «понимания» пользователя, то, к примеру, для поиска данных и терминов можно использовать, правда, пока только бета-версию, knigne.com. Если же вы специализируетесь на социальном поиске, то лучшим вариантом будет – topsy.com.

Наконец Чарльз Мартин указывает на следующую проблему поисковой системы Google. Результаты выдачи могут существенно различаться, если вы введете два запроса отличающихся на 1-2 слова, но одинаковые по смыслу. Т.е., искать можно, но любой поисковый запрос приходится оптимизировать, добавляя в него ключевые слова или, же убирая их. Как ни странно, но первыми выход предложили «контентные» фирмы, объединив различные поисковые запросы в соответствующие категории и разместив их на едином источнике информации. Иными словами, задача оптимизации запроса была проведена «за пользователя» и результаты выдачи будут вполне соответствовать запросу, даже если он был не совсем верен изначально.

Однако, это еще не все «провальные» моменты работы Гугла. Западные специалисты-айтишники выделяют еще несколько возможных ситуаций. К примеру, Колман Фоли выступает в защиту прав пользователей в сети и считает, что информация, получаемая пользователями из поиска должна быть качественной. К сожалению, качество не всегда присутствует в результатах выдачи, особенно это касается поиска слов любой песни. Да, сайтов с нужными словами найдется много, но вместе с тем, вы получите еще и кучу рекламы в придачу, поэтому поисковой системе просто необходимо заняться решением этой проблемы.

Далее идет поиск людей по имени, причем обычных людей, а не знаменитостей. В случае со «звездами» эстрады или актерами поиск по имени «сработает» на отлично, а если вы захотите найти своего одноклассника, то потратите немало времени, «разгребая» ссылки поисковой системы на различные социальные сети и сайты-аггрегаторы. Мартин Каминер предполагает, что в будущем Google наверняка исправит эту досадную ситуацию, а пока, следует терпеливо относиться к низкому качеству релевантных ссылок в выдаче. На следующем месте – такие запросы как:

- поиск информации по редкому или малоизвестному понятию;

- «местечковая» информация. Очень маловероятно, что Гугл поможет вам найти информацию о событии, произошедшем час назад во дворе вашего дома. Локальные сайты (новостные), в данном случае, будут куда более эффективными;

- поиск любой информации относительно деловых отношений между компаниями (B2B). На самом деле информация находится, однако, бОльшую часть в выдаче занимают все же B2C-ссылки, и убрать их из результатов выдачи, никак нельзя, по крайней мере, пока;

- поиск информации о товаре или услуге (к примеру, с целью сбора информации, проведения исследования и т.д.).

Да, вы ее найдете, но почти 100% ссылок с первых страниц будут заняты коммерческими предложениями о покупке. Кстати, это касается и отзывов о товаре или услуге. Реальный отзыв практически невозможно найти, потому как отзывы на страницах онлайн-магазинов на 99% - деятельность копирайтеров-фрилансеров.

Далее – серьезный «камень в огород» Гугла. И снова западные айтишники отмечают качество работы поисковой системы. Точнее, общую тенденцию, согласно которой, компания поощряет блоги, копирующие (пусть и переработанный), а не создающие свой собственный контент. В целом, в этом нет ничего предосудительного, почему бы и не распространять в сети не только оригиналы, но и «контент в обработке»? Плохо то, что вокруг этой тенденции появилась целая отрасль, которая занимается откровенным плагиатом только ради удержания посетителей и соответственно объема прибыли. В Google должны понимать, что такое положение вещей, в первую очередь негативно отразится на их собственной репутации.

Кроме того, поиск Гугла не всегда состоятелен, если речь идет об опыте в технических проектах или бизнесе, особенно, если вам требуется какое-нибудь оригинальное решение, а не то, что написано во множестве документов.

Не обошли западные специалисты и тему религии. Оказывается, в Google довольно сложно искать цитаты из Библии. Отдельные энтузиасты создают собственные проекты, упрощающие эту задачу.

Более того, в Гугле трудно искать информацию о последних событиях, это легко объясняется тем, что поисковым ботам необходимо, опять же время, чтобы проиндексировать страницы новостных сайтов с последними событиями. Правда, за это время, последние события, нередко, устаревают. Есть предложения интегрировать такие сервисы как Twitter для решения этой проблемы, однако, это может привести к появлению большого количества, хотя и релевантных, но низкокачественных по своему содержанию ссылок. Нелегко живется и программистам. Поиск информации по вопросам программирования и переменным – редко оказывается состоятельным, пожалуй, отчасти, вследствие особенностей написания программного кода и переменных.

Также проблемы могут возникнуть и тогда, когда важную роль играет контроль за контекстом. Обычно такие случаи «всплывают» при необходимости фильтрации коммерческих и некоммерческих результатов (см. выше о поиске товаров и отзывов о них).

Много и долго можно говорить о плюсах и минусах поисковой системы Google. Однако, все же самой серьезной проблемой, остается «непонимание» Гуглом естественных языков и смысла запросов, впрочем, это проблема, пока еще всех поисковиков.



Поделитесь постом

f t                                                                         

Вам будет интересно

Если вас заинтересовали мои услуги


Мои расценки


Аудит сайта
от $900
срок исполнения 6 рабочих дней


Консультация
$200-$400 в час
в рабочее по Москве время


Мои реквизиты


ИП Смирнов Евгений Дмитриевич
св-во №309343525900080
выдано 16 сентября 2009
ИНН: 344100235769
КПП: 344402001
Расчетный счет: 40802810831000379201
Кор. Счет: 30101810100000000715
БИК: 041806715
Банк: Южный ф-л ПАО «Промсвязьбанк», г.Волгоград

TOP