Здесь я пишу о том, что мне интересно
Всегда в топе
· профессиональный аудит сайтов
· продвижение проектов любой сложности
· консультации по всем этапам продвижения
· блокады сайта фильтрами поиска
· стратегии непоискового продвижения
· создание компаний контекстной рекламы
· корпоративные аккаунты в соцсетях
· вывод сайтов из под ручных санкций Google
· вывод сайтов из под санкций Яндекс
· гарантированное удаление любых ссылок
· индивидуальные консультации
октябрь 29, 2011, 17:16
7 главных вопросов о правильном индексировании pdf-файлов
Каждый из нас наверняка замечал (и не раз), что в результатах поиска часто попадаются pdf-файлы. В целом, это уже давно не новость, однако, для тех, кто хочет разобраться в деталях, специалисты компании Google составили соответствующий раздел «часто задаваемых вопросов».
Итак, кратко об индексации pdf-файлов.
Во-первых, поисковая система Google индексирует любую текстовую информацию на любом языке, содержащуюся в pdf-файлах в том случае, если отсутствует защита паролем или же шифрование данных. Если же текстовая информация представлена в виде картинки, то к ней будут применены методы оптического распознавания, и уже после этого, будет проведена индексация информации. Все это можно запомнить проще – документ может быть проиндексирован, в том случае, если вы можете скопировать текст из pdf- в обычный текстовый файл.
Что же касается непосредственно изображений в pdf-файлах, то они пока не индексируются. При необходимости индексации такого изображения, вам придется создать для них отдельные веб-страницы.
Говоря об индексации документов, необходимо помнить и о ссылках в них. Так вот, ссылки в pdf-документах ничем не отличаются от ссылок в обычном HTML и легко индексируются. Кроме того такие ссылки могут содержать в себе информацию о PageRank, однако, к ним невозможно применять параметр “no follow”, по крайней мере, пока…
Вполне возможна и такая ситуация, когда вы не захотите, чтобы ваши pdf-документы, выложенные в интернет, по тем или иным причинам, индексировались поисковыми системами. Для этой проблемы существует достаточно простое решение. Просто добавляете запись “noindex” в x-robots тег того заголовка html страницы, на которой отображается ваш документ. В том случае, если ваши документы уже проиндексированы, и вы желаете удалить их из результатов поисковой выдачи, то у вас есть два выхода. Во-первых, уже указанный выше способ с noindex в теге x-robots, даже при использовании в уже проиндексированных файлах, приведет к постепенному их исчезновению из поисковой выдачи.
Второй же способ заключается в использовании специального инструмента URL removal tool в Google Webmaster Tools.
Следующая ситуация, по-своему содержанию, противоположна предыдущей. Если поисковая система индексирует pdf-файлы, то логично предположить, что они могут получать высокий рейтинг, как и обычные веб-страницы. Действительно, все так и есть, pdf-документ, вследствие той информации и ссылок, которые он содержит, может высоко ранжироваться в результатах выдачи.
Еще один вопрос из FAQ Google. Будет ли считаться дублированием контента одновременное размещение его посредством html- и pdf-документов?
Специалисты из Google советуют по возможности, все же избегать таких ситуаций. Если же «двойное» существование документа в сети необходимо, тогда вам, как веб-мастеру необходимо указать: предпочтительную версию документа в карте вашего сайта (Sitemap) или же соответствующую версию файла в заголовках html или http.
И последнее, при индексировании pdf-файлов поисковые системы используют 2 элемента: данные внутри тега title и ключевые слова из тех ссылок, которые связаны с этим документом. Поэтому, если вы хотите изменить тот заголовок, который будет появляться в поисковой выдаче, то обратите внимание на эти два основных элемента, используемые поиcковой машиной Google.
Кроме данного краткого faq справочника, в Google подготовили видео с лекцией Мэтта Каттса об индексировании и оптимизации pdf документов, а также целый Центр Помощи (Help Center), в котором вы сможете найти информацию и по другим типам индексируемого контента.