Здесь я пишу о том, что мне интересно

Всегда в топе

· профессиональный аудит сайтов
· теория работы поисковых систем
· консультации по всем этапам продвижения
· блокады сайта фильтрами поиска
· стратегии непоискового и вирусного продвижения
· настройка компаний контекстной рекламы
· корпоративные аккаунты в соцсетях
· вывод сайтов из под санкций Google
· индивидуальное обучение

октябрь 29, 2011, 17:16

7 главных вопросов о правильном индексировании pdf-файлов


Каждый из нас наверняка замечал (и не раз), что в результатах поиска часто попадаются pdf-файлы. В целом, это уже давно не новость, однако, для тех, кто хочет разобраться в деталях, специалисты компании Google составили соответствующий раздел «часто задаваемых вопросов».

Итак, кратко об индексации pdf-файлов.

Во-первых, поисковая система Google индексирует любую текстовую информацию на любом языке, содержащуюся в pdf-файлах в том случае, если отсутствует защита паролем или же шифрование данных. Если же текстовая информация представлена в виде картинки, то к ней будут применены методы оптического распознавания, и уже после этого, будет проведена индексация информации. Все это можно запомнить проще – документ может быть проиндексирован, в том случае, если вы можете скопировать текст из pdf- в обычный текстовый файл.

Что же касается непосредственно изображений в pdf-файлах, то они пока не индексируются. При необходимости индексации такого изображения, вам придется создать для них отдельные веб-страницы.

Говоря об индексации документов, необходимо помнить и о ссылках в них. Так вот, ссылки в pdf-документах ничем не отличаются от ссылок в обычном HTML и легко индексируются. Кроме того такие ссылки могут содержать в себе информацию о PageRank, однако, к ним невозможно применять параметр “no follow”, по крайней мере, пока…

Вполне возможна и такая ситуация, когда вы не захотите, чтобы ваши pdf-документы, выложенные в интернет, по тем или иным причинам, индексировались поисковыми системами. Для этой проблемы существует достаточно простое решение. Просто добавляете запись “noindex” в x-robots тег того заголовка html страницы, на которой отображается ваш документ. В том случае, если ваши документы уже проиндексированы, и вы желаете удалить их из результатов поисковой выдачи, то у вас есть два выхода. Во-первых, уже указанный выше способ с noindex в теге x-robots, даже при использовании в уже проиндексированных файлах, приведет к постепенному их исчезновению из поисковой выдачи.

Второй же способ заключается в использовании специального инструмента URL removal tool в Google Webmaster Tools. Следующая ситуация, по-своему содержанию, противоположна предыдущей. Если поисковая система индексирует pdf-файлы, то логично предположить, что они могут получать высокий рейтинг, как и обычные веб-страницы. Действительно, все так и есть, pdf-документ, вследствие той информации и ссылок, которые он содержит, может высоко ранжироваться в результатах выдачи.

Еще один вопрос из FAQ Google. Будет ли считаться дублированием контента одновременное размещение его посредством html- и pdf-документов?

Специалисты из Google советуют по возможности, все же избегать таких ситуаций. Если же «двойное» существование документа в сети необходимо, тогда вам, как веб-мастеру необходимо указать: предпочтительную версию документа в карте вашего сайта (Sitemap) или же соответствующую версию файла в заголовках html или http.

И последнее, при индексировании pdf-файлов поисковые системы используют 2 элемента: данные внутри тега title и ключевые слова из тех ссылок, которые связаны с этим документом. Поэтому, если вы хотите изменить тот заголовок, который будет появляться в поисковой выдаче, то обратите внимание на эти два основных элемента, используемые поиcковой машиной Google.

Кроме данного краткого faq справочника, в Google подготовили видео с лекцией Мэтта Каттса об индексировании и оптимизации pdf документов, а также целый Центр Помощи (Help Center), в котором вы сможете найти информацию и по другим типам индексируемого контента.



Поделитесь постом

f t                                                                         

Вам будет интересно

Если вас заинтересовали мои услуги


Мои расценки


Аудит сайта
от $900
срок исполнения 6 рабочих дней


Консультация
$200-$400 в час
в рабочее по Москве время


Мои реквизиты


ИП Смирнов Евгений Дмитриевич
св-во №309343525900080
выдано 16 сентября 2009
ИНН: 344100235769
КПП: 344402001
Расчетный счет: 40802810831000379201
Кор. Счет: 30101810100000000715
БИК: 041806715
Банк: Южный ф-л ПАО «Промсвязьбанк», г.Волгоград

TOP