Donnerstag, 23. April 2009

Pimp my PDF oder wie man eine PDF suchmaschinenfreundlicher macht

Das sensationelle PDF Format der Firma Adobe existiert ja nun schon seit Jahren und ist im Bereich der Druckvorlagenerstellung schon gar nicht mehr wegzudenken. Es zeichnet sich aus durch seine Plattformunabhängigkeit, breite Unterstützung durch diverse Software und seine Anpassungsfähigkeit.

Besonders seine "nahtlose" Integration mit und im Internet sorgt dafür das genau dieses PDF Format auch im Internet seinen Siegeszug fortsetzt. Daher sollte jeder der sich mit SEO beschäftigt auch eine gute Portion Wissen über das portable document format (PDF) mitbringen.

Warum? Dafür gibt es so einige Gründe... zum Beispiel indexieren so ziemlich alle wichtigen Suchmaschinen auch PDF Dokumente problemos und diese stehen normalen HTML-Seiten in so gut wie nichts mehr nach. Selbst Hyperlinks aus PDF Dateien werden genauso bewertet wie von normalen Internetseiten.

Gerade Google ist in diesem Bereich ein Vorreiter, in dem nicht mehr groß unterschieden wird zwischen "normalen" Internetseiten und z.B. PDF-Dokumenten, es wird das Ziel verfolgt sämtliche Onlinequellen (egal in welchem Format) zugänglich zu machen und im Endeffekt einfach nur eine breite Masse an Informationen bereitzustellen.

Daher sollte man sich auch schon genau überlegen wie man PDFs einsetzt. Wer z.B. einen newsletter im PDF-Format auf seiner Internetpräsenz bereitstellt, sollte dann nicht einfach gedankenlos in einem ergänzenden Blog die Inhalte/Texte der PDF 1:1 übernehmen, mit dem Hintergedanken "das eine ist ja nur eine PDF". Denn das würde ein echtes duplicate content Problem verursachen. Daher muss man sich in dem Falle schon entscheiden, welches der beiden Versionen (PDF oder HTML) den Vorrang hat. Wer sich dann für die Blogvariante entscheidet, sollte darauf achten, das er das entsprechende PDF-Dokument von der Indexierung ausschliesst, in dem man den entsprechenden Link auf die PDF-Datei mit dem Tag "rel= noindex" markiert oder aber die Datei in einem extra Verzeichnis hinterlegt, das dann über die robot.txt mit einer "disallow"-Anweisung, die Suchmaschinen-Bots den Zugriff untersagt.

Wer des öfteren mit PDFs zu tun hat sollte sich auch mit den "tieferen Informationen" beschäftigen, da diese für ein optimales SEO unablässig sind. Dazu zählen z.B. die Eigenschaften des Dokuments.

Wer mit dem Adobe Acrobat arbeitet, gelangt über den Punkt Datei - Dokumenteneigenschaften zu der Möglichkeit die META-Tags der Datei zu bearbeiten, dazu zählen z.B. der Titel, das Thema, der Verfasser, etc.. des jeweiligen Dokumentes. Diese Tags werden in der PDF direkt mitgespeichert (im XML-Format) und steht somit auch den Suchmaschinen bei der Indexierung zur Verfügung. Wer diese "internen" Felder einfach freilässt, verschenkt wertvolle SEO Möglichkeiten.

Ebenfalls sollte man darauf achten, wenn man seine PDFs direkt aus einer Worddatei erstellt, das schon im Worddokument die bekannten H1, H2, etc.. Tags vorhanden und verwendet werden, denn diese suchmaschinenrelevanten Tags werden auch im fertigen PDF Dokument mit übernommen.

Na dann viel Spass beim "PDF pimpen"