Vorsicht vor doppeltem Content

Suchmaschinen von Inhalten aussperren

Suchmaschinen die nicht daran gehindert werden, eine mit web to date oder shop to date erstellte Website komplett zu durchsuchen, finden auf ein- und derselben Site bis zu vier Ausgaben des Textinhaltes: Originalseite, Druckversion, Barrierefreie Version, Suchergebnisse. Überlassen Sie es nicht dem Zufall, welche Version Google in den Suchergebnissen verlinkt - denn die Druckversion und die barrierefreie Version oder Suchfragmente sind keinesfalls einladende Webseiten für den Grossteil der Besucher, die möglichst die Originalseite sehen sollten.

Suchmaschinen möchten daher von Ihnen wissen, welche Seiten sie nicht "sehen" und damit indexieren dürfen um sich nicht selbst für die falsche Möglichkeit zu entscheiden. Diese Information gibt man über die robots.txt an Suchmaschinen weiter. Eine robots.txt enthält lediglich Verbote, bestimmte Inhalte zu durchsuchen. Nachfolgend finden Sie eine robots.txt die in shop to date und web to date Präsenzen die Indexierung von Seiten verhindert. Kopieren Sie sich den Code, fügen ihn in eine Textdatei ein und speichern Sie die Datei als robots.txt ab. Diese Datei laden Sie mithilfe eines FTP-Programms in das Wurzelverzeichnis Ihrer Website bzw. Ihres Webshops.

robots.txt

User-agent: *
Disallow: /printable/
Disallow: /plaintext/
Disallow: /w2dfgw.php
Disallow: /w2dacl.php
Disallow: /web2dateftplog.txt
Disallow: /fts.php*
Disallow: /s2dbskt.php*
Disallow: /s2dlogin.php*
Disallow: /s2duser.php*

Die Bedeutung der Einträge

Im ersten Absatz User-agent: * werden alle Bots ohne Einschränkung angesprochen.

Mit Disallow: beginnt eine neue Verbotszeile, gefolgt von einem Leerzeichen, einem Schrägstrich und dem Namen der Datei oder des Verzeichnisses, das nicht durchsucht werden darf.
Wird ein Verzeichnis angegeben, hier z.B. /printable/ wird es mit dem Pfad ab dem Webroot aufgeführt. Das Verzeichnis und eventuell sich darin befindliche Unterverzeichnisse und Dateien sind mit diesem Eintrag "nicht erlaubt".
Wenn nur eine Datei innerhalb eines Verzeichnisses für Suchmaschinen gesperrt werden soll, wird der gesamte Pfad zur Datei mit genannt, z.B. /images/angelika.jpg.
Bei dynamischen Links kann man durch das Anhängen eines Sternes * verhindern, dass die Bots an die genannte Datei mögliche dynamische Links anhängen. Das ist z.B. sehr wichtig bei einigen Shopdateien für die Registrierung und Zahlungsabwicklung sowie bei der Suche.

Wir selbst sperren grundsätzlich auch das Verzeichnis /assets/ mit den Plugin-Dateien, das Verzeichnung /images/ um bildersuchende Bots am sammeln der Bilddateien zu hindern und einige andere Verzeichnisse und Dateien die als Suchergebnisse nicht ausgegeben werden sollen oder brauchen. Die nachfolgende Auflistung kann als Anregung verstanden werden:

Zusätzliche Einträge

Disallow: /assets/
Disallow: /images/
Disallow: /cgi/
Disallow: /agb.php
Disallow: /impressum.php
Disallow: /shipping.php
Disallow: /zahlung.php
Disallow: /datenschutz.php
Disallow: /kontakt.php



Mehr Informationen

Allgemeine Informationen, z.B. über die Erstellung einer .htaccess um verschiedene Versionen des Domainnamens auf eine Hauptdomain zu leiten finden Sie unter dem Menüpunkt SEO-Optimierung.

Der Kanonische URL Tag

Ein weiteres Problem durch doppelten Content entsteht speziell bei web to date / shop to date dadurch, dass als Home-URL, also als Startseiten-URL, vom System selbst stets die index.php bzw. index.html aufgerufen wird. Von Linkpartnern wird aber meistens die TDL (Top-Level-Domain) verlinkt. Ein Beispiel:

Häufigste externe Verlinkung: http://www.domainname.de
Wird vom System aber so ausgegeben: http://www.domainname.de/index.php -> und auch diese URL wird von einem Teil der Linkgeber verlinkt.

Schaut man sich mit der Google-Toolbar dann den PageRank der verschiedenen URLs an, wird man sehen dass die Suchmaschinen beide URLs wie unterschiedliche Seiten behandeln und unabhängig voneinander bewerten. Das ist natürlich schlecht wenn es darum geht möglichst viel Linkpower zu bündeln, um auch in den Suchergebnissen als relevante, häufig angelinkte Website bessere Positionen zu bekommen.

Google bekommt das Problem offenbar alleine nicht in den Griff und hat daher angeregt, dass Webmaster der Suchmaschine die URL mitteilen die gelten soll, wenn eine Webseite aufgerufen wird. In web to date / shop to date betrifft das Problem tatsächlich nur die Startseite - und die Einkaufsfunktion, die aber ohnehin per robots.txt von der Indexierung ausgesperrt werden sollte. Unser CMS produziert statische Seiten auf dem Server, die auch konsequent mit einer URL intern verlinkt werden, so dass wir uns dem Startseiten-Problem zuwenden können.

Um Google die kanonische URL mitzuteilen die genutzt werden soll, öffnen wir die navigation.ccml in unserem Designverzeichnis und fügen zwischen den Head-Tags folgende Zeile ein:

canonical link url

<*cc:if cond="&page.ishome"><link rel="canonical" href="http://www.domainname.de"><*/cc:if>


Wichtig: Entfernen sie aus der obigen Codezeile nach der Übertragung in Ihre Datei die Sternchen * - sie sind hier notwendig damit der Code angezeigt wird.

Natürlich muss statt http://www.domainname.de die eigene TLD eingetragen werden!

Seite ausdrucken