GOOGLE DOPPELMORAL: DUPLICATE CONTENT ERKENNEN & VERMEIDEN

11. September 2015

Blog

Google hat ein riesiges Regelwerk und anhand der Befolgung wird die Qualität und somit das Ranking einer Website bestimmt. Um in der Gunst des Suchmaschinenriesen zu stehen, versuchen Webseitenbetreiber möglichst alle Regeln einzuhalten. Eine Regel, die Angst und Schrecken verbreitet, ist die des Duplicate Content. Denn Google straft Inhalte, die doppelt erscheinen, im Ranking ab. Unternehmen, die eine Corporate Site, ein Online-Magazin oder einen Blog betreiben, laufen schnell Gefahr doppelte Inhalte innerhalb ihrer Websites zu haben.

Duplicate Content: Was ist das eigentlich genau?

Als Duplicate Content bezeichnet man Inhalte, die in exakt derselben Form mindestens zwei Mal indexiert wurden. Zudem unterscheidet man zwischen internem und externem Duplicate Content: Wohingegen interner Duplicate Content innerhalb einer Domain existiert, findet externer Duplicate Content verteilt über mehrere Websites statt.

Duplicate Content: Ab wann gelten Inhalte als doppelt?

Grundsätzlich gilt: Nicht jeder Satz, der irgendwo ein zweites Mal in exakt derselben Form erschienen ist, gilt als Duplicate Content. Eine offizielle Regelung seitens Google gibt es hier zwar nicht, jedoch lässt sich erfahrungsgemäß feststellen, dass Texte ab einer Größenordnung von 500 Zeichen als Duplicate Content erkannt und entsprechend sanktioniert werden.

Duplicate Content: Wie erkenne ich ihn?

Um Duplicate Content zu erkennen, muss man nicht jede einzelne Unterseite seiner Webpräsenz auf Inhalte überprüfen, die sich doppeln – das geht viel effizienter. Wer Duplicate Content erfolgreich identifizieren möchte, kann sich einer Vielzahl kostenloser und kostenpflichtiger Tools bedienen. Nachfolgend eine kurze Auflistung von Diensten, anhand dieser sich Websites auf Duplicate Content überprüfen lassen:

Screaming-Frog:

Ein Desktop-Client, mit dem sich bis zu 500 Seiten kostenfrei überprüfen lassen können. Daneben gibt es eine Pro-Lizenz, die umgerechnet rund 136 Euro pro Jahr kostet. Dann können unbegrenzt viele Seiten geprüft, Crawl-Vorgänge gespeichert und der Support in Anspruch genommen werden.

SISTRIX:

Ein Web-Tool, mit dem sich Seiten anhand verschiedener Kriterien auf SEO-Tauglichkeit überprüfen lassen können. Neben Duplicate Content gibt Sistrix auch Aufschluss über das Ranking zu einzelnen Keywords, eine Wettbewerbsübersicht und Informationen über eingehende Backlinks. Das Tool lässt sich einen Monat kostenlos testen, die Kosten für die weitere Nutzung starten bei 100 Euro.

Onpage.org

Es bietet einen ähnlichen Funktionsumfang wie SISTRIX, mit dem entscheidenden Unterschied, dass es hier eine dauerhaft kostenlose Variante gibt. Die Nutzung des Accounts ist eingeschränkt auf eine Website pro User und es können maximal 100 Seiten gecrawlt werden. Wer mehr will, zahlt mindestens 99 Euro und maximal 1.299 Euro.

Copyscape

Ein kostenloses Online-Tool, das Plagiate Ihrer Website erkennt. Nach der Suche erscheint eine Auflistung aller Links, die Kopien Ihrer Inhalte veröffentlicht haben. Es können unbegrenzt viele Seiten überprüft werden.

Innerhalb der Google Webmaster Tools gibt es zudem die Möglichkeit, doppelte Title-Tags, also Seitentitel, zu identifizieren. Hierfür ruft man die Webmaster Tools auf und ruft unterhalb des Menüpunkts „Darstellung der Suche“ die Seite „HTML-Verbesserungen“ auf.

Anschließend erhält man eine Auflistung der Seiten mit identischem
Title-Tag.

Duplicate Content: Das sind die Folgen

Wird Duplicate Content auf einer Website erkannt, bringt das den Google Crawler in die Bredouille, sich entscheiden zu müssen: Wie bewerte ich diese Seite? Doppelte Inhalte haben also zur Folge, dass mindestens eine der Seiten, die Duplicate Content aufweist, abgestraft wird. Welche das ist, macht Google daran fest, wie die Seite anhand anderer Rankingfaktoren (Sichtbarkeit, Referrers, etc) abschneidet.

Duplicate Content: So gehe ich vor

Nutzen internationale Unternehmen länderspezifische Websites innerhalb eines Sprachraums (z. B. D-A-CH), kommt es schnell vor, dass für die einzelnen Websites ganz oder teilweise identische Texte verwendet werden. Hier kommt das HREF-Lang-Tag zum Einsatz. Beispiel: Die ABC AG ist ein Maschinenbauunternehmen, in Deutschland und der Schweiz aktiv und betreibt jeweils eine Website für diese beiden Märkte. Für beide Websites werden identische Texte verwendet. Google identifiziert die Inhalte als Duplicate Content, da die deutsche Website mehr qualitativ hochwertige Backlinks aufweist, wird die Seite für den Schweizer Markt im Ranking abgestuft. Die ABC AG hat jetzt die Möglichkeit, dem Google Crawler zu signalisieren, dass es sich bei diesen beiden Websites um länderspezifische Seiten handelt, die jeweils nur einen Markt bedienen. Dies wird über die Verwendung des hreflang-Tags erzielt. Durch den Einsatz des hreflang-Tags stellt die ABC AG sicher, dass Google die jeweilige geografische Ausrichtung der Website versteht und zwischen beiden Websites Unterschiede festmacht und sich keine negativen Auswirkungen auf das Ranking ergeben.
Ein anderes Szenario, das zu Duplicate Content führen kann sind doppelte Inhalte innerhalb einer Website – wie löse ich dieses Problem?

Duplicate Content: Noindex & Disallow

Über die Befehle Noindex und Disallow lässt sich steuern, ob und wie der Crawler mit einer bestimmten Seite oder einem Verzeichnis umgehen darf. Der Befehl Disallow kann in der robots.txt-Datei festgelegt werden. Die robots.txt-Datei weist den Crawler an, welche Seiten gecrawlt werden sollen und welche nicht und sieht so aus:

Es gibt die Möglichkeit die robots.txt-Datei direkt auf dem Server oder über die Google Webmaster Tools zu bearbeiten. Hierzu muss man in den Webmaster-Tools den Menüpunkt „Crawling“ anklicken und anschließend auf den Punkt „robots.txt-Tester“ ansteuern.

In den Zeilen gibt man anschließend an, welche Seiten beziehungsweise welche Verzeichnisse nicht gecrawlt werden sollen. Hierzu trägt man einfach folgenden Befehl ein:
Disallow: /login/
Gibt es jedoch externe Links, die auf diese Seite verweisen, wird die Seite nach wie vor nicht gecrawlt aber in den Index mitaufgenommen. Um auch das zu vermeiden, muss im Code der jeweiligen Seite ein sogenanntes Meta-Tag eingefügt werden. Eingesetzt wird der Befehl im <head> Bereich der Seite und sieht so aus:
<meta name=“robots“ content=“noindex“ /Seitentitel oder Verzeichnisname>
Auch wenn die Berücksichtigung dieser und der anderen Rankingfaktoren eine niemals endende Aufgabe darstellt, ist es definitiv lohnenswert, an einer SEO-orientierten Strategie festzuhalten. Wenn Sie sich einen kurzen Überblick über den Status Quo Ihrer Website in Sachen SEO verschaffen möchten, dann fordern Sie hier unseren kostenlosen SEO-Quick-Check an und Sie erhalten die wichtigsten Infos zu Ihrer Website.
Das interessiert Sie bestimmt auch:
Das sind die SEO Trends 2015
Online PR ist das neue SEO