Webseite von der Wayback Machine entfernen – so gehts!

Die Wayback Machine ist das Archiv des Internets. Regelmäßig werden Kopien von Webseiten erstellt und für die Nachwelt archiviert. Das kann manchmal unterhaltsam, manchmal nützlich sein.

Doch wer nicht will, dass die eigenen, anfänglichen Blogbeiträge für immer verfügbar sind, der sollte seine Webseite von der Wayback Machine ausschließen.

Das geht mit wenigen Einstellung, wirkt sich aber nicht sofort aus. Wer eine neue Webseite erstellt, der kann das direkt berücksichtigen und verhindert so von Beginn an die Archivierung.

Die Wayback Machine ist Fluch und Segen!

Es ist viel Rechen- und Speicherkapazität nötig um regelmäßig Millionen Webseiten zu besuchen und deren Inhalt zu speichern – und das über Jahre. So kann eine Information, von der man weiß dass Sie mal aufzufinden war, notfalls auf der Wayback Machine bzw. archive.org finden.

Aber das ist nicht immer gewollt. Erfasste Webseiten werden dabei in sogenannten Snapshots erfasst und in einem Zeitstrahl dargestellt.

Der Zeitstrahl von Facebook ist bei der Wayback Machine sehr ausgefüllt.
Der Zeitstrahl von Facebook ist bei der Wayback Machine sehr ausgefüllt. Es ist aber auch eine der am häufigsten besuchten Webseiten der Welt. Quelle: archiv.org

Gerade bei persönlichen, finanziellen oder zeitkritischen Themen ist es nicht immer im Sinne des Autors, dass die Beiträge unter archive.org noch erreichbar sind.

Auch wenn es für Suchmaschinen kein Problem darstellt (Stichwort: Suchmaschinenoptimierung/Duplicate-Content) so bringt die Löschung der Artikel auf dem verfügbaren Blog nur bedingt etwas, wenn er für immer unter archive.org erreichbar ist.

Die Webseite bereit Menschen aber auch viel Freude. Denn wer interessiert sich denn nicht mal dafür wie Facebook, gmx oder Google noch vor 10 Jahren ausgesehen haben?

2007 war Facebook noch eine Mark Zuckerberg production und ist nach wie vor bei der Wayback Machine zu finden.
2007 war Facebook noch eine Mark Zuckerberg production und ist nach wie vor bei der Wayback Machine zu finden. Quelle: archiv.org

Diese Webseiten Abbilder sind nachgehalten und erfreuen sich regelmäßig neugieriger Blicke. Aber schauen wir uns mal an, wie wir den eigenen Eintrag verhindern bzw. löschen lassen können.

Der einfache Weg: Die Blockierung der Wayback Machine über die robots.txt

Es ist die einfachste, aber auch die unzuverlässigste Methode. Die Rede ist von der Blockierung des Crawlers über die robots.txt Datei. Seit den ersten Webseiten wurde die robots.txt für Crawler und Bots angelegt.

Dort finden sich Anweisungen darüber, wer mit der Webseite wie umzugehen hat. So können gezielt Crawler diverser Suchmaschinen ausgeschlossen werden.

Und auch die Crawler von der Wayback Machine können über die robots.txt angesprochen und ausgeschlossen werden. Der Nachteil ist aber, dass die Berücksichtigung der robots.txt keine Pflicht ist. So kommt es mittlerweile dazu, dass die meisten Crawler diese Anweisung ignorieren.

Auch die Wayback Machine sagt mittlerweile, dass die robots.txt keine starke Berücksichtigung mehr findet. Wer aber trotzdem einen Eintrag vornehmen mag, der muss folgende Information platzieren:

User-agent: ia_archiver
Disallow: /

Was ist ein Crawler?

Ein Crawler ist ein Programm, das in der Lage ist das Internet selbstständig zu durchsuchen. Oft findet der Einsatz im Bereich von Suchmaschinen statt. Der Zweck ist die Indexierung von Webseiten und deren Inhalten.

Ein anderer Begriff für Crawler ist Robots. Aber auch Spider ist kein ungewöhnlicher Begriff. Das liegt vor allem an der Art der Ausbreitung. Besucht ein Crawler eine Webseite, breitet es sich danach Spinnnetzartig weiter aus, da den gefundenen Links gefolgt wird.


Verpasse keinen Blogbeitrag mehr!

Trage dich jetzt kostenfrei in die Gruenderlyste ein um keine Informationen mehr zu verpassen!


IP-Adressen sperren – eine weitere technische Möglichkeit!

Anders als private Internetnutzer besitzen Organisationen und Unternehmen in der Größenordnung von archiv.org eine statische IP-Adresse. Daher bietet sich die zweite, technische Möglichkeit an: Die Sperrung der IP-Adressen der Wayback Machine.

Am besten funktioniert diese Sperrung serverseitig. Leider gibt es hier keine einheitliche Anleitung. Je nach dem wo ihr eure Webseite gehostet habt, findet ihr die Einstellung an einer anderen Stelle. Gründerly läuft auf Servern von Raidboxes*. Dort findet ihr die Einstellung wie folgt:

  1. Loggt euch in euren Account ein und wählt eure passende Box aus
  2. Anschließend wählt ihr „Einstellungen“ aus
  3. Klickt auf den Menüpunkt  „Sicherheit“ im linken Bereich
  4. Die Möglichkeit IP-Adressen zu sperren findet Ihr unter „IP-Blocking“
  5. Wählt hier den „Blacklisting Modus“ aus (nur eingetragene IP-Adressen erhalten keinen Zutritt)
  6. Tragt die IP-Adressbereiche:
    • 207.241.224.0/20 und
    • 208.70.24.0/21 ein
  7. Klickt auf übernehmen

Die Werte zum Aussperren des Crawlers sind nun gesetzt. An diesen Wert muss sich die Wayback Machine halten, da der Crawler schlichtweg keinen Zugang mehr erhält. Eine sehr effektive Methode. Doch sind bereits Inhalte indexiert, dann muss noch ein weiterer Schritt getan werden – denn diese werden mit dem Blocken der IP-Adresse nicht entfernt.

E-Mail senden und um Entfernung aus der Wayback Machine bitten

Es ist der empfohlene Weg eine Domain bzw. Inhalte aus der Wayback Machine entfernen zu lassen. Die Organisation bittet darum eine E-Mail an die „info@archive.org“ zu erhalten und um Entfernung der Inhalte bitten. Seitens der Organisation klinkt die Aufforderung so:

How can I exclude or remove my site’s pages from the Wayback Machine?
You can send an email request for us to review to info@archive.org with the URL (web address) in the text of your message.

Die E-Mail kann kurz und knapp gehalten werden, sollte aber von der Domain versendet werden die auch aus dem Archiv gelöscht werden soll.

Erstaunlicherweise wird hier nicht mit einem Auto-Responder gearbeitet. Nach ca. 7 – 10 Tagen solltet ihr eine Rückmeldung erhalten, dass die Webseite erfolgreich aus dem Archiv entfernt worden ist.

Wollt ihr die E-Mail etwas mit Inhalt füllen, so könnt ihr den DMCA Takedown Generator benutzen. Tragt eure Daten ein und verweist am besten auf den Takedown in der E-Mail, die ihr an das Archiv schickt. Das Verfahren zur Löschung der Inhalte kann sich mit einem DMCA Takedown beschleunigen.

Kennt ihr noch weitere Möglichkeiten die Wayback Machine von der Indexierung eurer Webseite abzuhalten?


Vielen Dank, dass du den Blogbeitrag bis zum Ende gelesen hast!

Wenn dir die Informationen helfen oder dich vielleicht sogar motivieren, dann trage dich doch in die Gruenderlyste ein. Dann wirst du benachrichtigt, sobald ein neuer Beitrag erscheint.

Schreibe einen Kommentar