Das Internet-Archiv als Zeitraffer

Von dem Google Zeitraffer Video war ich doch etwas angetan und habe mir gedacht, dass man sicherlich ein Teil davon automatisieren kann. Rausgekommen ist mein kleines “WebHistoryTimeline” Projekt, welches als Datenquelle das “Internet Archive” nutzt.

Dabei hole ich mir über RegEx alle Links heraus und rufe diese Links über die WebBrowser Klasse auf und speichere die gerenderte Seite im Dateisystem.

image

Die Projektstruktur:

image

Model beschreibt einfach unsere “Objektstruktur”. Der Service macht hier nur ein kleine Überprüfung ob die eingegeben URLs mit “http://” beginnen – quasi etwas Validierung. Im Data passiert das eigentlich interessante:

(ich bin kein RegEx Profi, sondern eher ein blutiger Anfänger und wollte schnell zu Ergebnissen kommen) :

        public Website GetWebsite(string url)
        {
            string archiveUrl = "http://web.archive.org/web/*/" + url;
            HttpWebRequest rq = (HttpWebRequest)WebRequest.Create(archiveUrl);
            HttpWebResponse response = (HttpWebResponse)rq.GetResponse();
            StreamReader reader = new StreamReader(response.GetResponseStream());
            string html = reader.ReadToEnd();

            Website resultWebsite = new Website();
            resultWebsite.Url = url;

            MatchCollection matchs = Regex.Matches(html, @"<a.href=.http://web.archive.org/web/\d.*?</a>");
            foreach (Match match in matchs)
            {
                ArchiveWebsite archive = new ArchiveWebsite();
                archive.ArchiveUrl = Regex.Match(match.Value, @"http://web.archive.org/web/\d*").Value + "/" + url;
                archive.Date = DateTime.Parse(Regex.Match(match.Value, @"\w\w\w\s\d\d,\s\d\d\d\d").Value);
                resultWebsite.ArchiveWebsites.Add(archive);
            }

            return resultWebsite;
        }

Die “WinApp” und die “ConsoleApp” sind zwei Demoanwendungen, wobei die Konsolenapplikation die Bilder auf die Festplatte speichert:

image

Das ganze ist nicht besonders toll und Multithreading fehlt auch ;) – allerdings hat man hinterher folgendes Ergebnis (bei der Microsoft Seite)

image

Insgesamt sind es bei der Microsoftseite über 1300.

Da das vielleicht ein nettes Spielzeug für den einen oder anderen ist, werde ich den Sourcecode auf Codeplex veröffentlichen. Leider kann ich das gerade dort nicht einchecken, sodass ich erstmal nur die “Download-Variante” anbiete:

[ Download Source Code ]

Viel Spaß :)


Kick It auf dotnet-kicks.de
Wenn dir der Blogpost gefallen hat, dann hinterlasse doch einen Kommentar. Wenn du auf dem Laufenden bleiben willst, abonniere unseren RSS Feed oder folge uns auf Twitter.

About the author

Written by Robert Mühsig

Robert Mühsig (@robert0muehsig) ist Webentwickler und beschäftigt sich mit Web-Frameworks (vor allem dem ASP.NET MVC Framework) und scheut sich auch nicht vor Javascript. Ansonsten bloggt er über all jene Probleme, die ihm über den Weg laufen. Seit 2008 ist er Microsoft MVP für ASP.NET und er arbeitet bei der T-Systems Multimedia Solutions GmbH in Dresden. Treffen kann man ihn online via Twitter (@robert0muehsig) oder dieser Seite oder bei der .NET User Group Dresden.

2 Responses

  1. Hallo Robert,
    Eine tolle "Spielerei" die du da ins Netz gestellt hast ;) Musste gleich mal ein paar Bild-Archive von einigen meiner Seiten anlegen und schon erstaunlich wie die früher ausgesehen haben und wie sich das ganze verändert hat. Natürlich war mir archive.org bekannt, aber so machts natürlich mehr Spass :D

    Reply
  2. Der Source Code ist nun auch über Codeplex zu beziehen: http://www.codeplex.com/webhistorytimeline

    Reply

Comment on this post

Letzte Posts

  • image.png
    RavenHQ–RavenDB in der Cloud

    Ayende Rahien hat es heute verkündet – RavenHQ, der RavenDB Cloud Hoster (natürlich von und mit Ayende) ist ab heute raus aus der Beta und man kann es von überall aus nutzen. In der Betaphase waren nur Nutzer von AppHarbor zugelassen. Was ist RavenHQ? RavenHQ ist im Grunde ein gehostes RavenDB in den Rechenzentren von ...

  • image.png
    GitHub for Windows–erste Eindrücke

    Git ist schon eine tolle Sachen und eröffnet viele neue Möglichkeiten – allerdings ist der Einstieg recht hart und selbst wenn man die guten Hilfsanleitungen auf GitHub befolgt, kommt man am Anfang nur langsam vorwärt. Insbesondere ist das Tooling für Windows / .NET Entwickler auch nicht gerade “bekanntes Terrain”. GitHub to the rescue! Die GitHub ...

  • image.png
    Chocolatey–apt-get für Windows

    Durch Zufall bin ich auf das Tool “Chocolatey” gestoßen. Wer die Website sich anschaut, wird evtl. eine Verwandschaft mit NuGet ausmachen. Was macht Chocolatey? Chocolatey ist ein “Maschine Package Manager”, das bedeutet, dass man für seine Maschine einfach Tools runterladen und Updaten kann – direkt über die Konsole. Was ist der Unterschied zu NuGet? NuGet ...

  • image.png
    SASS, LESS & Coffeescript in Visual Studio mit der Web Workbench

    CSS und Javascript sind die “kleinste” Schnittmenge von allen Browsern für die Erstellung von Web-Applikationen. Leider geht dabei etwas komfort verloren, daher lieben alle Webentwickler jQuery! SASS und LESS sind zwei Varianten, wie man “schöner” CSS schreiben kann und Coffeescript versucht Javascript Entwicklung zu vereinfachen. Aber immer der Reihe nach… Was ist SASS? SASS steht ...

  • image.png
    Code-Inside Sample nun auf GitHub: Google Code zu GitHub Migration

    Seit einiger Zeit habe ich Beispielcode auf Google Code bereitgestellt. Einfach nur noch weg von Google Code O-Ton damals war: Ich hatte mich für Google Code entschieden, weil ich hoffe dass früher oder später die Google Code Suche nutzbar ist und es dadurch wenigstens ein kleiner Mehrwert entsteht. Allerdings wirft es momentan noch ein Fehler. ...

Auf Amazon einkaufen & unterstützen

Facebook