Willkommen auf mapia.topicmapslab.de!

Autor: Thomas Efer  •  Stand: 20. August 2009

nach oben ↑ 

Wohl keine Erfindung der letzten Jahrzehnte hat eine so große Auswirkung auf die Gesellschaft, wie das Internet. Die vielfältigen Möglichkeiten, die sich durch das World Wide Web ergeben haben, bereichern den Alltag der Menschen im neu angebrochenen Jahrtausend ungemein. Als "neues Medium", Plattform für Kommunikation und Meinungsäußerung und nicht zuletzt als Wissensquelle enormen Umfangs hat es innerhalb kürzester Zeit große Popularität erlangt und den Grundstein für eine freie "Informationsgesellschaft" gelegt.

Deshalb existiert ein großes wissenschaftliches Interesse vieler Fachrichtungen, das Phänomen "Internet" systematisch zu analysieren. Dabei werden stetig neue Perspektiven auf Nutzung und Gestalt des WWW gesucht, um all seine Aspekte erfassen zu können. Die größten Hürden stellen dabei die Größe und Dezentralität und die daraus resultierende Unübersichtlichkeit des Internets dar.

Erfahren Sie in den folgenden Abschnitten, wie Mapia helfen kann, das Netz zu entwirren, indem es eine thematische Karte des WWW aufbaut.

Die Ziele des Projekts

nach oben ↑ 

Mapia betrachtet das Internet als Gefüge von Inhalten: Ähnlich wie bei Suchmaschinen, werden die angebotenen Inhalte erfasst und für spätere Abfragen aufbereitet.

Mapia durchwandert das WWW dabei wie ein normaler Webseitenbesucher. Methoden der automatischen Sprachverarbeitung helfen, im Quell- und Fließtext der besuchten Webseiten Antworten auf viele Fragen zu erhalten, zum Beispiel:

  • Welche thematischen Schwerpunkte hat eine Seite?
  • Wird sie kommerziell, privat oder von öffentlicher Hand betrieben?
  • Wie oft werden ihre Inhalte aktualisiert und wie viele Autoren sind daran beteiligt?
  • In welcher Sprache ist die Webseite verfasst und werden alternative Sprachvarianten angeboten?
  • Beziehen sich die Informationen der Webseite auf einen bestimmten Ort oder eine bestimmte Region?

Zur automatischen Beantwortung dieser Fragen werden möglichst akkurate Verfahren benötigt, die im Rahmen des Mapia-Projekts entwickelt werden. Die gewonnenen Informationen werden in strukturierter Form für spätere Abfragen hinterlegt.

Die Technologien hinter Mapia

nach oben ↑ 

Die Software, die hinter den Kulissen von Mapia läuft, basiert auf Java-Technologie. Dadurch ist sie plattformunabhängig lauffähig und durch die Anwendung moderner, objektorientierter Designparadigmen einfach wart- und erweiterbar.

Da das Web riesig ist, muss auch Mapia in der Lage sein, riesige Datenmengen anzufragen, zu durchforsten und zu speichern. Der Fokus der Mapia-Entwicklung lag so von Beginn an bei der Gewährleistung einer guten Skalierbarkeit.

Zur strukturierten Speicherung der Daten setzt Mapia auf eine standardisierte Technologie: Topic Maps. Mit Hilfe von Topic Maps können die durch die Analyse gewonnenen Informationen problemlos gespeichert, mit Metainformationen angereichert und untereinander verknüpft werden. Das Schema des zugrundeliegenden Datenmodells ist dabei dynamisch erweiterbar. So können mit Mapia auch künftig neue Fragestellungen mit minimalem Anpassungsaufwand beantwortet werden.

Der Mapia-Crawler

nach oben ↑ 

Der Mapia-Crawlers ist eine der Grundkomponente der Mapia-Software. Der Crawler ruft fortwährend Webseiten auf, regelt die Kommunikation mit den Webservern und lädt den Seiteninhalt zur Weiterverarbeitung ins System.

Selbstverständlich hält sich der Mapia-Crawler beim Durchstreifen des Web an gängige Konventionen. Beispielsweise beachtet er die in der robots.txt hinterlegten Einschränkungen und Freigaben für den Abruf von Inhalten durch Crawler. So wird gewährleistet, dass nur wirklich öffentlich zugängliche Daten abgefragt werden.

Hatten Sie schon einmal Besuch vom Mapia-Crawler? Seine Signatur lautet:

User-Agent: MapiaCrawler/0.1 (+http://mapia.topicmapslab.de)

Sollten Sie den Verdacht haben, dass ein Besuch des Mapia-Crawlers Probleme auf Ihrer Internetpräsenz verursacht, wenden Sie sich bitte umgehend an uns! Schreiben Sie dazu am besten an die unter "Kontaktaufnahme" angegebene Support-E-Mail-Adresse.

Bitte prüfen Sie vorab, ob die beanstandeten Anfragen an Ihre Website mit obiger Agent-Kennung tatsächlich von IP-Adressen der Universität Leipzig aus abgesendet wurden. Andernfalls handelt es sich wahrscheinlich um Trittbrettfahrer!

Kontaktaufnahme

nach oben ↑ 

Kontaktdaten der Ansprechpartner
Name E-Mail
Support mapia@topicmapslab.de
→ Mapia Thomas Efer mapia@thomasefer.de
→ Topic Maps Lab Dr. Lutz Maicher maicher@informatik.uni-leipzig.de

Wir sind bemüht, Anfragen per E-Mail unverzüglich zu beantworten, bitten aber um Ihr Verständnis, falls es zu Verzögerungen kommt.

 
 
http://www.topicmapslab.de/