News

Anleitung für den Kauf einer Digitalkamera

Immer mehr UserInnen fühlen sich vom unstrukturierten Überangebot im Internet in Sachen Produktinformationen und Serviceleistungen überfordert. Am Beispiel des Kaufs einer Digitalkamera mit vorangehender Suche im WWW beschäftigen sich InformatikerInnen der Technischen Universität (TU) Wien mit dem automatisierten Strukturieren, Extrahieren und Verbinden von verschiedenen Webdaten. Die Formatierung der Internetseiten spielt dabei eine besondere Rolle.

(v.l.n.r.): Bernhard Kruepl, Wolfgang Holzinger, Tamir Hassan, Robert Baumgartner

(v.l.n.r.): Bernhard Kruepl, Wolfgang Holzinger, Tamir Hassan, Robert Baumgartner

(v.l.n.r.): Bernhard Kruepl, Wolfgang Holzinger, Tamir Hassan, Robert Baumgartner

(v.l.n.r.): Bernhard Kruepl, Wolfgang Holzinger, Tamir Hassan, Robert Baumgartner

Systematische Segmentierung von Webpages

Systematische Segmentierung von Webpages

Systematische Segmentierung von Webpages

Systematische Segmentierung von Webpages

Wien (TU) - "Wie kann man Webdaten, die im Allgemeinen sehr unstrukturiert sind und im Layout auf den menschlichen Betrachter optimiert sind, so verarbeiten, dass daraus automatisch ein ,wissensbasiertes System' entsteht", erläutert Robert Baumgartner, Lektor am Institut für Informationssysteme der TU Wien. Gelänge dies, würde der Kunde am Beispiel der Digitalkameras auf einen Knopfdruck sämtliche über ein Modell verfügbare Daten aus dem Internet prompt auf einer Seite geliefert bekommen. Ähnliches kennt man bereits von diversen Flugsuchmaschinen, die Billigflüge miteinander vergleichen.

Im Gegensatz zu den meisten anderen Forschungsprojekten basiert der Ansatz von Robert Baumgartner und seinem Team auf Formatierungsinformationen. "Wir analysieren die visuelle Oberfläche von Webpages, die auf dem Browser dargestellt wird und transformieren beispielsweise die in solchen Produktbeschreibungen üblicherweise enthaltenen Tabellen, Aufzählungen und Texte in strukturierte Beschreibungen. Es geht um die Anzahl der Leerzeichen, der Spalten und Tabellen", verdeutlicht Projektassistent Bernhard Krüpl. Ein Schwerpunkt liegt hierbei vor allem auf den häufig verwendeten pdf-Dokumenten. Baumgartner: "Ziel ist es die inhaltliche Struktur aus der grafischen Struktur zu erkennen. Eine Dokumentontologie (Netz von Hierarchien, in dem Informationen über logische Beziehungen miteinander verknüpft sind) kann aufgebaut werden. Das Dokument erhält im ,reverse engineering process' eine semantische Darstellung, die im Sinne der Entwicklung des ,Semantic Web' auch maschinenlesbar ist."

Metaflugmasken und wissensbasierte Kundenberatungssysteme zählen zu den möglichen Produkten dieses Forschungsgebietes und würden für InternetuserInnen eine große Erleichterung darstellen. Bisherige bereits bestehende Suchmaschinen sind "hart" programmiert und können sich dem rasch ändernden Umfeld nur schwer anpassen. 
Mehrere Forschungsprojekte (AllRight, Nextwrap, Metamorph), die derzeit zu diesem Thema an der TU Wien laufen, werden u.a. von der Förderschiene des BMVIT "FIT-IT Semantic Systems and Services"
unterstützt. Kooperationen erfolgten mit der Universität Klagenfurt, der Universität Graz, sowie den beiden Firmen Configworks und Lixto Software.

Fotodownload: https://www.tuwien.ac.at/index.php?id=4464

Rückfragehinweis:
Mag. Dr. Robert Baumgartner
Projektass. Dipl.-Ing. Bernhard Krüpl
Technische Universität Wien
Institut für Informationssysteme   
Favoritenstraße 9-11/184, 1040 Wien
T +43/1/58801 - 18403, -58426
T+ 43/1/2051224/23
F +43/1/58801 - 18492
E robert.baumgartner@tuwien.ac.at
E bernhard.kruepl@tuwien.ac.at

Aussender:
Mag. Daniela Ausserhuber
TU Wien - PR und Kommunikation
Karlsplatz 13/E011, A-1040 Wien
T +43-1-58801-41027
F +43-1-58801-41093
E daniela.ausserhuber@tuwien.ac.at
http://www.tuwien.ac.at/pr