Semantic Web & Open Linked Data

Linked Open Data (LOD) is an initative to interlink data sources available in the web by using semantic web technologies, in particular RDF. It targets to establish a Web of data, similar to the Web of documents today.
In their work, students can explore the following topics

  1. Develop a application scenario using LOD data and implement a web application therefore
  2. Develop a web service & web application to semi-automatically create links between different LOD repositories
  3. Develop and analyse ontology alignment algorithms for automaticall creating links between different LOD repositories
  4. Discovery and add new data sets and interlink them with the LOD cloud (see for example RIESE)
  5. Analyse the quality of LOD repositories and their interlinkage

Relevant Literature:

Bizer C, Heath T, Berners-Lee T. Linked data–the story so far. International Journal on Semantic Web and Information Systems. 2009. Available at: http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf

Shadbolt N, Berners-Lee T, Hall W. The Semantic Web Revisited. IEEE Intelligent Systems. 2006;21(3):96-101. Available at: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1637364.

Plagiarism Analysis & Misuse Detection

With the growing amount of information its quality decreases. Furthermore, the populartiy of social networks offers a broad field for misuse, ranging form simple spam to user masquarades. Within this topic, students should explore either plagiarism analysis or misuse in social networks. Work covers the development of services countering misuse or plagiarism detection or the analysis of respective data set and new algorithms.

Details, data sets and algorithms on the topic can be found on the PAN09 Workshop site.

BakkArbeit Vorlagen

Vorlagen fuer Bakkarbeiten am Institut wurden unter diesem Link hinzugefuegt.

Web Page Cleaning and Blog Extraction

Web-Seiten sind zur Darstellung von Information für den Menschen optimiert. Die maschinelle Verarbeitung von Web Seiten erweist sich dadurch als schwierig und benötigt spezielle Techniken zur Extraktion relevanter Teile einer Webseite. Für die maschinelle Verarbeitung von Blogs sollten die eigentlich Blog-Einträge und Kommentare von Werbeeinblendungen und Navigationselementen getrennt werden.

Ziel der Arbeit ist die Entwicklung eines Algorithmus zur Analyse des DOM Baums einer HTML Seite und der Trennung in Blogs, Kommentare und nicht relevante Element. Der Algorithmus soll dabei auf unterschiedliche Statistiken wie Anzahl der Wörter im DOM Element, Anzahl der Links im DOM Element etc. zurück greifen. Die Entwicklung erfolgt in Java unter Einsatz von Open Source Bibliotheken.

Links zu relevanter Literatur:

  1. http://trec.nist.gov/pubs/trec15/papers/umbc-jhu.blog.final.pdf
  2. http://portal.acm.org/citation.cfm?doid=1046456.1046459

Sentiment Detection in Blogs

Sentiment Detection bezeichnet die Erkennung von Stimmungen und Ausrichtungen von Meinungen in Texten. Anwendung findet diese Technik z.B. in der Analyse von Blog-Kommentaren, in der Blog-Suche oder der Ssozialen Netzwerkanalyse.

Ziel des vorliegenden Themas ist die Entwicklung eines Web Services zur Annotation von Sentiments in Web Seiten. Das Ergebnis des Prozesses soll als JSON oder RDF zu Verfügung gestellt werden.

Entwicklung erfolgt in Java und unter Verwendung von Open Source Bibliotheken zur Verarbeitung natürlicher Sprache wie z.B. Mallet oder OpenNLP. Diese Bibliotheken arbeiten auf Basis maschineller Lerntechniken (MAximum Entropy basierte modelle, Conditional Random Fields).

Links:

  1. Sentiment Detection Survey: http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html
  2. Mallet: mallet.cs.umass.edu/
  3. OpenNLP: http://opennlp.sourceforge.net/

Eine Übersicht über Bakk-Arbeitsthemen für SS09

finden sich unter der entsprechenden Seite auf diesem Blog.

Time-dependent Folksonomy Analysis

Contact: Karin Schöfegger (k.schoefegger@tugraz.at)

Als Folksonomy (oder collaborative tagging) wird die gemeinsame Verschlagwortung von diversen Resourcen bezeichnet. Bekannte Beispiele im Web sind del.icio.us (für Bookmarks), flickr (für Fotos), youtube (für Videos) etc. Im Laufe der Zeit verändert sich die entstehende Struktur aus Tags, Usern und Resourcen des zugrundeliegenden tripartiten Graphen. Neue User kommen zur Community hinzu, neue Resourcen werden annotiert, nutzt ein User ein Tagging-System länger, ändert sich auch sein Tagging-Verhalten.

Ziel der Arbeit ist es, die zeitliche Analyse von Folkonomies zu unterstützen. Aus ausgewählten Datenquellen sollen zu bestimmten Themenkreisen regelmäßig aktuelle Daten bestehend aus Usern, Tags, Resourcen und deren Verbindungen eingelesen und (als Graphenstruktur, zB GraphML) gespeichert werden. Diese Graphenstruktur soll in Abhängigkeit des gewählten Zeitpunkts dargestellt werden können. Zusätzlich sollen je nach Interesse versch. Algorithmen implementiert und ausprobiert werden die diese Struktur zu einem bestimmten Zeitpunkt analysieren, zB Clustering Algorithmen, Similarity Measures, etc. oder untersucht werden, wie sich beispielsweise Cluster zeitlich verändern.

Programmiersprachen: Python (zB igraph) oder Java (zB. Jung)

Anwendung von unkonventionellen Eingabemedien zur Interaktion mit visuellen Navigationssystemen für digitale Enzyklopädien

Klassische digitale Enzyklopädien ermöglichen Anwendern die stichwortbasierte Suche nach Artikeln und die Navigation zwischen Artikeln mittels Querverweisen. Moderne multimediale Enzyklopädien sind zunehmend semantisch strukturiert und erfordern daher erweiterte Such- und Navigationsmöglichkeiten. Die digitale Enzyklopädie des Brockhaus bietet eine dreidimensionales System zur Navigation zwischen Artikeln. Der OCZ Neural Impulse Actuator (http://www.ocztechnology.com/products/ocz_peripherals/nia-neural_impulse_actuator) ermöglicht kostengünstig die Nutzung von Gesichtsmuskelspannung, Augenbewegung und Gehirnströmen als Eingabemedium für Standard-PCs.
Inhalt der Arbeit ist der Entwurf von adaptierten Interaktionsformen für den 3D-Wissensraum der Brockhaus Enzyklopädie, welche die Verwendung des OCZ Neural Impulse Actuator für Anwender ermöglichen sowie die Evaluierung der entwickelten Interaktionsformen im Vergleich zu Standard-Eingabegeräten (Maus, Tastatur).

Vergleichende Evaluierung von zweidimensionalen und dreidimensionalen Darstellungen für die Navigation in digitalen Enzyklopädien

Klassische digitale Enzyklopädien ermöglichen Anwendern die stichwortbasierte Suche nach Artikeln und die Navigation zwischen Artikeln mittels Querverweisen. Moderne multimediale Enzyklopädien sind zunehmend semantisch strukturiert und erfordern daher erweiterte Such- und Navigationsmöglichkeiten. Die digitale Enzyklopädie des Brockhaus bietet zwei visuelle Navigationssysteme, die sich in der Dimensionalität der Darstellung und in den verfügbaren Interaktionsformen unterscheiden.
Inhalt der Arbeit ist die Planung, Durchführung und Auswertung einer Benutzerstudie, welche - aufbauend auf bereits gewonnenen Ergebnissen und erprobten Vorgehensweisen - die Vor- und Nachteile beider Systeme beleuchtet.

Online Task Detection

Contact: Andreas S. Rath (arath@know-center.at), Didier Devaurs (ddevaurs@know-center.at)

The topic “Online Task Detection” belongs to the research field of User Context Detection. The term “user context” is used to describe a user’s computational environment (e.g. user interactions, current task, recently opened documents, work environment). User context is described in formal “user context models” and may be utilized for task recognition, context-based information retrieval or context-aware applications.
For a Bachelor or Master Thesis or Project in the field of User Context Detection, you need basic programming skills and interest for the following fields

For a Bachelor or Master Thesis or Project in the field of User Context Detection, you need basic programming skills and interest for the following fields

Human Computer Interaction, Personal Information Management, Semantic Technologies, Machine Learning and Context-Aware Information Retrieval

Short description of the project “Online Task Detection”

  • A task is a piece of work that needs to be done by a user. User context observation mechanism can capture those parts of the task execution that involve interactions with the user’s computer desktop, applications and resources. Based on these observations task detection should detect which task is currently performed by the user.
  • Detecting the task a user is performing at the moment is challenging because the user can utilize multiple resources or can switch between various tasks (multi-tasking).
  • The goal of the project is to find and implement algorithms that can detect which parts of the observed user context belong to the same task. The evaluation of the algorithms can be done on existing user context datasets and should be implemented into an already existing prototype that is based on Java and Eclipse RCP.

For an overview of all topics related to User Context Detection see User Context Detection - Themen SS 2009