Topics Bachelor Thesis, Master Thesis, Seminars etc. for 2011

Topics are distributed along the researchers at IWM, namely

  1. Michael Granitzer (themen-2011_mgrani.pdf)
  2. Denis Helic (themen-2011_dhelic.pdf)
  3. Stefanie Lindstaedt (themen-2011_slind.pdf)
  4. Markus Strohmaier (themen-2011_mstrohm.pdf)

Please contact the corresponding person if you are interested in a particular topic.

Validierung von Fakten in Print und Online Medien mittels Linked Data

Argumentationslinien in Diskussionen zu verschiedenen tagesaktuellen Themen (e.g. Demographische Entwicklungen, Feinstaubbelastung etc.) berufen sich im Allgemeinen auf zahlenbasierte Fakten (e.g. Anzahl der Feinstaubtage in Graz). Für den Konsumenten von Medien wird es jedoch immer schwieriger, diese Fakten zu prüfen, obwohl das zugrunde liegende Datenmaterial oft online zugänglich ist.

Ziel der vorliegenden Arbeit(en) ist die Entwicklung von Plattformen, Methoden und Technologien zur Validierung von in online Medien postulierte Fakten. Mehrere Lösungswege können dazu eingeschlagen werden:

1. Semantic Web Ansatz: Überführung existierender Statistik zahlen (e.g. Statistik Austria) in Maschinen lesbare und dezentral verarbeitbarer Web Datenstrukturen, im speziellen Linked Data. Auswertungen auf diesen Daten sollen (i) einfach möglich sein und (ii) aus online Diskussionen verlinkbar sein um den faktischen Gehalt in online Diskussionen zu erhöhen/zu ermöglichen. Der Themenblock beinhaltet vor allem die Benutzung von Semantik Web Technologien sowie die Entwicklung von Portalen.

2. Text Mining: Aus gegebenen Zeitungs-/Online Texten sollen Zahlenfakten sowie dazugehörige Aussagen von Personen extrahiert und suchbar gemacht werden. Die Zahlenfakten sollen über Links einfach in Online Diskussionen (e.g. Twitter, diverse Foren) eingebunden werden können. Der Themenblock beinhaltet die intelligente Verarbeitung von Texten über maschinelle Lernverfahren sowie die Bereitstellung von Web Services (e.g. REST) dazu.

3. Web 2.0 Ansatz: Diskussionsmedien wie z.B. Twitter, diverse Foren sollen mit der Möglichkeit versehen werden, semantische Annotationen zu Fakten oder anderen Belegstellen hinzuzufügen und die Art der Validierung zu spezifizieren (e.g. FAkt 1 widerlegt Fakt 2. Fakt 1 trägt bei zu Thema X). Der Themenblock beinhaltet vor allem Plattformentwicklung und die Benutzung von APIS großer sozialer Netzwerke wie Facebook, Twitter etc.

2 Diplomarbeiten “Web-Science” am IWM

Sehr geehrte Studierende,

Ich möchte Sie auf 2 aktuelle Diplomarbeitsausschreibungen am Institut für Wissensmanagement hinweisen. Beide Themen eröffnen die Möglichkeit zum Erhalt eines Stipendiums im Rahmen eines vom FWF geförderten Forschungsprojekts.

1) Intent Analysis: Mining and Correlating Human Goals from Social Media Corpora
2) Simulation of Cooperation and Diffusion in Social Media

Nähere Details finden Sie unter: http://kmi.tugraz.at/staff/markus/open-topics/

Sollten Sie Interesse und/oder Fragen haben, melden Sie sich bitte via e-mail oder telefonisch zur Vereinbarung eines unverbindl. Informationsgesprächs - Ich stehe gerne für weitere Auskünfte zur Verfügung.

mit vielen Grüssen,

Markus Strohmaier

Development of a large scale RDF(S) Repository using Hadoop/HBase

Semantic Web Languages and their management become more and more important. The Linked Data initiative has made a large number of RDF data avaialable in the web. However, this is only a small part of data which could be available.

Today, tools managing large, world scale rdf repositories are not existing or lack in reasoning support. On the other hand, Google & Co have proofen to be able to handle unstructured and semi-structured information on such a scale. They approache the scalability problem with so called Map-Reduce approach and with column oriented, distributed databases named BigTable. Within an Apache project, those technologies have been implemented in the Open Source Projects called Hadoop resp. HBASE.

The goal of this topic is to use HBASE for managing RDF data and to evaluate scalability aspects in doing so. Implementation language will be Java and you should know the basics about RDF/RDF(S) or have the attitude to learn about those things.

In this project we may offer the possibility to work also with cloud computing technologies, depending on your success.

Semantic Web & Open Linked Data

Linked Open Data (LOD) is an initative to interlink data sources available in the web by using semantic web technologies, in particular RDF. It targets to establish a Web of data, similar to the Web of documents today.
In their work, students can explore the following topics

  1. Develop a application scenario using LOD data and implement a web application therefore
  2. Develop a web service & web application to semi-automatically create links between different LOD repositories
  3. Develop and analyse ontology alignment algorithms for automaticall creating links between different LOD repositories
  4. Discovery and add new data sets and interlink them with the LOD cloud (see for example RIESE)
  5. Analyse the quality of LOD repositories and their interlinkage

Relevant Literature:

Bizer C, Heath T, Berners-Lee T. Linked data–the story so far. International Journal on Semantic Web and Information Systems. 2009. Available at: http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf

Shadbolt N, Berners-Lee T, Hall W. The Semantic Web Revisited. IEEE Intelligent Systems. 2006;21(3):96-101. Available at: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1637364.

Plagiarism Analysis & Misuse Detection

With the growing amount of information its quality decreases. Furthermore, the populartiy of social networks offers a broad field for misuse, ranging form simple spam to user masquarades. Within this topic, students should explore either plagiarism analysis or misuse in social networks. Work covers the development of services countering misuse or plagiarism detection or the analysis of respective data set and new algorithms.

Details, data sets and algorithms on the topic can be found on the PAN09 Workshop site.

BakkArbeit Vorlagen

Vorlagen fuer Bakkarbeiten am Institut wurden unter diesem Link hinzugefuegt.

Web Page Cleaning and Blog Extraction

Web-Seiten sind zur Darstellung von Information für den Menschen optimiert. Die maschinelle Verarbeitung von Web Seiten erweist sich dadurch als schwierig und benötigt spezielle Techniken zur Extraktion relevanter Teile einer Webseite. Für die maschinelle Verarbeitung von Blogs sollten die eigentlich Blog-Einträge und Kommentare von Werbeeinblendungen und Navigationselementen getrennt werden.

Ziel der Arbeit ist die Entwicklung eines Algorithmus zur Analyse des DOM Baums einer HTML Seite und der Trennung in Blogs, Kommentare und nicht relevante Element. Der Algorithmus soll dabei auf unterschiedliche Statistiken wie Anzahl der Wörter im DOM Element, Anzahl der Links im DOM Element etc. zurück greifen. Die Entwicklung erfolgt in Java unter Einsatz von Open Source Bibliotheken.

Links zu relevanter Literatur:

  1. http://trec.nist.gov/pubs/trec15/papers/umbc-jhu.blog.final.pdf
  2. http://portal.acm.org/citation.cfm?doid=1046456.1046459

Sentiment Detection in Blogs

Sentiment Detection bezeichnet die Erkennung von Stimmungen und Ausrichtungen von Meinungen in Texten. Anwendung findet diese Technik z.B. in der Analyse von Blog-Kommentaren, in der Blog-Suche oder der Ssozialen Netzwerkanalyse.

Ziel des vorliegenden Themas ist die Entwicklung eines Web Services zur Annotation von Sentiments in Web Seiten. Das Ergebnis des Prozesses soll als JSON oder RDF zu Verfügung gestellt werden.

Entwicklung erfolgt in Java und unter Verwendung von Open Source Bibliotheken zur Verarbeitung natürlicher Sprache wie z.B. Mallet oder OpenNLP. Diese Bibliotheken arbeiten auf Basis maschineller Lerntechniken (MAximum Entropy basierte modelle, Conditional Random Fields).

Links:

  1. Sentiment Detection Survey: http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html
  2. Mallet: mallet.cs.umass.edu/
  3. OpenNLP: http://opennlp.sourceforge.net/

Eine Übersicht über Bakk-Arbeitsthemen für SS09

finden sich unter der entsprechenden Seite auf diesem Blog.