Computerwelt: Aktuelle IT-News Österreich


19.09.2013 :: Printausgabe 19/2013 :: pi/Wolfgang Franz

Web Intelligence: Doppeldeutigkeit im Griff

MODUL University Vienna macht mit neuer Methode Zweideutigkeiten automatisch erkennbar.

Arno Scharl, MODUL University Vienna

Arno Scharl, MODUL University Vienna

© MODUL University Vienna

Das Team um Arno Scharl, Leiter des Instituts für Neue Medientechnologie an der MODUL University Vienna, befasst sich mit einem bekannten Problem: Die automatische Interpretation von Begriffen, deren Bedeutung vom Kontext des Begriffes verändert wird. So lässt z. B. das Wort "Beschwerde" bei einer Hotelbewertung im Internet schon Böses ahnen. Anders ist das aber, wenn es lautet: "Meine einzige Beschwerde wäre ...". Ein konstruktiver Kritikpunkt ergänzt hier eine positive Beurteilung. Dazu Scharl: "Einfache Systeme zur Bestimmung von Sentiment erkennen einen Wandel der sogenannten Polarität vom Negativen ins Positive nicht."

Zentraler Aspekt der nun veröffentlichten Methode ist die Erstellung sogenannter "Contextualized Sentiment Lexicons". Diese Datenbanken verbinden Begriffe, die Stimmungen ausdrücken und in ihrer ­Polarität gedreht werden können, mit ­solchen, deren Polarität konstant ist. Zum Erstellen dieser Lexika werden zunächst doppeldeutige Begriffe identifiziert. Dazu greift die Lösung auf Texte zurück, deren Stimmungen zuvor schon als positiv oder negativ kategorisiert wurden. Dann werden in diesen Texten die Häufigkeiten ­jener Begriffen erfasst, die Stimmungen ausdrücken können. Begriffe, die in positiven und negativen Texten annähernd gleich häufig auftreten, erhalten die Kategorie "doppeldeutig".

Der zweite Schritt der Erstellung des "Contextualized Sentiment Lexicons" identifiziert die Häufigkeit von Wörtern, die gemeinsam mit dem jeweiligen doppeldeutigen Begriff vorkommen – wobei das System differenziert, ob dies in einem positiven oder negativen Kontext geschieht. Kommt also z. B. der Begriff "Beschwerde" in positiven Texten häufig in Zusammenhang mit "einzige" vor, so wird dieser Zusammenhang gespeichert. Bei der Analyse eines unbekannten Textes erkennt die Methode, dass der Begriff in diesem Kontext positiv gemeint ist. "Alle doppeldeutigen Begriffe eines Textes werden so mit einem Wert versehen, der Auskunft über die Polarität und die Stärke der ausgedrückten Stimmung gibt", erläutert Scharl. "Die Werte doppeldeutiger Begriffe eines Textes werden mit vergleichbaren Werten eindeutiger Begriffe aufsummiert. Diese Summe reflektiert die Stimmung des Gesamtdokuments."

Ein wesentlicher Vorteil der neuen Methode ist auch, dass sie unabhängig von der Art des Textes funktioniert. Vergleichbare existierende Systeme werden z. B. für Filmreviews optimiert und scheitern dann bei der Analyse von z. B. Produktbewertungen. Die an der MODUL University Vienna entwickelte Methode analysiert jedoch unterschiedlichste Textarten, um Gemeinsamkeiten zu finden, die allgemein anwendbar sind. Gerade dieser Vorteil ist auch auf umfangreiche Technologien zurückzu­führen, die an dem österreichischen Forschungs- und Lehrinstitut in den letzten Jahren entwickelt und international eingesetzt wurden. (pi/su)

Diesen Artikel

Bewertung:

Übermittlung Ihrer Stimme...
Noch nicht bewertet. Seien Sie der Erste, der diesen Artikel bewertet!
Klicken Sie auf den Bewertungsbalken, um diesen Artikel zu bewerten.
  Sponsored Links:

comments powered by Disqus
   

IT-News täglich per Newsletter

E-Mail:
Weitere CW-Newsletter

Werden Sie CW-Premium User

Whitepaper downloaden, Printausgabe online lesen, Merkliste, Kommentieren, Ask Experts, News Alerts, Vorteilszone.

kostenlos registrieren

Zum Thema