- Anzeige -


Sie sind hier: Startseite » Fachartikel » Hintergrund

Suche ist Kommunikation


Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang
Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben


Von DI Jakob Praher, technischer Leiter bei der Mindbreeze GmbH

(24.07.13) - Als Tim Berners-Lee im März 1989 ein Paper mit dem Namen "A Large Hypertext Database with Typed Links" veröffentliche, legte er damit nicht nur die Grundsteine für das heutige World Wide Web und darüber hinaus das Semantic Web, sondern auch für den damit einhergehenden Siegeszug von Suchmaschinen. Durch die dezentrale Organisation wurde es notwendig die Information des Webs zu crawlen und indizieren und Suche als Dienst im Web anzubieten.

Suche ist Kommunikation. Der Benutzer stellt eine Anfrage mit einem bestimmten Ziel oder Bedürfnis und erhält eine Antwort in Form von Treffern auf eine Datenbasis, die meist nach der Relevanz gemäß einem Modell gereiht sind. Dabei sollen die Top-Treffer jene sein, die für den Benutzer am relevantesten sind. Um die Richtigkeit und Genauigkeit der Treffer und deren Relevanzbewertung für den Benutzer zu verbessern, wird die Rolle von künstlicher Intelligenz im Suchprozess immer wichtiger. Das Verstehen der Bedeutung setzt dabei auf mehreren Ebenen an. Zum einen ist wichtig die Absicht bzw. das Ziel des Benutzers zu verstehen. Auf der anderen Seite gilt es die Beziehungen und den Kontext der Begriffe in der Datenbasis zu verstehen. Dabei ist Verstehen der Bedeutung natürlich sprachlicher Information ein komplexer Vorgang. In der griechischen Tradition liegt die Bedeutung eines Satzes und dessen Komponenten in der Absicht des Sprechers eine Vorstellung beim Zuhörer zu erzeugen. In dieser Definition gibt es keine eindeutige und allgemeingültige Interpretation natürlicher Sprache.

Jüngste Entwicklungen im Bereich der semantischen Werkzeuge stehen in direktem Zusammenhang mit der Entwicklung maschinellen Lernens und dem Umgang mit großen Datenmengen. Im IEEE-Artikel "The Unreasonable Effectiveness of Data" haben die Google Researcher Alon Halevy, Peter Norvig und Fernando Pereira ein Manifest für "Big Data Analytics" und "Unsupervised Learning" verfasst. Die klare Erkenntnis ist, dass eine große Datenmenge der beste Verbündete in der Verarbeitung natürlicher Sprache ist.

Einen großen Teil der Information im Web bilden heute generierte Seiten aus strukturierten Daten. Semantische Modelle aus der Ein- und Ausgabe solcher Webdienste zu extrahieren hat Craig Knoblock in seiner Keynote mit dem Titel "Discovering and Building Semantic Models of Web Sources in der Euorpean Semantic Web Conference (ESWC) 2009" vorgestellt. Zum Beispiel ist die berechnete oder generierte Antwort eines Wetterportals zu einer bestimmten Zeit nur von der Angabe des Orts abhängig. Die Wetterinformation folgt dabei einem speziellen Vokabular. Aus der Ein- und Ausgabe, soll die bedeutungsändernde Beziehung erkannt und danach ein Modell extrahiert werden.

Da die Weiterverarbeitung von Webinhalten durch Maschinen immer wichtiger wird, betten viele Anwendungen deren strukturierte Daten direkt in die Webseiten ein. In HTML einbettbare, präsentationsneutrale Metaformate wie z.B. Microdata, Microformats, RDFa, Open Graph oder Schema.org, bieten Vokabulare unter anderem für Ereignisse, Personen und Organisationen, soziale Beziehungen, Produkte, Lebensläufe, Rezepte usw. an.

Eine besondere Form semantischer Suchmaschinen sind sogenannte Question-Answering-Systeme, die Fragen direkt in natürlicher Sprache strukturiert beantworten. Als populärer Vertreter dieser Systeme sorgte im Februar 2011 IBM Watson, entwickelt vom IBM DeepQA Research Projekt unter der Leitung von David Ferrucci, für weltweites Aufsehen. Als Challenge trat das System gegen menschliche Gegner in der Live-Fernsehquizshow Jeopardy! an, wo es sogar den 74-maligen Jeopardy-Sieger Ken Jennings besiegte und den ersten Platz gewann.

Suche - Das Ziel hinter der Anfrage verstehen
Zwar ist die durchschnittliche Länge einer Suchanfrage laut einer Studie aus 2011 von 2,4 auf drei Worte gestiegen und auch geht die Anzahl von Einwortsuchen drastisch zurück, Suchanfragen sind in der Regel dennoch recht knapp formulierte Anweisungen an die Suchmaschine. Dabei ist die Suchanfrage nur der Ausdruck des eigentlichen Ziels, das mit einer Suche beabsichtigt wird. Der dahinterliegende Zweck bestimmt die subjektive Relevanz eines Suchergebnisses. Die Suche wird bedingt durch ein Ziel abgesetzt.

In seiner Taxonomie von Websuchen unterscheidet Andrei Broder drei wesentliche Arten von Anfragen. Sucht der Benutzer zum Zweck der Navigation, dann ist das dahinterliegende Ziel der Suche möglichst auf schnellstem und direktem Weg auf eine bestimmte Site zu gelangen. Sucht man nach Information, nimmt der Benutzer an, Treffer zu dieser Anfrage zu finden. Da heute viele Aufgaben bereits Online erledigt werden, ändert sich auch das Suchverhalten. In vielen Fällen möchte der Benutzer einen Job erledigen, wie zB Einkauf von Waren, Herunterladen von Daten, Durchführen einer Überweisung, etc. Diesen Suchen sind transaktionale Suchen.

Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang. Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben.

Adaptive Systeme – Mit der Maschine in Dialog treten
Anwender wissen aus eigener Erfahrung, dass Suche ein mehrstufiger Prozess ist und dass sich gerade während dem Vorgang die Ausgangslage oft ändert. Während einer Recherche werden hintereinander inhaltlich und oder syntaktisch ähnliche Suchen abgesetzt. Semantische Suche kann Abhilfe schaffen, in dem zeitliche oder räumliche Fakten oder auch begriffliche Beziehungen erkannt werden und die Suchergebnisse automatisch ausgeweitet oder eingeschränkt werden können. Dennoch kann auch hier der Benutzer durch neue Erkenntnisse seine Absichten ändern. Diesen Prozess als Ganzes zu unterstützen ist ein wesentlicher Punkt einer intelligenten Suche. Im "IBM QA System Watson" wird zur finalen Entscheidungsfindung maschinelles Lernen verwendet. Fragen verknüpft mit bekannten Antworten werden auf das berechnete Bewertungsprofil trainiert, das später für die Klassifizierung verwendet wird.

Bei einer Suchmaschine kann kein allgemeingültiges Modell verwendet werden, um Relevanz zu klassifizieren. Personalisierte Suche wird heute von populären Suchmaschinen wie Bing oder Google praktiziert. Im Umgang mit diesen Systemen sieht man schon, dass Transparenz ein wichtiges Kriterium für den Benutzer ist. Wenn die sogenannte Präzision auf Kosten der Erinnerung geht, stellt man sich Fragen wie, gibt es zu einer Anfrage genau die präsentierten Treffer, oder hat die Suchmaschine bereits vorher die Relevanzkriterien geändert? Der Benutzer als Subjekt muss auch in diese Entscheidungen eingebunden werden.

Open Information Extraction
Das traditionellen Information Extraction (IE), soll durch Open Information Extraction (OIE) einen Paradigmenwechsel erfahren. Bei OIE soll nur einer bzw. wenige Durchläufe über den Korpus verwendet werden, um möglichst automatisch eine große Anzahl von Aussagen über Entitäten zu extrahieren. Es soll dabei neutral zu Fachgebieten vorgegangen werden. Dadurch soll IE im Web anwendbar gemacht werden. Das OIE System TextRunner besteht aus einem Learner, einem Extractor und einem Assessor. So wird zwar beim Extractor auf das Parsen verzichtet, der Learner verwendet jedoch einen Parser, um für den Extractor ein Modell zu trainieren. Extrahiert werden Trippel, die eine Beziehung zwischen zwei Entitäten abbilden.

Der Learner produziert einen sprachspezifischen aber domänenunabhängigen Klassifizierer. Der Extractor macht einen Durchlauf über den Inhalt und weist den Wörtern automatisch die wahrscheinlichste Part-Of-Speech Information zu. Beziehungen werden durch Text zwischen Hauptwortphrasen gefunden. Jede gefundene Beziehung wird dem gelernten Klassizierer übergeben, der diese auf die Vertrauenswürdigkeit untersucht. Das TextRunner System bietet neben der Extraktion auch direkt die Möglichkeit Suchen in Form von Trippel durchzuführen. Das Turing Center der Universität Washington betreibt ein Suchportal, mit dem man in den extrahierten Informationen aus dem Web suchen kann.

Entity Linking - Extrahierte Fakten mit Wissensbasen vernetzten
Entity Linking ist der Vorgang aus Text extrahierte Entitäten mit der passenden Entität in einer existierenden Wissensbasis zu verlinken. Beim Entity Linking gilt es textuelle Repräsentation wie Big Apple z.B. mit dem Wikipedia Eintrag für New York zu verbinden. Verbunden wird eine im Text vorkommende Entität mit einem Objekt in der Wissensbasis, wenn es eine Ähnlichkeit des Kontexts im Text und dem Eintrag in der Wissensbasis gibt. In der Arbeit LINDEN: Linked Named Entities with Knowledge Base via Semantic Knowledge wird YAGO, eine Wissensbasis des Max Planck Institutes in Saarbrücken verwendet. Ein weiteres Anwendungsgebiet von Entity Linking ist Entity Search das die verlinkten Entities mit einem sogenannte EntityRank versieht.

Fazit
Mit der Verfügbarkeit des Webs als weltumspannende Datenbasis und Rechenkapazitäten, die diese Daten verarbeiten können, entstehen neue Möglichkeiten, die über derzeitige Suchmöglichkeiten hinausgehen. Wikipedia, Freebase und weltweite soziale Netzwerke bilden Wissensbasen, die das Entschlüsseln von Bedeutungen vereinfachen. Semantische Werkzeuge ändern bereits die Suche von heute, werden aber sicherlich noch kommende Generationen dominieren.

Der Autor: DI Jakob Praher
DI Jakob Praher arbeitet als technischer Leiter bei der Mindbreeze GmbH. Dort beschäftigt er sich mit Information Extraction und der Architektur der Mindbreeze-Suchmaschine sowie dahinterliegenden innovativen Algorithmen und Datenstrukturen.

Literatur

Wikipedia DE. Web. 26.02.2013. Semantik, http://de.wikipedia.org/wiki/Semantik,
Wikipedia EN. Web. 26.02.2013. Semantic search, http://en.wikipedia.org/wiki/Semantic_search
Tim Berners-Lee. Web. 28.02.2013. http://www.w3.org/History/1989/proposal.html,
D. Downey, S. Dumais, D. Leibling, E. Horvitz. October 2008. Understanding the Relationship between Searchers’ Queries and Information Goals
Uichin Lee and Zhenyu Liu and Junghoo Cho. 2005. Automatic Identification of User Goals in Web Search
David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, Chris Welty. , AI MAGAZINE, Vol. 31, No. 3. (September 2010), pp. 59-79. Building Watson: An Overview of the DeepQA Project
Fabian M. Suchanek and Gerhard Weikum, YAGO - Search for Knowledge instead of Webpages, (German, English) Article in the year book of the Max Planck Society 2007
Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706. DOI=10.1145/1242572.1242667 http://doi.acm.org/10.1145/1242572.1242667
Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni, 2007. Open Information Extraction from the Web
Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, USA.
(Mindbreeze: ra)

Mindbreeze: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.

- Anzeigen -





Kostenloser Compliance-Newsletter
Ihr Compliance-Magazin.de-Newsletter hier >>>>>>



Meldungen: Hintergrund

  • Cloud: Datensicherheit & Angriffsszenarien

    "Ihr Konto wurde gehackt!" Nachrichten mit diesen oder ähnlichen Betreffzeilen entlocken den meisten Nutzern nur noch ein müdes Lächeln. Derartige E-Mails von breit angelegten Phishing-Kampagnen, die meist schon durch ein äußerst zweifelhaftes Design auffallen, werden in der Regel unmittelbar aussortiert. Eine weitaus höhere Erfolgsquote verspricht jedoch die Kombination von Phishing mit Cloud Computing-Anwendungen. Die Aussicht, mit nur einer erfolgreichen E-Mail eine Vielzahl verwertbarer Daten zu erbeuten, ist für Cyberkriminelle Motivation genug, die Angriffstechniken weiter zu verfeinern und zielgerichteter vorzugehen. Für Unternehmen ein Grund, sich im Rahmen ihrer Datensicherheitsstrategie näher mit diesem Angriffsszenario auseinanderzusetzen.

  • Mit Cloud ERP ins internationale Geschäft

    Immer mehr auch mittelständische Unternehmen eröffnen oder besitzen internationale Niederlassungen. Doch unterschiedliche Gesetze, Buchhaltungsregeln und Sprachen erschweren die Organisation. Die Firmen können deshalb Cloud-ERP-Lösungen einsetzen, die sowohl konzern- als auch landesspezifische Besonderheiten sowie Compliance-Richtlinien berücksichtigen. Auch bei M&A-Projekten ist Cloud-ERP nützlich und es hilft, "burning platforms" zu vermeiden. Ob Konzerne oder Mittelstand: Alle nutzen die Möglichkeiten des internationalen Geschäfts. Entweder sie exportieren Waren und Produkte oder sie gründen oder unterhalten Niederlassungen in anderen Ländern. Doch das internationale Geschäft hält auch die eine oder andere Herausforderung bereit. Die Unternehmen müssen unterschiedliche Gesetzgebungen oder Buchhaltungsregeln einhalten und sich auf fremde Finanzsysteme und Sprachen einstellen. Sie sehen sich mit unterschiedlichen Ansprüchen von Finanzbehörden und anderen Institutionen konfrontiert.

  • Zukunft der KI-Lösungen in der Cloud

    Der Einsatz künstlicher Intelligenz (KI) lässt Unternehmen derzeit hoffen, mit der wachsenden Zahl komplexer Bedrohungen und ihren immer ausgefeilteren Methoden wieder Schritt halten zu können. Diskutiert wird allerdings zuweilen, warum die entsprechenden Lösungen unbedingt Cloud-basiert sein müssen. Könnte man die entsprechenden KI-Instanzen nicht auch lokal implementieren? Tatsächlich ist die Cloud als Basis aber ein Architekturelement, das zur Stärke der modernen Lösungen entscheidend beiträgt. Ein Blick auf die Gesamtsituation klärt, warum dies so ist.

  • Viele Banken & Versicherungen setzen auf die Cloud

    Die Anforderungen der digital affinen Verbraucher sowie das steigende Risiko von Cyber-Attacken setzen Banken und Versicherungen zunehmend unter Druck,sich zu verändern. Längst haben sich digitale Technologien von "nice-to-have" zum absoluten Muss entwickelt und Unternehmen müssen ihre Technologieinfrastrukturen von Grund auf überdenken - andernfalls riskieren sie, von der Konkurrenz überholt zu werden. Online-Shopping und -Banking kamen ungefähr zur gleichen Zeit Mitte der 1990er Jahre auf, wobei der Einzelhandel bei der Entwicklung und der Einführung neuer Technologien die Nase vorne hatte und das Shopping-Erlebnis sowohl im Ladengeschäft als auch online unter anderem durch QR Codes, Augmented Reality und Social Media-Plattformen auf ein neues Niveau hob. Banken und Versicherungen waren hier schon etwas zögerlicher und wurden oftmals von ihren schwerfälligen Technologieinfrastrukturen und den Grenzen unflexibler, veralteter Software zurück gehalten. Damit konnten sie auch mit den Anforderungen modernster Cloud-basierter und mobiler Anwendungen nicht Schritt halten.

  • Wie man sich in der Cloud "verlaufen" kann

    Gebetsmühlenartig predigen die Analysten und die IT-Industrie die unendlichen Vorteile von Cloud-Lösungen. Doch nun nimmt die Technologie auch de facto Fahrt auf: IT-Abteilungen passen ihre Budgets auch entsprechend an. Gerade erst hat eine Bitglass-Umfrage von 92 internationalen CIOs und IT-Chefs ergeben, dass 55 Prozent der Befragten eine "Cloud first"-Strategie auf ihrer Agenda haben. Das Cloud-basierte Software-as-a-Service (SaaS)-Modell hat für viele Unternehmen große Vorteile. Der schnelle Einsatz von gebrauchsfertigen Systemen ist erschwinglich, lässt sich einfach anpassen und bietet die Möglichkeit, insbesondere neue Ideen im Kontext der digitalen Transformation schnell und unkompliziert umzusetzen. Unternehmen können auf diese Weise viel einfacher neue Anwendungslösungen implementieren.

  • Storage in der OpenStack-Ära

    Der Aufstieg von OpenStack, dem Open Source Framework für Private und Public Clouds, ist seit seinem Beginn 2010 äußerst bemerkenswert. Die Plattform ist zu einem echten Phänomen geworden und mehr als 500 Firmen, darunter einige Schwergewichte der IT, sind der OpenStack Foundation bereits beigetreten. Bereits jetzt unterstützen alle wichtigen Hypervisoren und eine große Anzahl an Speicherlösungen OpenStack, darunter Ceph, NetApp, Tintri, EMC Solidfire, LVM und GlusterFS. Unternehmen, die mit dem Gedanken spielen, für ihre neue Cloud-Architektur auf OpenStack zu setzen, benötigen jedoch den richtigen Unterbau, um die Vorteile voll nutzen zu können. Eine Frage ist auch bei OpenStack von zentraler Bedeutung: Wie sieht der ideale Speicher aus?

  • Kann die Private Cloud das Problem lösen?

    Jeder, der in einer Büroumgebung arbeitet, kennt die Situation: Ein digitales Dokument muss dringend zum Kunden und die Deadline naht bedrohlich. Die Datei ist aber zu groß für eine E-Mail und derjenige, der den FTP-Server verwaltet ist natürlich gerade im Urlaub. Wer praktisch und lösungsorientiert denkt und sich mit moderner Technologie auskennt wird bei der Lösung des Problems unweigerlich auf cloud-basierte Angebote wie Dropbox, Box oder andere stoßen. Das Hochladen der Daten ist einfach und im Handumdrehen geschehen. Der Kunde hat seine Daten und die meisten Mitarbeiter würden jetzt normalerweise ein anerkennendes Schulterklopfen erwarten, anstatt einer Abmahnung oder sogar einer fristlosen Entlassung.

  • Automatisiert in die Cloud sichern

    Rasant wachsende Datenmengen sowie die steigende Abhängigkeit der Unternehmen von ihren operativen Daten setzen die IT-Abteilung gewaltig unter Druck. CIOs müssen daher ihre Strategie für das Datenmanagement den veränderten Realitäten anpassen. Ein mögliches Werkzeug hierfür sind IT-Ressourcen aus der Cloud, die in die Backup- und Storage-Infrastruktur eingebunden werden. Die IT-Abteilung kann es sich nicht mehr leisten, auf die Cloud zu verzichten. Immer mehr Unternehmen in Deutschland setzen mittlerweile auf diese Technologie. In der Studie "Cloud-Monitor 2015" von KPMG und Bitkom vermelden die Analysten, dass bereits 44 Prozent der deutschen Unternehmen IT-Leistungen aus der Cloud beziehen. Weitere 24 Prozent planen oder diskutieren noch über den Einsatz. Dabei sind die gemachten Erfahrungen durchweg positiv, wie bis zu 78 Prozent der Befragten berichten.

  • eDiscovery in der Cloud: Flexibilität & Sicherheit

    Gerade erst verurteilte das französische Kartellamt elf Lebensmittelhersteller zu insgesamt 200 Millionen Euro Strafe wegen eines Joghurt-Kartells. Damit zählen die in diesem Fall verhängten Bußgelder zu den höchsten, die jemals wegen unzulässiger Preisabsprachen auferlegt wurden. Die Beteiligung an illegalen Preis- und Angebotsabsprachen führt nicht nur zu einem wirtschaftlichen Schaden durch horrende Bußgelder, sondern auch zu Verlusten durch verloren gegangene Geschäfte, die aus dem angekratzten Image resultieren. Eine aktuelle Studie im Auftrag des E-Discovery-Anbieterin Recommind belegt, dass deutsche Unternehmen tatsächlich viel Wert auf ihre Reputation legen: 75 Prozent der Befragten implementieren Compliance-Maßnahmen, um das Vertrauen nach außen hin zu erhalten.

  • Projekte mit Managementsoftware optimieren

    Die Anforderungen an Projektmanager sind hoch: Sie müssen nicht nur Budgets, Ressourcen und Aufgaben zentral verwalten, sondern auch schnelle Entscheidungen treffen. Dazu sollten alle notwendigen Daten zentral an einem Ort verfügbar sein und von den Verantwortlichen jederzeit abgerufen werden können. Moderne Projektmanagementsoftware erfüllt diese zentralen Anforderungen und ist daher aus dem Alltag nicht mehr wegzudenken. Besonders international tätige mittelständische Dienstleistungsunternehmen optimieren mit einer solchen Applikation ihre Prozesse, sparen eine Menge Zeit und schaffen mehr Raum für die eigentliche Projektarbeit.