- Anzeige -


Sie sind hier: Startseite » Fachartikel » Hintergrund

Suche ist Kommunikation


Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang
Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben


Von DI Jakob Praher, technischer Leiter bei der Mindbreeze GmbH

(24.07.13) - Als Tim Berners-Lee im März 1989 ein Paper mit dem Namen "A Large Hypertext Database with Typed Links" veröffentliche, legte er damit nicht nur die Grundsteine für das heutige World Wide Web und darüber hinaus das Semantic Web, sondern auch für den damit einhergehenden Siegeszug von Suchmaschinen. Durch die dezentrale Organisation wurde es notwendig die Information des Webs zu crawlen und indizieren und Suche als Dienst im Web anzubieten.

Suche ist Kommunikation. Der Benutzer stellt eine Anfrage mit einem bestimmten Ziel oder Bedürfnis und erhält eine Antwort in Form von Treffern auf eine Datenbasis, die meist nach der Relevanz gemäß einem Modell gereiht sind. Dabei sollen die Top-Treffer jene sein, die für den Benutzer am relevantesten sind. Um die Richtigkeit und Genauigkeit der Treffer und deren Relevanzbewertung für den Benutzer zu verbessern, wird die Rolle von künstlicher Intelligenz im Suchprozess immer wichtiger. Das Verstehen der Bedeutung setzt dabei auf mehreren Ebenen an. Zum einen ist wichtig die Absicht bzw. das Ziel des Benutzers zu verstehen. Auf der anderen Seite gilt es die Beziehungen und den Kontext der Begriffe in der Datenbasis zu verstehen. Dabei ist Verstehen der Bedeutung natürlich sprachlicher Information ein komplexer Vorgang. In der griechischen Tradition liegt die Bedeutung eines Satzes und dessen Komponenten in der Absicht des Sprechers eine Vorstellung beim Zuhörer zu erzeugen. In dieser Definition gibt es keine eindeutige und allgemeingültige Interpretation natürlicher Sprache.

Jüngste Entwicklungen im Bereich der semantischen Werkzeuge stehen in direktem Zusammenhang mit der Entwicklung maschinellen Lernens und dem Umgang mit großen Datenmengen. Im IEEE-Artikel "The Unreasonable Effectiveness of Data" haben die Google Researcher Alon Halevy, Peter Norvig und Fernando Pereira ein Manifest für "Big Data Analytics" und "Unsupervised Learning" verfasst. Die klare Erkenntnis ist, dass eine große Datenmenge der beste Verbündete in der Verarbeitung natürlicher Sprache ist.

Einen großen Teil der Information im Web bilden heute generierte Seiten aus strukturierten Daten. Semantische Modelle aus der Ein- und Ausgabe solcher Webdienste zu extrahieren hat Craig Knoblock in seiner Keynote mit dem Titel "Discovering and Building Semantic Models of Web Sources in der Euorpean Semantic Web Conference (ESWC) 2009" vorgestellt. Zum Beispiel ist die berechnete oder generierte Antwort eines Wetterportals zu einer bestimmten Zeit nur von der Angabe des Orts abhängig. Die Wetterinformation folgt dabei einem speziellen Vokabular. Aus der Ein- und Ausgabe, soll die bedeutungsändernde Beziehung erkannt und danach ein Modell extrahiert werden.

Da die Weiterverarbeitung von Webinhalten durch Maschinen immer wichtiger wird, betten viele Anwendungen deren strukturierte Daten direkt in die Webseiten ein. In HTML einbettbare, präsentationsneutrale Metaformate wie z.B. Microdata, Microformats, RDFa, Open Graph oder Schema.org, bieten Vokabulare unter anderem für Ereignisse, Personen und Organisationen, soziale Beziehungen, Produkte, Lebensläufe, Rezepte usw. an.

Eine besondere Form semantischer Suchmaschinen sind sogenannte Question-Answering-Systeme, die Fragen direkt in natürlicher Sprache strukturiert beantworten. Als populärer Vertreter dieser Systeme sorgte im Februar 2011 IBM Watson, entwickelt vom IBM DeepQA Research Projekt unter der Leitung von David Ferrucci, für weltweites Aufsehen. Als Challenge trat das System gegen menschliche Gegner in der Live-Fernsehquizshow Jeopardy! an, wo es sogar den 74-maligen Jeopardy-Sieger Ken Jennings besiegte und den ersten Platz gewann.

Suche - Das Ziel hinter der Anfrage verstehen
Zwar ist die durchschnittliche Länge einer Suchanfrage laut einer Studie aus 2011 von 2,4 auf drei Worte gestiegen und auch geht die Anzahl von Einwortsuchen drastisch zurück, Suchanfragen sind in der Regel dennoch recht knapp formulierte Anweisungen an die Suchmaschine. Dabei ist die Suchanfrage nur der Ausdruck des eigentlichen Ziels, das mit einer Suche beabsichtigt wird. Der dahinterliegende Zweck bestimmt die subjektive Relevanz eines Suchergebnisses. Die Suche wird bedingt durch ein Ziel abgesetzt.

In seiner Taxonomie von Websuchen unterscheidet Andrei Broder drei wesentliche Arten von Anfragen. Sucht der Benutzer zum Zweck der Navigation, dann ist das dahinterliegende Ziel der Suche möglichst auf schnellstem und direktem Weg auf eine bestimmte Site zu gelangen. Sucht man nach Information, nimmt der Benutzer an, Treffer zu dieser Anfrage zu finden. Da heute viele Aufgaben bereits Online erledigt werden, ändert sich auch das Suchverhalten. In vielen Fällen möchte der Benutzer einen Job erledigen, wie zB Einkauf von Waren, Herunterladen von Daten, Durchführen einer Überweisung, etc. Diesen Suchen sind transaktionale Suchen.

Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang. Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben.

Adaptive Systeme – Mit der Maschine in Dialog treten
Anwender wissen aus eigener Erfahrung, dass Suche ein mehrstufiger Prozess ist und dass sich gerade während dem Vorgang die Ausgangslage oft ändert. Während einer Recherche werden hintereinander inhaltlich und oder syntaktisch ähnliche Suchen abgesetzt. Semantische Suche kann Abhilfe schaffen, in dem zeitliche oder räumliche Fakten oder auch begriffliche Beziehungen erkannt werden und die Suchergebnisse automatisch ausgeweitet oder eingeschränkt werden können. Dennoch kann auch hier der Benutzer durch neue Erkenntnisse seine Absichten ändern. Diesen Prozess als Ganzes zu unterstützen ist ein wesentlicher Punkt einer intelligenten Suche. Im "IBM QA System Watson" wird zur finalen Entscheidungsfindung maschinelles Lernen verwendet. Fragen verknüpft mit bekannten Antworten werden auf das berechnete Bewertungsprofil trainiert, das später für die Klassifizierung verwendet wird.

Bei einer Suchmaschine kann kein allgemeingültiges Modell verwendet werden, um Relevanz zu klassifizieren. Personalisierte Suche wird heute von populären Suchmaschinen wie Bing oder Google praktiziert. Im Umgang mit diesen Systemen sieht man schon, dass Transparenz ein wichtiges Kriterium für den Benutzer ist. Wenn die sogenannte Präzision auf Kosten der Erinnerung geht, stellt man sich Fragen wie, gibt es zu einer Anfrage genau die präsentierten Treffer, oder hat die Suchmaschine bereits vorher die Relevanzkriterien geändert? Der Benutzer als Subjekt muss auch in diese Entscheidungen eingebunden werden.

Open Information Extraction
Das traditionellen Information Extraction (IE), soll durch Open Information Extraction (OIE) einen Paradigmenwechsel erfahren. Bei OIE soll nur einer bzw. wenige Durchläufe über den Korpus verwendet werden, um möglichst automatisch eine große Anzahl von Aussagen über Entitäten zu extrahieren. Es soll dabei neutral zu Fachgebieten vorgegangen werden. Dadurch soll IE im Web anwendbar gemacht werden. Das OIE System TextRunner besteht aus einem Learner, einem Extractor und einem Assessor. So wird zwar beim Extractor auf das Parsen verzichtet, der Learner verwendet jedoch einen Parser, um für den Extractor ein Modell zu trainieren. Extrahiert werden Trippel, die eine Beziehung zwischen zwei Entitäten abbilden.

Der Learner produziert einen sprachspezifischen aber domänenunabhängigen Klassifizierer. Der Extractor macht einen Durchlauf über den Inhalt und weist den Wörtern automatisch die wahrscheinlichste Part-Of-Speech Information zu. Beziehungen werden durch Text zwischen Hauptwortphrasen gefunden. Jede gefundene Beziehung wird dem gelernten Klassizierer übergeben, der diese auf die Vertrauenswürdigkeit untersucht. Das TextRunner System bietet neben der Extraktion auch direkt die Möglichkeit Suchen in Form von Trippel durchzuführen. Das Turing Center der Universität Washington betreibt ein Suchportal, mit dem man in den extrahierten Informationen aus dem Web suchen kann.

Entity Linking - Extrahierte Fakten mit Wissensbasen vernetzten
Entity Linking ist der Vorgang aus Text extrahierte Entitäten mit der passenden Entität in einer existierenden Wissensbasis zu verlinken. Beim Entity Linking gilt es textuelle Repräsentation wie Big Apple z.B. mit dem Wikipedia Eintrag für New York zu verbinden. Verbunden wird eine im Text vorkommende Entität mit einem Objekt in der Wissensbasis, wenn es eine Ähnlichkeit des Kontexts im Text und dem Eintrag in der Wissensbasis gibt. In der Arbeit LINDEN: Linked Named Entities with Knowledge Base via Semantic Knowledge wird YAGO, eine Wissensbasis des Max Planck Institutes in Saarbrücken verwendet. Ein weiteres Anwendungsgebiet von Entity Linking ist Entity Search das die verlinkten Entities mit einem sogenannte EntityRank versieht.

Fazit
Mit der Verfügbarkeit des Webs als weltumspannende Datenbasis und Rechenkapazitäten, die diese Daten verarbeiten können, entstehen neue Möglichkeiten, die über derzeitige Suchmöglichkeiten hinausgehen. Wikipedia, Freebase und weltweite soziale Netzwerke bilden Wissensbasen, die das Entschlüsseln von Bedeutungen vereinfachen. Semantische Werkzeuge ändern bereits die Suche von heute, werden aber sicherlich noch kommende Generationen dominieren.

Der Autor: DI Jakob Praher
DI Jakob Praher arbeitet als technischer Leiter bei der Mindbreeze GmbH. Dort beschäftigt er sich mit Information Extraction und der Architektur der Mindbreeze-Suchmaschine sowie dahinterliegenden innovativen Algorithmen und Datenstrukturen.

Literatur

Wikipedia DE. Web. 26.02.2013. Semantik, http://de.wikipedia.org/wiki/Semantik,
Wikipedia EN. Web. 26.02.2013. Semantic search, http://en.wikipedia.org/wiki/Semantic_search
Tim Berners-Lee. Web. 28.02.2013. http://www.w3.org/History/1989/proposal.html,
D. Downey, S. Dumais, D. Leibling, E. Horvitz. October 2008. Understanding the Relationship between Searchers’ Queries and Information Goals
Uichin Lee and Zhenyu Liu and Junghoo Cho. 2005. Automatic Identification of User Goals in Web Search
David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, Chris Welty. , AI MAGAZINE, Vol. 31, No. 3. (September 2010), pp. 59-79. Building Watson: An Overview of the DeepQA Project
Fabian M. Suchanek and Gerhard Weikum, YAGO - Search for Knowledge instead of Webpages, (German, English) Article in the year book of the Max Planck Society 2007
Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706. DOI=10.1145/1242572.1242667 http://doi.acm.org/10.1145/1242572.1242667
Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni, 2007. Open Information Extraction from the Web
Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, USA.
(Mindbreeze: ra)

Mindbreeze: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.

- Anzeigen -





Kostenloser Compliance-Newsletter
Ihr Compliance-Magazin.de-Newsletter hier >>>>>>



Meldungen: Hintergrund

  • Storage in der OpenStack-Ära

    Der Aufstieg von OpenStack, dem Open Source Framework für Private und Public Clouds, ist seit seinem Beginn 2010 äußerst bemerkenswert. Die Plattform ist zu einem echten Phänomen geworden und mehr als 500 Firmen, darunter einige Schwergewichte der IT, sind der OpenStack Foundation bereits beigetreten. Bereits jetzt unterstützen alle wichtigen Hypervisoren und eine große Anzahl an Speicherlösungen OpenStack, darunter Ceph, NetApp, Tintri, EMC Solidfire, LVM und GlusterFS. Unternehmen, die mit dem Gedanken spielen, für ihre neue Cloud-Architektur auf OpenStack zu setzen, benötigen jedoch den richtigen Unterbau, um die Vorteile voll nutzen zu können. Eine Frage ist auch bei OpenStack von zentraler Bedeutung: Wie sieht der ideale Speicher aus?

  • Kann die Private Cloud das Problem lösen?

    Jeder, der in einer Büroumgebung arbeitet, kennt die Situation: Ein digitales Dokument muss dringend zum Kunden und die Deadline naht bedrohlich. Die Datei ist aber zu groß für eine E-Mail und derjenige, der den FTP-Server verwaltet ist natürlich gerade im Urlaub. Wer praktisch und lösungsorientiert denkt und sich mit moderner Technologie auskennt wird bei der Lösung des Problems unweigerlich auf cloud-basierte Angebote wie Dropbox, Box oder andere stoßen. Das Hochladen der Daten ist einfach und im Handumdrehen geschehen. Der Kunde hat seine Daten und die meisten Mitarbeiter würden jetzt normalerweise ein anerkennendes Schulterklopfen erwarten, anstatt einer Abmahnung oder sogar einer fristlosen Entlassung.

  • Automatisiert in die Cloud sichern

    Rasant wachsende Datenmengen sowie die steigende Abhängigkeit der Unternehmen von ihren operativen Daten setzen die IT-Abteilung gewaltig unter Druck. CIOs müssen daher ihre Strategie für das Datenmanagement den veränderten Realitäten anpassen. Ein mögliches Werkzeug hierfür sind IT-Ressourcen aus der Cloud, die in die Backup- und Storage-Infrastruktur eingebunden werden. Die IT-Abteilung kann es sich nicht mehr leisten, auf die Cloud zu verzichten. Immer mehr Unternehmen in Deutschland setzen mittlerweile auf diese Technologie. In der Studie "Cloud-Monitor 2015" von KPMG und Bitkom vermelden die Analysten, dass bereits 44 Prozent der deutschen Unternehmen IT-Leistungen aus der Cloud beziehen. Weitere 24 Prozent planen oder diskutieren noch über den Einsatz. Dabei sind die gemachten Erfahrungen durchweg positiv, wie bis zu 78 Prozent der Befragten berichten.

  • eDiscovery in der Cloud: Flexibilität & Sicherheit

    Gerade erst verurteilte das französische Kartellamt elf Lebensmittelhersteller zu insgesamt 200 Millionen Euro Strafe wegen eines Joghurt-Kartells. Damit zählen die in diesem Fall verhängten Bußgelder zu den höchsten, die jemals wegen unzulässiger Preisabsprachen auferlegt wurden. Die Beteiligung an illegalen Preis- und Angebotsabsprachen führt nicht nur zu einem wirtschaftlichen Schaden durch horrende Bußgelder, sondern auch zu Verlusten durch verloren gegangene Geschäfte, die aus dem angekratzten Image resultieren. Eine aktuelle Studie im Auftrag des E-Discovery-Anbieterin Recommind belegt, dass deutsche Unternehmen tatsächlich viel Wert auf ihre Reputation legen: 75 Prozent der Befragten implementieren Compliance-Maßnahmen, um das Vertrauen nach außen hin zu erhalten.

  • Projekte mit Managementsoftware optimieren

    Die Anforderungen an Projektmanager sind hoch: Sie müssen nicht nur Budgets, Ressourcen und Aufgaben zentral verwalten, sondern auch schnelle Entscheidungen treffen. Dazu sollten alle notwendigen Daten zentral an einem Ort verfügbar sein und von den Verantwortlichen jederzeit abgerufen werden können. Moderne Projektmanagementsoftware erfüllt diese zentralen Anforderungen und ist daher aus dem Alltag nicht mehr wegzudenken. Besonders international tätige mittelständische Dienstleistungsunternehmen optimieren mit einer solchen Applikation ihre Prozesse, sparen eine Menge Zeit und schaffen mehr Raum für die eigentliche Projektarbeit.

  • Sicherheit für Unternehmensdaten in der Cloud

    Besonders kleine und mittlere Unternehmen profitieren von der Nutzung der Cloud, denn der Geschäftsalltag wird immer schnelllebiger und mobiler. Auch Home-Office gehört zum Alltag, wie die aktuelle Studie von IDC zum Thema "Mobile Content Management in Deutschland 2014" zeigt. Mitarbeiter steigern ihre Effizienz, wenn sie auf Unternehmensdaten und Dokumenten auch von unterwegs zugreifen können. Bei der Auswahl des richtigen Cloud-Angebotes sollten Themen wie Daten-, Zugriffs- und Rechtssicherheit sowie die Service-Qualität besonders kritisch betrachtet werden. KMU stehen aufgrund von Marktveränderungen unter zunehmendem Wettbewerbsdruck. Zeit ist ein kostbares Gut - dieses bestmöglich zu nutzen Pflicht. Um auf lange Sicht wirtschaftlich erfolgreich zu bleiben, müssen sie sich kontinuierlich an die neuen Anforderungen ihres Geschäftsumfelds anpassen. So ist es auch im Interesse des Arbeitgebers, wenn Mitarbeiter von unterwegs auf geschäftsrelevante Inhalte zugreifen können: Arbeitsprozesse werden auf diese Art dynamischer, flexibler und effektiver. So einfach es klingt, die Umsetzung in der Praxis ist nicht trivial. Mobiler Datenverkehr und Datenspeicherung in der Cloud müssen abgesichert sein. Daher sollte es im Interesse des Unternehmens liegen, die entsprechenden Rahmenbedingungen für den sicheren Austausch von geschäftsrelevanten Daten zu schaffen, bevor Mitarbeiter Selbstinitiative ergreifen und unsichere Plattformen zum Austausch von Informationen nutzen.

  • IT-Strategie - Inhouse versus Outsourcing

    Immer wieder werden deutsche Unternehmen oder spezifische Fachbereiche vor die Herausforderung gestellt, die eigene Ablauforganisation auf Einsparpotenziale, Prozesseffizienz oder Ressourcenauslastung hin zu überprüfen. Die "Make or Buy" - Entscheidung, z.B. ob ein Prozess oder ein Unternehmensbereich wie etwa die Lohnbuchhaltung, der Technische Kundendienst oder die IT-Administration inhouse oder durch externe Dienstleister abgewickelt wird, ist oftmals komplex und von vielen Faktoren abhängig: Umfang und Regelmäßigkeit des Bedarfs, (Fix-) Kostenvergleich intern/ extern, Ressourcenausstattung, Kapitalbindung, eigener Flexibilisierungsgrad, Kapazitätsauslastung, Wertschöpfungsanteil und weiteren. Waren Fremdbezugsentscheidungen früher vornehmlich auf die Fertigungsvorgänge beschränkt, erstrecken sie sich heute auf sämtliche direkten und indirekten Bereiche der betrieblichen Wertschöpfung.

  • Cloud-basierter Dienste-Marktplatz für Bürger

    "goBerlin", ein Projekt der Trusted-Cloud-Initiative des Bundesministeriums für Wirtschaft und Technologie (BMWi), schafft eine gemeinsame Plattform für Behörden, Bürger und Wirtschaft. Technische Basis ist eine IT-Service-Architektur mit Cloud Computing-Funktionalitäten. Das Technologieprogramm des BMWi unterstützt die Entwicklung innovativer, sicherer und rechtskonformer Cloud Computing-Lösungen, die sich insbesondere für den Einsatz im Mittelstand und im öffentlichen Sektor eignen. Unter 500 eingereichten Projektvorschlägen wurden 14 Initiativen ausgewählt, die nun gefördert werden. Im öffentlichen Sektor haben nur zwei Projekte diese Förderung erhalten, eines davon ist goBerlin. Zu den Initiatoren gehört das C-Lab, die gemeinsame Innovationswerkstatt des IT-Dienstleisters Atos und der Universität Paderborn. Die für goBerlin eingesetzten IT-Spezialisten des C-Lab verantworten unter anderem das Sicherheitskonzept und die Erarbeitung entsprechender Sicherheitsrichtlinien.

  • Suche ist Kommunikation

    Als Tim Berners-Lee im März 1989 ein Paper mit dem Namen "A Large Hypertext Database with Typed Links" veröffentliche, legte er damit nicht nur die Grundsteine für das heutige World Wide Web und darüber hinaus das Semantic Web, sondern auch für den damit einhergehenden Siegeszug von Suchmaschinen. Durch die dezentrale Organisation wurde es notwendig die Information des Webs zu crawlen und indizieren und Suche als Dienst im Web anzubieten. Suche ist Kommunikation. Der Benutzer stellt eine Anfrage mit einem bestimmten Ziel oder Bedürfnis und erhält eine Antwort in Form von Treffern auf eine Datenbasis, die meist nach der Relevanz gemäß einem Modell gereiht sind. Dabei sollen die Top-Treffer jene sein, die für den Benutzer am relevantesten sind. Um die Richtigkeit und Genauigkeit der Treffer und deren Relevanzbewertung für den Benutzer zu verbessern, wird die Rolle von künstlicher Intelligenz im Suchprozess immer wichtiger.

  • Strategisches Personalmanagement aus der Cloud

    Deutsche Personalmanager betrachten den demografischen Wandel als Megatrend, der sich in den kommenden drei Jahren am stärksten auf das Personalmanagement auswirken wird. Das belegt auch die Langzeitstudie "Professionelles Personalmanagement: Ergebnisse der PIX-Befragung 2012" der Deutschen Gesellschaft für Personalführung (DGFP) vom April 2012. Für knapp die Hälfte der Befragten spielen darüber hinaus die Digitalisierung der Arbeit sowie die Globalisierung eine entscheidende Rolle bei der künftigen Gestaltung von Human Resources (HR).