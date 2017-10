Geldinstitute > Bank-IT

Wichtig ist, dass man Daten, die einer fachlichen Zugriffskontrolle unterliegen, zwecks Auffindbarkeit indizieren kann. Eine Lösung für die Enterprise Search muss bestehende Benutzer- und Zugriffsrechte einbeziehen können, indem man sie an vorhandene Benutzerverzeichnisse anbindet, wie etwa Open LDAP oder Active Directory. So ist gewährleistet, dass die Suchmaschine nur „erlaubte“ Treffer ausliefert. Zudem sollte eine Enterprise Search-Lösung möglichst viele Inhalte und Dokumentenformate erfassen und analysieren können. Im Gegensatz zur Google-Suche sind ggf. weitere Formate neben HTML, PDF und Microsoft Office mittels dedizierter Crawler zu berücksichtigen. Nicht zuletzt spielen Metadaten eine große Rolle: Name des Autors, Erstellungsdatum, Freigaberedakteur oder Abstract – Informationen, die Google in der Regel nicht erfasst. Dennoch erscheint Google auch bei der Enterprise Search als Referenzgröße allgegenwärtig. Durch Google Custom bzw. Google Enterprise Search können Unternehmen ihre Website mit einer mächtigen Suchmaschine ausstatten. Für Internetauftritte ist das sicherlich eine attraktive Lösung. Doch es gibt berechtigte Bedenken und Vorbehalte gegenüber der Google-Suche, was den Datenschutz angeht.

Mangelnder Datenschutz und hohe Kosten

Neben Google Custom und Google Enterprise Search bietet das Unternehmen zwei Produkte speziell für Geschäftskunden: Google Site Search und Google Search Appliance. Google Site Search basiert auf derselben Architektur und Technologie wie die Standardsuche. Die Lösung lässt sich per API einbinden, berücksichtigt aber nur öffentliche Inhalte. Damit eignet sie sich zur Website-Suche, bietet aber keine Enterprise Search-Funktionalität – zumal sie aus Datenschutzgründen kritisch zu betrachten ist. Google Search Appliance hingegen ist eine Kombination der Google Search Applikation und entsprechender Hardware im Bundle, die Unternehmen selbst hosten können. Darum ist es möglich, Datenschutzbelange hinreichend zu berücksichtigen. Allerdings verursacht die Lösung sehr hohe Kosten – sowohl bei der Lizenzierung als auch im laufenden Betrieb.

Alternative Suchmaschinen im Aufwind

Sucht man nach Alternativen, unterscheiden sich die Ergebnisse stark. Sie sind abhängig vom Blickwinkel, aus dem heraus man sucht. Vor dem Hintergrund der Diskussionen über die Verletzung der Privatsphäre und Sammelwut der amerikanischen Behörden – Stichwort PRISM Leak –, befinden sich viele alternative Suchmaschinen im Aufwind. Allerdings können sie Google im Bereich der klassischen Suchfunktion nicht das Wasser reichen – mit Ausnahme der Microsoft-Suche Bing und Alibaba im asiatischen Raum, wo kulturelle und sprachliche Anforderungen eine größere Rolle spielen. Doch auch in anderen Teilen der Welt haben sich weitere, wenn auch nischenspezifische Suchmaschinen etabliert: Wolfram Alpha mit einer semantischen Suche, die weniger Index- und Algorithmus-basiert arbeitet, oder Creative Commons mit Spezialisierung auf frei nutzbare Mediendateien. TinEye wiederum liefert eine Reverse-Bildersuche, während DuckDuckGo die Privatsphäre zu schützen verspricht. Eine Lösung für die Enterprise Search muss sich an einer Architektur orientieren, die Google Search Appliance verwendet, das heißt: eine Standalone-Lösung. Allerdings sind die verfügbaren Tools aufgrund des Zusammenspiels diverser Komponenten hochkomplex und erfordern daher Spezialwissen.

Was eine Enterprise Search leisten muss

Welche Faktoren zeichnen eine gute Enterprise Search-Lösung aus? Sie muss in der Lage sein, Unternehmenswebsites vollständig zu durchsuchen – einschließlich interner, nicht öffentlicher Dokumente. Um dies zu gewährleisten, ist neben der on-demand Indexierung für neue Inhalte auch die Berücksichtigung der jeweiligen Zugriffsrechte, wie z.B. Access Control List (ACL), erforderlich. Zudem ist das Logging der Suchanfragen zwecks Reporting eine Grundvoraussetzung. Wegen der individuellen Anforderungen, die Unternehmen an die Suche stellen, ist eine maßgeschneiderte Lösung zu empfehlen, die schnell zu integrieren ist – bei transparenten, überschaubaren Kosten. Zudem haben Firmen mit einer solchen Lösung die volle Kontrolle über geschäftskritische Informationen und können für optimalen Datenschutz sorgen.

Lucene stellt Kern einer Suche zur Verfügung

Viele Open Source-Lösungen basieren auf der Apache Lucene-Technologie. Den Kern von Lucene bildet eine Programmbibliothek, die den Index aus digitalen Formaten generiert, bereitstellt und entsprechende Suchergebnisse liefert. 1999 erstmals veröffentlicht, wurde Lucene 2001 Teil des Jakarta-Projekts, und 2005 ein Hauptprojekt der Apache Software Foundation. Heute liefert Lucene zwar den Kern einer Suche, aber isoliert eingesetzt, ist noch keine umfassende Suchfunktion realisierbar. Aufbauend auf der Lucene-Technologie haben sich daher Projekte wie Nutch, Compass, Hounder oder Solr entwickelt. Insbesondere Solr verdient eine weitergehende Betrachtung.

Solr – so funktional wie die Google-Suche

Bei Solr handelt es sich um ein in Lucene enthaltenes Servlet für Container wie Apache Tomcat oder Jetty. Ursprünglicher Entwickler von Solr war CNET, das die Technologie anfangs „Solar“ (Search on Lucene and Resin) nannte. Ebenso wie Tomcat ist Resin ein Servlet Container. Solr kommuniziert über http: mittels HTTP POST ist es z.B. möglich, verschiedenste Dateiformate – von XML über JSON bis hin zu PDF – zu verarbeiten bzw. zu indizieren. Abfragen erfolgen mittels HTTP GET. Daneben bietet Solr weitere Features, wie etwa Highlighting, Ähnlichkeitssuche, facettierte Suche, Expertensuche, Phrasensuche, Rechtschreibprüfung, Autosuggestion und umfassende Analytics-Funktionalitäten, wie etwa gesuchte Wörter (Phrasen), gewählte Treffer etc. In Summe erreicht Solr den Funktionsumfang der klassischen Google-Suche und ist zudem sowohl skalierbar als auch hochperformant. Mit rund 6.000 Downloads pro Tag zählt Lucene zu den erfolgreichsten Open Source-Projekten – entsprechend groß sind die Community und die Knowledge Base im Netz. Zudem verfügt Solr über eine sehr gute Dokumentation, sodass auch in unternehmenskritischen Szenarien ausreichend Stabilität und Zukunftssicherheit gewährleistet sind.

Architektur von Solr

Um Solr einsetzen zu können, gibt es nur eine technische Voraussetzung: die Installation eines Java Development Kit (JDK) bzw. einer Java Runtime Environment (JRE) auf einem beliebigem Betriebssystem. Als Servlet Container ist eine Tomcat- oder Jetty-Instanz nötig, die die Apache Solr Webapp ausführt. Mit einigen Parsern ausgeliefert, kann Solr spezielle Formate wie PDF, XML oder HTML interpretieren und das Ergebnis entsprechend indizieren. Für besondere Anforderung kann es ggf. erforderlich sein, zusätzliche Parser einzusetzen. Um Verzeichnisse oder Repositories zu durchsuchen, kommen Crawler zum Einsatz, die einen Verzeichnisbaum „spidern“.

Mächtiges Gesamtsystem

Was auf dem ersten Blick recht einfach erscheint, birgt aufgrund der Mächtigkeit des Gesamtsystems eine hohe Komplexität: Lucene ist eine Java-Bibliothek mit der Komponente Solr, diversen Parsern und Crawlern sowie Request Handlern und ermöglicht unter anderem die Einbindung in eine Servlet-Umgebung, die Aufbereitung der Trefferliste, das Rendering im Browser und die Anbindung von Solr an ein Active Directory oder LDAP – samt Abgleich gegen die Zugriffsrechte. Für einige Komponenten stehen entsprechende Webfrontends zwecks Administration bereit, andere Konfigurationen erfolgen per Konsole und Texteditor. All das macht Lucene/Solr-Projekte zu einer großen Herausforderung. Aufgrund der Komplexität ist es umso wichtiger, ein passgenaues Gesamtpaket einzusetzen – harmonisch abgestimmt, wodurch sich die Konfiguration stark vereinfacht.

Den individuellen Bedarf ermitteln

Für eine maßgeschneiderte Suchlösung sollten zu Beginn der Planung eine Analyse der relevanten Daten und eine Präzisierung der Anforderungen erfolgen: Welche Datensilos und Dateiformate, wie etwa Word-, PDF- oder PPT-Dokumente, sind zu berücksichtigen? Gehören E-Mails dazu? Welche Benutzerrechte sollen greifen? Ist Mehrsprachigkeit gefordert? Da Solr „out of the box“ entsprechende Funktionalitäten bietet, lässt sich eine darauf abgestimmte Indizierung für die Darstellung von Sprachen als „Facetten“ nutzen. Auch für den Betrieb sind Konzepte zu entwickeln. Zur Verarbeitung massiver Suchanfragen bietet sich z.B. der Einsatz von Replication an: Die Indizierung führt ein Master durch, der dann auf mehrere Slaves repliziert wird. Sind Suchabfragen statistisch zu erfassen? Sollen die Systeme on premise betrieben werden? Das würde maximale Konformität mit Datenschutzanforderungen und Compliance-Regeln bedeuten. Oder ist ein Höchstmaß an Flexibilität gewünscht? In diesem Fall würde sich eine Cloud-basierte Lösung anbieten.

Einsatzszenarien sprechen für sich

Auch die Einführung und der Betrieb einer Enterprise Search-Lösung sind anspruchsvoll und erfordern ein methodisches Vorgehen, wie es in Projekten üblich ist. Dabei sind strategische Ziele ebenso zu berücksichtigen wie User Experience und Ergonomie. Da es viele Fallstricke gibt, sollten Unternehmen hierbei auf externe Beratungsdienstleister mit großer Erfahrung zurückzugreifen. So umgehen sie altbekannte Fehler und profitieren zugleich von bewährten Best Practice-Ansätzen. Die Vorzüge und Leistungsfähigkeit von Lucene/Solr sprechen für sich. Man muss sich lediglich die Einsatzszenarien betrachten. Nicht nur die Wikipedia-Suche basiert auf Apache Lucene, die Technologie kommt auch bei ImmobilienScout24, Zalando, Twitter, XING, LinkedIn und SoundCloud zum Einsatz.