Spider

Inhalt
Webkataloge
Spider
Metasucher
Spezialsucher

 

Spider-Suchmaschinen basieren auf einem Suchroboter und bestehen im Wesentlichen aus drei Teilen:

bulletDer erste Teil ist der Informationssammler, "Robot", "Spider", oder "Crawler" genannt, der im WWW Seiten vollautomatisch absurft. Einer oder mehrere dieser Exemplare sorgen dafür, dass ein riesiger Datenberg an die "Verwaltung", den Index geschickt wird.
bulletDer zweite Teil ist die Indizierungssoftware, die die Daten strukturiert und durchsuchbar macht.
bulletDer dritte Teil ist eine Software zum Auswerten von Suchanfragen. Diese verknüpft logische Operatoren, und schickt die Anfrage an den Datenbank-Server, um von dort aus die Ergebnisse zu präsentieren. Hierbei wird meist auch der Ort des Vorkommens im Dokument besonders berücksichtigt. Wenn das Wort im Titel oder in den Meta-Tags des HTML-Dokuments vorkommt, wird es höher gewichtet als im Body-Text.

Doch was sind eigentlich Meta-Tags? Meta-Tags stehen im Header (Kopf) des HTML-Dokuments und werden vom Browser nicht angezeigt. Sie definieren u.a. die Keywords (Schlüsselworte), nach denen das Dokument in der Suchmaschine gefunden werden soll, und eine kurze Zusammenfassung des Seiteninhalts.

Bei der Suche in einer Spider-Suchmaschine muss anders als bei der Suche in einem Webkatalog mehr auf der Computerebene gedacht werden und weniger wie ein Redakteur. Die Strukturierung eines Dokumentes und die logische Verknüpfung von Begriffen tritt in den Vordergrund. In den Hintergrund gerät der sachliche Gesamtinhalt und die Relevanz einzelner Worte für diesen Inhalt. Diese Relevanz muss durch eine geschickte Formulierung der Anfrage bestimmt werden. Zu diesem Zweck sollte man sich möglichst der erweiterten Suchoptionen bedienen. Hier sind die Verknüpfungsmöglichkeiten viel größer.

Zum Beispiel ist es vollkommen unsinnig, nach einem häufigen Begriff, wie z. B. "Wasser" zu suchen. Die Trefferliste würde in die Tausende gehen. Vielmehr muss das Umfeld definiert werden und man muss sich über den Zusammenhang klar werden, in dem der Begriff gesucht werden soll, z.B. Energiegewinnung oder Trockenheit.

Weiter sollte man sich überlegen, welche Begriffe noch in Zusammenhang mit dem Suchwort stehen und welche explizit ausgeschlossen wollen können. Beim Beispiel "Wasser" lassen sich Begriffe wie "Energie", "Schifffahrt" und "Medizin" ausschließen. Das Suchgebiet ist immer noch ziemlich groß. Wenn man z.B. wissen möchte, welche Rolle die künstliche Wasserversorgung in der Landwirtschaft spielt, könnten Begriffe wie "Bewässerung", "Versorgung", "Pumpen", "Rohre", "Trockenheit" oder der Terminus "künstliche Wasserversorgung" die Zahl der Dokumente besser spezifizieren. Man sollte aber nicht mit zu vielen UND-Begriffen beginnen, da eventuell die Datenbasis nicht ausreichend genug ist und man dann eventuell gar keine Treffer erhält. Ein schrittweises Eingrenzen bei zu vielen Treffern bietet sich an.

Hier sind einige häufig zu findende Eingabemöglichkeiten:

bulletEin Pluszeichen (+) oder AND verknüpft das nachfolgende Wort mit dem vorherigen. Beide Begriffe müssen im Ergebnisdokument vorkommen. Mehrere Begriffe lassen sich so zusammenfassen.
bulletEin Minuszeichen (-) oder NOT schließt das nachfolgende Wort aus. Das Ergebnis darf das Wort nicht enthalten.
bulletMehrere Worte lassen sich mit Anführungszeichen zu einer Phrase verbinden. Diese werden dann als ein einzelner Begriff behandelt: z.B.: "Albert Einstein" oder "französische Küche".

Die Syntax der Suchserver bei der Eingabe, die Möglichkeiten und der Komfort unterscheiden sich zum Teil erheblich voneinander. Genauere Informationen hierzu gibt es in der Suchfibel.

Entsprechend dem oben genannten Beispiel soll an die Suchmaschine AltaVista eine Suchanfrage nach dem Begriff "Wasser" gestellt werden. Hier zeigt sich, dass durch Einschränkung des Suchbegriffs anhand der Suchanfrage:

Wasserversorgung +Trockengebiete -Landwirtschaft

die Trefferzahl mit 30 gefundenen Seiten recht überschaubar ist.

Suche bei AltaVista

Diese Suchmaschine ermöglicht auch eine Erweiterte Websuche durch Formulierung eines Booleschen Ausdrucks mit Hilfe verschiedener logischer Operatoren und Felder. Felder sind innerhalb einer Internetseite bestimmte Bereiche, die speziell durchsucht werden können. Internetseiten haben eine eindeutige Adresse, die als URL (Uniform Resource Locator) bezeichnet wird. Nach dieser URL kann man gezielt suchen, genauso wie nach dem Titel einer Seite oder nach Seiten auf einem bestimmten Server bzw. Host. Dazu ist es erforderlich, den Namen des Feldes vor den Suchausdruck zu setzen und beides durch einen Doppelpunkt voneinander zu trennen.

Im nachfolgenden Beispiel soll nach Internetseiten zum Thema DSL gesucht werden. Um die Trefferzahl einzugrenzen, sollen nur deutschsprachige Seiten angezeigt werden, in denen der Suchbegriff im Seitentitel enthalten ist und die von T-Online veröffentlicht wurden. Durch die Formulierung der Suchanfrage in der Erweiterten Suche:

title:dsl AND host:t-online.de

kann das Suchergebnis auf 84 Treffer eingegrenzt werden.

Erweiterte Websuche in AltaVista

Einige der wichtigsten deutschen oder deutschsprachigen Spider-Suchmaschinen sind:

bulletGoogle
bulletAltaVista,
bulletLycos und
bulletOnlinepilot.
 




© 2000-2007 mcs24.com :: manual@mcs24.com