Das Einmaleins von Google

Bereits ein
Link von einer anderen Site auf eine Ihrer Seiten gen�gt, und die
Datensammler von Google haben Ihre Site f�r sich entdeckt. Nun hangeln
sich die Spider von Link zu Link und f�llen so ihre Datenbank. Dies ist
auch der Grund, warum so viele Dokumente und Anwendungen bei Google
gelistet sind, die eigentlich nur einem eingeschr�nkten Benutzerkreis
zug�nglich sein sollten. Kommt dann noch ein falsch konfigurierter
Proxy-Server dazu, stehen Google auch die T�ren zum Intranet offen.

Wie
bekommen Sie nun heraus, welche Informationen Google �ber Sie und Ihre
Firma gespeichert hat? Dazu ben�tigen Sie zum einen die richtigen
Befehle und m�ssen diese dar�ber hinaus auch noch in der richtigen
Kombination anwenden. Da nicht alle Befehle wirklich bekannt sind,
erhalten Sie im Folgenden einen �berblick �ber die wichtigsten:

filetype.
Interessante Informationen verbergen sich oft nicht in normalen
HTML-Dateien, sondern Word-Dokumenten, Excel-Dateien oder
Powerpoint-Pr�sentationen. Mit dem File-Befehl erhalten Sie nur die
gew�nschten Dateien.

intitle, allintitle. intitle
listet Ihnen alle Seiten auf, die den angefragten Begriff oder die
gesuchte Phrase im Titel haben. Suchen Sie mit mehreren Begriffen, die
alle im Titel sein sollen, so verwenden Sie den Befehl allintitle. Die Anfrage

allintitle: „J�rgen Klinsmann“ Bundestrainer

sucht nach allen Seiten, die beide Begriffe im Titel f�hren.

allintext. Wenn Sie im Text einer Seite suchen m�chten, so haben Sie mit allintext
genau den richtigen Befehl. Mit ihm wird eine Seite – jedoch ohne
�berschrift, Links und Titel – nach den angegebenen Begriffen und
Phrasen durchsucht.

inurl, allinurl. M�chten Sie Ihre Suche auf den URL einer Seite beschr�nken, dann sollten Sie inurl verwenden. Soll der URL mehr als einen Begriff enthalten, so verwenden Sie den Befehl allinurl. Der Befehl

allinurl:user password

sucht nach allen Seiten, die in ihrem URL die beiden Begriffe haben, zum Beispiel http://www.meins.de/user/password.txt.

inanchor. Sind Sie auf der Suche nach Bildern und wollen die Beschreibungen durchsuchen, sind Sie bei inanchor genau an der richtigen Adresse.

site. Sind f�r Sie nur bestimmte Seiten von Interesse, schr�nken Sie das Suchergebnis einfach mit dem site-Befehl ein.

link. Gerade bei der eigenen Site ist man oftmals interessiert, wer einen Link auf diese gesetzt hat. Der Befehl link zeigt alle Seiten an.

Alle all-Operatoren
lassen sich in der Regel nur einmal pro Anfrage einsetzen und k�nnen
nicht mit anderen Befehlen kombiniert werden. Dies sind nur die
wichtigsten Befehle der Google-Suchmaschine. Eine komplette Liste mit
Erkl�rungen finden Sie bei Google Guide unter www.googleguide.com/advanced_operators_reference.html.

http://code.google.com/
http://www.frsirt.com/english/

Sichtbare Verzeichnisstrukturen

Auf
Grund von Fehlkonfigurationen des Webservers ist es zum Teil m�glich,
direkt auf Verzeichnisse zuzugreifen. Dies ist entweder auf eine
fehlende Index-Datei oder falsch konfigurierte Zugriffsrechte
zur�ckzuf�hren. Ob auch Ihre Webpr�senz davon betroffen ist, k�nnen Sie
mit Hilfe des Befehls intitle:index.of „parent directory“ und einer Einschr�nkung der Ergebnisse auf Ihre Site �berpr�fen.

Wenn
erst einmal ein Einstiegspunkt in die Dateistruktur gefunden ist, f�llt
das Navigieren durch die Verzeichnisse deutlich leichter. Zum Teil sind
bei einer solchen Fehlkonfiguration auch weitere, benachbarte
Verzeichnisse betroffen.

Ansonsten hilft ein wenig
Experimentieren mit unterschiedlichen Begriffen – beispielsweise
hinterlassen verschiedene Programme in der Standardimplementierung LOG-
oder BAK-Dateien. Eine einfache Suche mit intitle: index of filetype:bak oder intitle:index of filetype:log liefert weitere interessante Informationen im Klartext.

Meist
enth�lt die Verzeichnis�bersicht dar�ber hinaus auch noch Informationen
zum eingesetzten Webserver und der installierten Version.

Login-Seiten

Dienste, die auf einem
Webserver laufen, wecken auch immer wieder das Interesse der
Google-Hacker. Sollten Sie also bereits ein WCMS, ein Webmail-System
oder �hnliche Anwendungen laufen haben, dann sollten Sie auf jeden Fall
die Standardtexte auf der Einstiegsseite und den Titel der Seite
�ndern. Genau hier setzen n�mlich die Hacker an.

Eine Standardinstallation des Web-Access f�r Microsoft Outlook finden Sie beispielsweise �ber allinurl:“ exchange/logon.asp“, den Tomcat Server �ber intitle: „Tomcat Server Administration“ oder die Einstiegsseite f�r ein Mambo-CMS mit inurl:administrator „welcome to mambo“.
Die Liste l�sst sich noch beliebig weiterf�hren. Da Sie selbst am
besten wissen, welche Skripts, Dienste oder Programme Sie nutzen,
sollten Sie diese bei Ihren Tests auch ber�cksichtigen.

Benutzer und Passwort

Seit Jahren
bekannt, aber immer noch teilweise zu finden ist der Fehler innerhalb
�lterer Versionen der MS Frontpage Server Extensions. Hier sind die
Benutzer in Klartext und die Passw�rter leicht verschl�sselt auf dem
Server abgelegt und einfach herunterzuladen. Falls Sie die Frontpage
Extensions nutzen und pr�fen m�chten, ob auch Ihre Passw�rter diesem
Risiko ausgesetzt sind, geben Sie einfach den Suchstring ext:pwd inurl:_vti_pvt inurl:(service | authors | administrators )
ein. Vergessen Sie jedoch nicht, ihn auf Ihre Website einzuschr�nken.
Hat die Suche f�r Ihre Site ein positives Ergebnis gebracht, so haben
Sie nun eine Datei mit Benutzernamen und verschl�sselten Passw�rtern
vor sich. Der durch die Verschl�sselung noch bestehende Schutz ist
schnell aufgehoben – zum Entschl�sseln der Passw�rter kursieren im
Internet diverse Programme. Sind die Informationen erst einmal frei
zug�nglich, so ist auch der Zugriff auf die Applikationen, die auf
diesen Server laufen, f�r jeden m�glich.

Google-Cleaner

Hat Google trotzdem
noch Informationen �ber Ihre Site im Cache, die Sie zwingend l�schen
wollen, so bietet der Suchmaschinenbetreiber online Tools zum Entfernen
der Daten an. Dazu m�ssen Sie sich zun�chst registrieren (services.google.com:8882/urlconsole/controller). Anschliessend stehen Ihnen drei Funktionen zur Verf�gung:

– L�schen von veralteten Links:
Hier gen�gt die Eingabe des vollst�ndigen URLs. Es stehen drei
Varianten des L�schens zur Auswahl: komplettes L�schen, L�schen des
Caches oder L�schen des Snippets.
– L�schen von Seiten mit Hilfe der robots-Datei: Speichern Sie eine Datei robots.txt
im Root-Verzeichnis des Servers und geben Sie darin die Bereiche an,
die gel�scht werden sollen. Geben Sie den kompletten Pfad auf die Datei
an. Weitere Informationen dazu finden Sie auf der Google-Seite unter www.google.com/support/webmasters/bin/answer.py?answer=35302.
– L�schen von Seiten mit Hilfe von Metatags: Platzieren Sie auf der Seite, die Sie nicht mehr im Verzeichnis finden wollen, das Meta-Tag <META NAME=
"Googlebot" CONTENT="NoIndex, NoFollow">
.
Damit wird die Seite nicht mehr indiziert und die enthaltenen Links
werden nicht mehr ber�cksichtigt. Es kann mit NoFollow als einzigem
Argument auch lediglich die Indizierung der enthaltenen Links gestoppt
werden.

Alle
Verfahren f�hren laut Google nach drei bis f�nf Tagen zum gew�nschten
Erfolg. Bitte beachten Sie jedoch, dass sich Google bei allen drei
Varianten das Recht vorbeh�lt, Ihre Site danach mindestens 180 Tage
lang nicht mehr zu besuchen. Alle �nderungen, die Sie bis dahin
vornehmen, bleiben also m�glicherweise vor dem Googlebot verborgen. Die
Inhalte, die Sie manuell entfernen wollen, sollten deshalb von gewisser
Brisanz sein.

Die L�cken schliessen

Damit wissen Sie
nun, welche Dokumente Google von Ihnen gespeichert hat und ob sich
darunter auch nicht�ffentliche Informationen befinden. Sollte dem so
sein, nehmen Sie diese im ersten Schritt aus den Verzeichnissen, so
dass der gespeicherte Link nicht mehr auf ein aktuelles Dokument
verweist.

Google
bietet Ihnen zum L�schen von irrt�mlich in den Cache geratenen Seiten
ein Tool an, bei dem Sie diese Links melden k�nnen. Sie finden es auf
der Google-Seite unter den Informationen f�r Website-Administratoren (www.google.de/support/webmasters/bin/answer.py?answer=35301&ctx=sibling).
Damit sich die Geschichte nun nicht zum Hase-und-Igel-Spiel entwickelt,
sollten Sie f�r den n�chsten Scan von Google einige Vorsichtsmassnahmen
treffen.

Vorsichtsmassnahmen

Eine weitere
Massnahme, die eigentlich auch nicht direkt mit Google und anderen
Suchmaschinen zu tun hat, ist die Sicherheit Ihres Webservers. Achten
Sie darauf, dass Sie immer alle aktuellen Patches eingespielt haben,
damit Google-Hacker �ber bekannte Programmfehler von IIS oder Apache
nicht doch noch Zugriff auf Ihre Daten bekommen.

�berpr�fen
Sie in diesem Zusammenhang auch gleich Ihren Server oder Webpr�senz auf
die Einstellung f�r die Pr�sentation von Verzeichnislisten. Dies sollte
unter keinen Umst�nden m�glich sein. Bei Apache stellen Sie dies mit
dem Eintrag

Options -Indexes FollowSymLinks MultiViews

in der Datei httpd.conf aus. Auch viele Webhoster sind sich dieses Problems bewusst und bieten derartige Optionen an.

Robots.txt

Der genaue Aufbau der
Datei und die erlaubten Befehle sind bereits seit 1994 standardisiert.
Eine detaillierte Beschreibung des Standards finden Sie unter www.robotstxt.org.

F�r die Grundfunktionen ben�tigen Sie lediglich zwei Befehle: zum einen User-Agent, zum anderen Disallow. User-Agent unterscheidet zwischen den verschiedenen Suchmaschinen-Crawlern, ein Stern (*) macht die Einschr�nkungen f�r alle g�ltig.

Die
Negativliste l�sst sich entweder auf Basis von Verzeichnissen oder
Dateitypen aufbauen. So bleiben die Suchmaschinen beim Befehl

disallow: /meine_geheimnisse

vor der T�re und durchsuchen dieses Verzeichnis nicht. Alternativ lassen die Crawler mit dem Eintrag

disallow: /*.PPT

die
Finger von Ihren Powerpoint-Pr�sentationen. Zus�tzlich gilt noch die
Regel, dass alles, was rechts von einem # zu finden ist, als Kommentar
gilt und von den Crawlern ignoriert wird. Wenn Sie also komplett Ruhe
vor Crawlern haben m�chten, so hilft folgende robots.txt-Datei:

# Alle Suchmaschinen bleiben draussen
User-Agent: *
Disallow: *

Meta-Tags

Zus�tzlich zur robots.txt gibt es auch noch das Meta-Tag Robots,
�ber das sich Informationen f�r Webcrawler pflegen lassen. Dieses Tag
setzen Sie wie die beschreibenden Meta-Tags in den Header-Bereich einer
einzelnen Seite. Die gebr�uchlichsten Optionen sind NOARCHIVE, NOINDEX, NOFOLLOW und NOSNIPPET.

Gerade die Cache-Funktion von Google kann bei Seiten mit st�ndig
aktualisiertem Inhalt schnell zu Verwirrung und ver�rgerten Besuchern
f�hren, falls die gesuchten Daten nur noch im Cache der Suchmaschine
vorhanden sind. Damit Sie den Googlebot und andere Crawler nicht ganz
von dieser Seite aussperren m�ssen, gibt es die Option NOARCHIVE. Damit wird die Seite zwar indiziert, nicht jedoch ins Archiv aufgenommen.

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Wenn Sie eine Seite �berhaupt nicht von Suchmaschinen indiziert haben m�chten, sollten Sie die Attribute NOINDEX und NOFOLLOW �bernehmen.

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Sollen die Crawler lediglich die Seite indizieren, nicht aber den
darauf angegebenen Links folgen, dann lassen Sie einfach das Attribut NOINDEX weg.

Neben dem Link und dem Cache-Link bietet Google zu jeder Seite auch
noch einige Zeilen an beschreibendem Text an. Gerade wenn Sie Ihre
Besucher f�r Inhalte bezahlen lassen, ist dies nicht immer
w�nschenswert. Zum Deaktivieren verwenden Sie einfach die Option NOSNIPPET.

<META NAME="ROBOTS" CONTENT="NOSNIPPET">.

Die gezeigten Einschr�nkungen gelten nun f�r alle Suchmaschinen. Als Alternative dazu geben Sie einfach an Stelle von ROBOTS den normierten Namen des Crawlers an – also beispielsweise Googlebot f�r Google -, und das Meta-Tag ist nur f�r diese bestimmte Suchmaschine g�ltig.

powered by performancing firefox