Wie kann Google nicht verlinkte Dateien indizieren?

Provider, Webspace, Browser, Messenger, Viren(scanner) & Co.
Benutzeravatar
PatkIllA
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 14630
Registriert: 08.03.2004, 11:07
Wohnort: Dortmund

Wie kann Google nicht verlinkte Dateien indizieren?

Ungelesener Beitrag von PatkIllA » 02.01.2008, 23:30

Mir ist gerade aufgefallen, dass Google ein paar Dateien auf meinem Webserver indiziert hat, die nie verlinkt waren und in einem Ordner sind, der keine Dateiauflistung erlaubt?
Ich glaube ich habe mal jemanden mit GMail einen Link per Mail geschickt. Kann es das sein?

Benutzeravatar
Dude
Moderator
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10371
Registriert: 08.03.2004, 12:56
Wohnort: Berlin

Ungelesener Beitrag von Dude » 03.01.2008, 01:07

Kann es sein, dass er Link irgendwann mal in einem Forum stand oder so? Eigentlich kann Google eMails nicht nach webinhalten crawlen, das wird lediglich für kontextbasierte Werbung genutzt.
####

Benutzeravatar
PatkIllA
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 14630
Registriert: 08.03.2004, 11:07
Wohnort: Dortmund

Ungelesener Beitrag von PatkIllA » 03.01.2008, 01:22

Dude hat geschrieben:Kann es sein, dass er Link irgendwann mal in einem Forum stand oder so?
Ganz sicher nicht.

Opaque
Rear Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 2971
Registriert: 08.03.2004, 11:10

Ungelesener Beitrag von Opaque » 03.01.2008, 10:22

Wie sieht Deine "robots.txt" aus? Kann das sein, dass Du gar keine hast? ;o)
Üblicherweise sollte da so etwas drin stehen:

Code: Alles auswählen

User-agent: *
Disallow: /Verzeichnis_nicht_zu_indizieren/
Mehr dazu bei SELFHTML.

Benutzeravatar
PatkIllA
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 14630
Registriert: 08.03.2004, 11:07
Wohnort: Dortmund

Ungelesener Beitrag von PatkIllA » 03.01.2008, 10:40

hab auf der Seite auch keine. Aber wie kommt Google an den Link?

Opaque
Rear Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 2971
Registriert: 08.03.2004, 11:10

Ungelesener Beitrag von Opaque » 03.01.2008, 12:04

Gute Frage. Wie der Crawler im Detail arbeitet, weiß ich auch nicht. Wenn er keine Links hat und auch keinen Zugriff auf das Directoy Listing, bleiben ja nur heuristische Ansätze - imho ausgeschlossen.

Irgendwo ist Dir der Link durch die Lappen gegangen. Google Mail klingt da für mich plausibel, zumal wenn du deren Datenschutzerklärung liest: "Wenn Sie Google Mail nutzen, speichern die Server von Google automatisch bestimmte Informationen über Ihre Verwendung von Google Mail. Ähnlich wie andere Internetservices zeichnet auch Google Informationen wie Account-Aktivität (einschließlich Speicherplatznutzung, Anzahl der Anmeldungen), angezeigte oder angeklickte Daten (einschließlich Elementen der Benutzeroberfläche, Anzeigen, Links) sowie weitere Log-Informationen auf (einschließlich Browsertyp, IP-Adresse, Datum und Uhrzeit des Zugriffs, Cookie-ID und Referrer-URL)."

Benutzeravatar
Dude
Moderator
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10371
Registriert: 08.03.2004, 12:56
Wohnort: Berlin

Ungelesener Beitrag von Dude » 03.01.2008, 16:00

Da steht aber nichts davon, dass Google diese Daten dritten zur Verfügung stellt. Was die Verbreitung über eine Suchmaschine mit Sicherheit ist ;-)

Wenn dem so wäre müsste ich ja auch die Inhalte meiner eMails über Google suchen könnte - was ich nicht kann.
####

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 03.01.2008, 17:11

Wieso? Die lesen einfach die links in den mails und dann wird der crawler über die Links gejagt.

@Pat: Du hast ne PN...
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Opaque
Rear Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 2971
Registriert: 08.03.2004, 11:10

Ungelesener Beitrag von Opaque » 03.01.2008, 18:13

Das sollte doch einfach herauszubekommen sein. Man nehme einen entsprechenden Google Mail Account, eine E-Mail und darin ein Link auf ungeschützten, aber sonst nicht verlinkten Inhalt, der nur einmalig für diesen Test verwendet wird. Nach ein paar Wochen haben wir dann die Antwort.

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 03.01.2008, 18:17

Das steht auch in der PN an Pat... Zum selber testen: Suchwort Stundenzettelgenerator. Die Seite existiert seit ziemlich genau einem Jahr und ist noch nicht im Index.
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Opaque
Rear Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 2971
Registriert: 08.03.2004, 11:10

Ungelesener Beitrag von Opaque » 03.01.2008, 18:27

Ok. Habt Ihr den Link per E-Mail kommuniziert? Dann bin ich jetzt mal gespannt.

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 03.01.2008, 19:25

Nein, auf grund technischer probleme nicht. Jemand mit gmail-account hier? ;)
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Benutzeravatar
Dude
Moderator
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10371
Registriert: 08.03.2004, 12:56
Wohnort: Berlin

Ungelesener Beitrag von Dude » 03.01.2008, 19:29

sicher =)

Hast ne PN
####

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 03.01.2008, 19:34

Mail ging um 19:32 raus. Bin gespannt...
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Benutzeravatar
Dude
Moderator
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10371
Registriert: 08.03.2004, 12:56
Wohnort: Berlin

Ungelesener Beitrag von Dude » 03.01.2008, 19:45

Link wurde angeklickt und auch noch mal zurückgeschickt. Dann schaumer mal
####

Benutzeravatar
Viprex
Vice Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 4590
Registriert: 08.03.2004, 18:33
Wohnort: Hohenlockstedt
Kontaktdaten:

Ungelesener Beitrag von Viprex » 03.01.2008, 22:51

Super Test, da bin ich gespannt, ob meine Google-Paranoia gerechtfertigt ist :P
Nachts essen ist der Hit!
Kommt gleich neben tagsüber essen :)

Luke
Captain
Beiträge: 795
Registriert: 08.03.2004, 18:59

Ungelesener Beitrag von Luke » 03.01.2008, 23:00

Ähm, Google Mitarbeiter lesen natürlich auch in diesem Forum und verhindern, dass ihr ihnen mit so einfachen Versuchen auf die Schliche kommt ;)

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 03.01.2008, 23:02

dann wird halt noch ein zweiter geheimtest gestartet ;)
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Benutzeravatar
Dude
Moderator
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10371
Registriert: 08.03.2004, 12:56
Wohnort: Berlin

Ungelesener Beitrag von Dude » 03.01.2008, 23:37

Noch ist alles im grünen Bereich...
####

Opaque
Rear Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 2971
Registriert: 08.03.2004, 11:10

Ungelesener Beitrag von Opaque » 04.01.2008, 10:30

Wenn es klappt, dauert es bestimmt einen Moment.

Ohne die Seite selbst anzumelden, hat der Google Crawler bei mir zuletzt zwei, drei Wochen gebraucht. Die hatte ich allerdings öffentlich verlinkt. Yahoo war nach gut einer Woche da.

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 04.01.2008, 10:52

Hab die Suchanfrage bei meiner schnellauswahl dabei - die verlier ich erstmal nicht aus den Augen. Wenn sich was tun sollte meld ich mich auf jeden Fall nochmal...
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 07.01.2008, 19:04

Bislang noch nichts... Ich poste mal zum vergleich nen link auf den selben server aber ein anderes verzeichnis: http://www.sehschlangen-online.de/suchmaschinenfoppen/
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Benutzeravatar
Dude
Moderator
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10371
Registriert: 08.03.2004, 12:56
Wohnort: Berlin

Ungelesener Beitrag von Dude » 07.01.2008, 19:18

Sehr gute Idee!

Ich habe gemerkt, dass Kommentare auf digg.com immer binnen weniger Minuten indiziert sind - mal schauen wie lange es hier dauert.
####

Benutzeravatar
Soulprayer
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 12845
Registriert: 01.07.2004, 20:42
Wohnort: Solingen

Ungelesener Beitrag von Soulprayer » 07.01.2008, 20:46

irgend-Q-was und ne positive dezimalzahl?
*das nicht ganz versteht*
WAS genau muss man da angeben auf dem suchmaschinenfopper?
Ich bin ein UFO - ein unheimlich faules Objekt.

Benutzeravatar
Epfi
Admiral
Turtleboard Veteran
Turtleboard Veteran
Beiträge: 10520
Registriert: 08.03.2004, 11:02
Wohnort: Haus, das Verrückte macht
Kontaktdaten:

Ungelesener Beitrag von Epfi » 07.01.2008, 20:54

Ja, das ist nicht ernsthaft der suchmaschinenfopper sondern ein skript was Dezimalzahlen ins Festkommaformat umrechnet ;)
hartware.net - *** ****** ***, ** ************ **** **** *********** ****.

Antworten