[linux-l] Fwd: [lugo] Jobbörse.com scannt Webseite

Norman Steinbach norm at nsteinbach.de
Di Nov 22 22:32:25 CET 2016


Hallo,

Zu der Frage nach dem Domainnamen:
Wenn im log "jobboerse.com" steht, dann natürlich die Version mit oe.
Umlaute in Domainnamen "gehen" zwar, weil die Browser das erkennen und 
umsetzen, aber in Wirklichkeit sieht der Domainname "jobbörse.com" dann 
nämlich so aus: "xn--jobbrse-d1a.com" - das nennt sich punicode und ist 
ein workaround, um nicht-ascii-Zeichen in Domainnamen darzustellen. Wann 
immer ein Programm das nicht unterstützt, wird es also hässlich...ich 
würde aber mal tippen, wenn die Umlaut-Domain irgendwo auftaucht und 
auch geblockt werden soll, dann müsste in der robots.txt wohl die 
punicode-Schreibweise davon stehen, oder es gibt einen Fehler/wird nicht 
korrekt geparst.

Den crawler kenne ich jedoch leider nicht, da ich selbst keine Website 
betreibe. Womöglich macht sich der Betreiber einen Spaß daraus, die 
robots.txt nur einmal pro Woche oder so zu parsen, und lässt das Ding 
ansonsten weiter alle 2 Sekunden frei drehen, oder ähnliches?
Evtl. findet Google dazu etwas?

Viele Grüße,

Norman

On 22.11.2016 21:52, Gerard Bekhuis wrote:
> Hallo liebe Kollegen.
>
> Könnt ihr bitte mal nachschauen?
> Vielen herzlichen Dank.
> Gérard
>
>
> -------- Weitergeleitete Nachricht --------
> Betreff: [lugo] Jobbörse.com scannt Webseite
> Datum: Tue, 22 Nov 2016 16:17:55 +0100
> Von: Rolf-Werner Eilert <eilert-sprachen at t-online.de>
> Antwort an: eilert-sprachen at t-online.de, lugo at lugo.de
> An: lugo at lugo.de
>
> Seit einiger Zeit mache ich nächtens immer ein Backup auf der Website,
> das ich dann runterlade. Seit ca. 2 Wochen habe ich plötzlich immer eine
> Mail vom System  (cron meldet das):
>
> tar: /var/www/......./statistics/logs/access_log: file changed as we readit
>
> Ein Blick da rein zeigt, dass die Datei ca. alle paar Sekunden(!) einen
> Zugriff von einem Bot von www.jobboerse.com registriert.
>
> Dort nachgeschaut, gehört zu XING, und die geben ganz frech an, dass sie
> tatsächlich alle 2 Sekunden scannen. Sie verlinken zu einer Seite, auf
> der erklärt ist, wie die robots.txt funktioniert, und in der habe
> icheingetragen
>
> User-agent: www.jobboerse.com
> Disallow: /
>
> um sie ganz auszusperren. Natürlich schreiben sie auch, dass der Bot
> nicht sofort reagiert, sondern erst, "wenn die Seite das nächste Mal
> gelesen wird". Jetzt bin ich ja mal gespannt, ob das irgendwann aufhört...
>
> Die Frage ist noch, ob es jobbörse oder jobboerse heißen muss, beide
> Schreibweisen gehen, und der Browser schaltet auf "ö" um.
>
> Kennt den Bot hier jemand, bzw. sind die im Netz bekannt mit diesem Bot?
> Ist das normal, oder ärgert mich das zu Recht? Ich finde keine Infos
> dazu im Netz.
>
> Würde mich mal über eure Überlegungen freuen.
>
> Grüße
> Rolf
>
> ---
> Sie haben diese Mail erhalten, weil sie Mitglied der LUGO-Mailingliste
> sind.
> Um sich von der Liste abzumelden schicken sie eine Mail an
> <lugo+unsubscribe at lugo.de>
>
> _______________________________________________
> linux-l mailing list
> linux-l at mlists.in-berlin.de
> Die Mailingliste der BeLUG (Berliner Linux User Group)
>
> Wenn du diese Mailingliste  abbestellen willst, gehe bitte auf
> https://mlists.in-berlin.de/mailman/listinfo/linux-l-mlists.in-berlin.de
> und trage dich dort bitte aus
>



Mehr Informationen über die Mailingliste linux-l