Friends:
Amici:
Stories


103 103
Archivio:
November 2003
Sun Mon Tue Wed Thu Fri Sat
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30            
Oct   Dec



Il mio biglietto da visita.





Click here to send an email to the editor of this weblog.

Technorati Profile


Google
Web
val.demar.in



Creative Commons License
This work is licensed under a Creative Commons License.

Updated: 19-12-2005; 9:35:32.

 Venerdì, 28 novembre 2003

Su gentile richiesta di X§, tento di spiegare la storia dei robots.txt "come ad un bambino di sei anni".

I motori di ricerca funzionano grazie a dei programmi specializzati che navigano in continuazione su tutta la rete saltando di link in link memorizzando tutto. Si chiamano "spider" (ragni) probabilmente perché si muovono rapidamente sul "web" (ragnatela).

Senza gli spider non ci sarebbero i motori di ricerca, però avere un programma automatico che ogni giorno legge tutto il tuo sito (che potenzialmente è composto da migliaia di pagine) può essere costoso in termini di consumo di banda e di risorse (soprattutto quando, come avviene spesso, quelle pagine non sono affatto cambiate).

Il file robots.txt è un file che i webmaster mettono sui server per evitare che i motori di ricerca leggano ed indicizzino pagine che non dovrebbero essere indicizzate (perché riservate o più semplicemente perché non ha senso farlo).

Facendo una ricerca su "personalità+confusa+papa", google propone tra i risultati il tuo sito, ma non è il primo (perché mai dovrebbe esserci prima blognews?) e comunque non si tratta dell'ultimo post (prova a premere sul link "Copia cache" e vedrai che si tratta di una vecchia pagina con una storia del papa precedente).

Fino a ieri su tutti i siti di Splinder c'era un file che diceva ai motori di ricerca che si presentavano di non indicizzare alcuna pagina. Oggi pare non ci sia più.

Adesso smetti di fare i capricci e vai a lavarti le mani.

15 15 15
© Copyright 2005 Paolo Valdemarin.