Paolo Valdemarin Weblog

Robots.txt for dummies

Su gentile richiesta di X§, tento di spiegare la storia dei robots.txt "come ad un bambino di sei anni".

I motori di ricerca funzionano grazie a dei programmi specializzati che navigano in continuazione su tutta la rete saltando di link in link memorizzando tutto. Si chiamano "spider" (ragni) probabilmente perché si muovono rapidamente sul "web" (ragnatela).

Senza gli spider non ci sarebbero i motori di ricerca, però avere un programma automatico che ogni giorno legge tutto il tuo sito (che potenzialmente è composto da migliaia di pagine) può essere costoso in termini di consumo di banda e di risorse (soprattutto quando, come avviene spesso, quelle pagine non sono affatto cambiate).

Il file robots.txt è un file che i webmaster mettono sui server per evitare che i motori di ricerca leggano ed indicizzino pagine che non dovrebbero essere indicizzate (perché riservate o più semplicemente perché non ha senso farlo).

Facendo una ricerca su "personalità+confusa+papa", google propone tra i risultati il tuo sito, ma non è il primo (perché mai dovrebbe esserci prima blognews?) e comunque non si tratta dell'ultimo post (prova a premere sul link "Copia cache" e vedrai che si tratta di una vecchia pagina con una storia del papa precedente).

Fino a ieri su tutti i siti di Splinder c'era un file che diceva ai motori di ricerca che si presentavano di non indicizzare alcuna pagina. Oggi pare non ci sia più.

Adesso smetti di fare i capricci e vai a lavarti le mani.

6:54:38 PM

comments: trackback:

Venerdì, 28 novembre 2003