Utilizzo del file robots.txt
Il file robots.txt è un semplice file in formato testo che ha uno specifico significato per la maggioranza dei motori di ricerca. Definendo alcune regole al suo interno, si può istruire gli spider a non scansionare ed indicizzare certi files, cartelle interne al proprio sito o tutto: per esempio se non si vuole che Google indicizzi la cartella /demo in quanto poco significativa e materiale di demo per il proprio sito, “robots.txt” permette di dire questo a Google.
Quindi andiamo a scrivere il nostro robots.txt.
Creiamo un normale file di testo e lo nominiamo esattamente “robots.txt”. Questo file deve essere caricato nella root principale del sito (es. www.miosito.it), e non in eventuali sottocartelle (es. www.miosito.it/topolino/). E’ solo seguendo queste due operazioni che lo spider del motore di ricerca interpreterà le istruzioni contenute nel file.
Adesso che sappiamo come nominare il file e dove caricarlo, dobbiamo sapere cosa metterci dentro per dare il comando ai motori di ricerca di seguire questo protocollo (formalmente il “Robots Exclusion Protocol“).
Il formato è semplice per tutti gli intenti e scopi: una linea User-agent, per identificare il crawler in questione, seguito da una o più linee Disallow, per disabilitarlo all’indicizzazione di certe parti del proprio sito, e dalla presenza o meno di linee Allow, per abilitarlo all’indicizzazione di certe parti del proprio sito.
- Ecco un robots.txt che blocca tutto:
User-agent: *
Disallow: /
Così tutti i robots (indicati con “*”) sono comandati a non indicizzare nessuna pagina del sito (indicato con “/”). Molto probabilmente non è quello che si vuole, ma è per dare l’idea. - Questo invece è il più libertino ed il più usato:
User-agent: *
Disallow:
In questo modo tutti i motori di ricerca sono liberi di visitare ed indicizzare le pagine del sito (lasciando lo spazio vuoto dopo i : del Disallow). - Adesso passiamo all’essere più discriminatori. Mentre ogni webmaster ama google, si potrebbe non volere che l’imagebot di google indicizzi le immagini del sito e che le renda ricercabili online. Il comando seguente farà questo stratagemma:
User-agent: Googlebot-Image
Disallow: / - Per disabilitare tutti i motori di ricerca e robots dall’indicizzare specifiche cartelle e pagine:
User-agent: *
Disallow: /cgi-bin/
Disallow: /topolino/
Disallow: /paperino/blank.htm
Disallow: /*?
L’ultimo comando impedisce l’indicizzazione di tutte le pagine dinamiche, che contengono il carattere ? nelle url.
E ora non mi resta altro che augurare a tutti… buon robots!
*Carlo*

Grazie Carlo, post molto utile!