Utilizzo del file robots.txt

Il file robots.txt è un semplice file in formato testo che ha uno specifico significato per la maggioranza dei motori di ricerca. Definendo alcune regole al suo interno, si può istruire gli spider a non scansionare ed indicizzare certi files, cartelle interne al proprio sito o tutto: per esempio se non si vuole che Google indicizzi la cartella /demo in quanto poco significativa e materiale di demo per il proprio sito, “robots.txt” permette di dire questo a Google.

Quindi andiamo a scrivere il nostro robots.txt.
Creiamo un normale file di testo e lo nominiamo esattamente “robots.txt”. Questo file deve essere caricato nella root principale del sito (es. www.miosito.it), e non in eventuali sottocartelle (es. www.miosito.it/topolino/). E’ solo seguendo queste due operazioni che lo spider del motore di ricerca interpreterà le istruzioni contenute nel file.

Adesso che sappiamo come nominare il file e dove caricarlo, dobbiamo sapere cosa metterci dentro per dare il comando ai motori di ricerca di seguire questo protocollo (formalmente il “Robots Exclusion Protocol“).
Il formato è semplice per tutti gli intenti e scopi: una linea User-agent, per identificare il crawler in questione, seguito da una o più linee Disallow, per disabilitarlo all’indicizzazione di certe parti del proprio sito, e dalla presenza o meno di linee Allow, per abilitarlo all’indicizzazione di certe parti del proprio sito.

  • Ecco un robots.txt che blocca tutto:
    User-agent: *
    Disallow: /

    Così tutti i robots (indicati con “*”) sono comandati a non indicizzare nessuna pagina del sito (indicato con “/”). Molto probabilmente non è quello che si vuole, ma è per dare l’idea.
  • Questo invece è il più libertino ed il più usato:
    User-agent: *
    Disallow:

    In questo modo tutti i motori di ricerca sono liberi di visitare ed indicizzare le pagine del sito (lasciando lo spazio vuoto dopo i : del Disallow).
  • Adesso passiamo all’essere più discriminatori. Mentre ogni webmaster ama google, si potrebbe non volere che l’imagebot di google indicizzi le immagini del sito e che le renda ricercabili online. Il comando seguente farà questo stratagemma:
    User-agent: Googlebot-Image
    Disallow: /
  • Per disabilitare tutti i motori di ricerca e robots dall’indicizzare specifiche cartelle e pagine:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /topolino/
    Disallow: /paperino/blank.htm
    Disallow: /*?

    L’ultimo comando impedisce l’indicizzazione di tutte le pagine dinamiche, che contengono il carattere ? nelle url.

E ora non mi resta altro che augurare a tutti… buon robots!
*Carlo*

Commenti (1)

Francescaagosto 27, 2009

Grazie Carlo, post molto utile!

Scrivi un commento

Il tuo commento