Questo file va messo nella root del sito.
Ad esempio http://www.nomesito.it/robots.txt
Con questo file si possono escludere cartelle o file dall’indicizzazione.
Molte voci di corridoio dicono che allo spider di google piace trovare questo file, ma queste voci non sono verificate.
Il file è composto da questi campi:
User-agent:
Disallow:
Nel campo User-agent devi mettere il nome dello spider.
Con il simbolo * ti stai riferendo a tutti gli spider.
Nel campo Disallow dirai cosa non vuoi che lo spider prelevi.
Per comunicare a tutti gli spider che non ci sono file che vuoi che non prelevino il file robot si presenta così:
User-agent: *
Disallow:
Dire a google di non prendere il file hello.htm:
User-agent: googlebot
Disallow: /helloo.htm
Direi a google di non prendere niente nella cartella hello:
User-agent: googlebot
Disallow: /hello/