|
DEFINIZIONE
Il file "Robots.txt" è un normale file di testo (da posizionare nella root,
la cartella principale del proprio spazio web) che contiene delle
restrizioni di utenza al proprio sito; esso può esporre un elenco di browser
o di spider (User-agent, robot, o altro) che non devono avere accesso ad una
determinata parte o a tutto il sito in questione (Disallow). Esempio:
User-agent: NomeUserAgent Disallow: /
Il primo campo (User-agent) serve a definire quale robot (es. Internet
Explorer, lo spider di Google, ecc.) dovrà essere escluso, il secondo (Disallow)
invece descrive da quale sezione del sito escluderlo. Ecco un esempio che
fornisce una panoramica generale del funzionamento del file:
robots.txt.
I VANTAGGI
In teoria i file robots.txt avrebbero l'enorme utilità di "nascondere" agli
User-agent indesiderati il proprio sito o parte di esso.
GLI SVANTAGGI
Le problematiche legate a i file robots.txt sorgono quando l'User-agent
(il robot) ignora le limitazioni imposte dal file (attenzione però a non
confondere un robot che ignora le disposizioni del robots.txt da un robot
che non comprende ciò che sta scritto nello stesso).
COME TESTARLI
Esistono vari siti che offrono tool che permettono di testare la validità
del file robots.txt e i nomi dei vari User-agent; una buona lista può essere
quella fornita
qui e nella sezione
LinkZ di AAC. |