ArcadiA Club - Il file robots.txt: spiegazione rapida


- Il file Robots.txt -
TUTORIAL
Cos'è e a cosa serve il file robots.txt
<% 'ADV_ORGANIZER 1.0 \| formato, categoria, base, altezza, unico, disposizione, voto, dove, numero,tipo,refresh,output response.write(organize_adv(0,categoria,120,600,,,7,,1,0,1,)) %>	DEFINIZIONE Il file "Robots.txt" è un normale file di testo (da posizionare nella root, la cartella principale del proprio spazio web) che contiene delle restrizioni di utenza al proprio sito; esso può esporre un elenco di browser o di spider (User-agent, robot, o altro) che non devono avere accesso ad una determinata parte o a tutto il sito in questione (Disallow). Esempio: User-agent: NomeUserAgent Disallow: / Il primo campo (User-agent) serve a definire quale robot (es. Internet Explorer, lo spider di Google, ecc.) dovrà essere escluso, il secondo (Disallow) invece descrive da quale sezione del sito escluderlo. Ecco un esempio che fornisce una panoramica generale del funzionamento del file: robots.txt. I VANTAGGI In teoria i file robots.txt avrebbero l'enorme utilità di "nascondere" agli User-agent indesiderati il proprio sito o parte di esso. GLI SVANTAGGI Le problematiche legate a i file robots.txt sorgono quando l'User-agent (il robot) ignora le limitazioni imposte dal file (attenzione però a non confondere un robot che ignora le disposizioni del robots.txt da un robot che non comprende ciò che sta scritto nello stesso). COME TESTARLI Esistono vari siti che offrono tool che permettono di testare la validità del file robots.txt e i nomi dei vari User-agent; una buona lista può essere quella fornita qui e nella sezione LinkZ di AAC.
<< INDIETRO