Il file robots.txt è uno strumento molto potente ma anche potenzialmente piuttosto pericoloso per il seo di un sito, dovrebbe essere usato con cautela in quanto è piuttosto facile e frequente combinare inavvertitamente gravi pasticci.
Come abbiamo detto questo file è uno degli strumenti di base del seo, si trova nella radice di ogni sito web ed è fatto per indicare allo spider di Google e degli altri motori di ricerca quali contenuti non volete che siano indicizzati. Un utilizzo piuttosto tipico è quello indicato in questo post, quando stiamo ancora lavorando al sito e pensiamo che non sia ancora pronto per essere indicizzato dai motori di ricerca.
User-agent: *
Disallow: /
Perchè un cattivo utilizzo del file robots.txt può essere dannoso?
La verità è che il software che fa funzionare Google (ma lo stesso vale anche per gli altri motori di ricerca) si è fatto piuttosto sofisticato. Questa evoluzione ha subito delle accelerazione negli ultimi anni (attenzione: stiamo parlando di anni, non mesi). Ci fu un tempo in cui lo spider di Google none ra neppure in grado di seguire i javascript, ora tutto questo è preistoria. Per rispondere alla domanda, il problema è che con un uso imprudente del file robots potreste impedire allo spider di fare bene il suo lavoro, che non è più limitato alla scansione del testo di una pagina.
Per semplificare al massimo il crawler è in grado di vedere le pagine (quasi) come le vedete voi sul vostro browser. In realtà non è esattamente così ma non è questo il punto, così come il vostro browser per farvi vedere correttamente una pagina web deve caricare html, css, javascript, immagini e parecchie altre cose, allo stesso modo anche il crawler dei motori di ricerca prova a leggere tutti i file necessari alla visualizzazione di una pagina, come se fosse un browser. Che succede se, per esempio, avete bloccato con il file robots.txt il css utilizzato da una pagina?
Usiamo ancora una semplificazione estrema e diciamo che il crawler come minimo si insospettisce. Potrebbe pensare che avere qualcosa da nascondere, per esempio state cercando di camuffare del testo usando il colore bianco su sfondo chiaro.
A maggior ragione questo succede se ad essere bloccato è un javascript.
E’ obbligatorio avere un file robots.txt?
Obbligatorio no, però è una buona idea mettercelo. Come minimo eviterete di riempire di inutili errori 404 il file di log: tutti gli spider bene educati cercano di leggere quel file, come prima cosa.
Come dovrebbe essere il file robots.txt?
Nella maggior parte dei casi così:
User-agent: *
Se siete sicurissimi di quello che state facendo potete bloccare una directory, attenzione però: nel caso di WordPress bloccare la directory wp-contents/plugins non è una buona idea, per i motivi che abbiamo visto sopra. Molti plugin installano in quella directory file necessari alla corretta visualizzazione delle pagine.
Lascia un commento