Come usare il file robots.txt

Il file robots.txt è uno strumento molto potente ma anche potenzialmente piuttosto pericoloso per il seo di un sito, dovrebbe essere usato con cautela in quanto è piuttosto facile e frequente combinare inavvertitamente gravi pasticci.
Come abbiamo detto questo file è uno degli strumenti di base del seo, si trova nella radice di ogni sito web ed è fatto per indicare allo spider di Google e degli altri motori di ricerca quali contenuti non volete che siano indicizzati. Un utilizzo piuttosto tipico è quello indicato in questo post, quando stiamo ancora lavorando al sito e pensiamo che non sia ancora pronto per essere indicizzato dai motori di ricerca.

User-agent: *
Disallow: /

Perchè un cattivo utilizzo del file robots.txt può essere dannoso?

La verità è che il software che fa funzionare Google (ma lo stesso vale anche per gli altri motori di ricerca) si è fatto piuttosto sofisticato. Questa evoluzione ha subito delle accelerazione negli ultimi anni (attenzione: stiamo parlando di anni, non mesi). Ci fu un tempo in cui lo spider di Google none ra neppure in grado di seguire i javascript, ora tutto questo è preistoria. Per rispondere alla domanda, il problema è che con un uso imprudente del file robots potreste impedire allo spider di fare bene il suo lavoro, che non è più limitato alla scansione del testo di una pagina.
Per semplificare al massimo il crawler è in grado di vedere le pagine (quasi) come le vedete voi sul vostro browser. In realtà non è esattamente così ma non è questo il punto, così come il vostro browser per farvi vedere correttamente una pagina web deve caricare html, css, javascript, immagini e parecchie altre cose, allo stesso modo anche il crawler dei motori di ricerca prova a leggere tutti i file necessari alla visualizzazione di una pagina, come se fosse un browser. Che succede se, per esempio, avete bloccato con il file robots.txt il css utilizzato da una pagina?
Usiamo ancora una semplificazione estrema e diciamo che il crawler come minimo si insospettisce. Potrebbe pensare che avere qualcosa da nascondere, per esempio state cercando di camuffare del testo usando il colore bianco su sfondo chiaro.
A maggior ragione questo succede se ad essere bloccato è un javascript.

E’ obbligatorio avere un file robots.txt?

Obbligatorio no, però è una buona idea mettercelo. Come minimo eviterete di riempire di inutili errori 404 il file di log: tutti gli spider bene educati cercano di leggere quel file, come prima cosa.

Come dovrebbe essere il file robots.txt?

Nella maggior parte dei casi così:

User-agent: *

Se siete sicurissimi di quello che state facendo potete bloccare una directory, attenzione però: nel caso di WordPress bloccare la directory wp-contents/plugins non è una buona idea, per i motivi che abbiamo visto sopra. Molti plugin installano in quella directory file necessari alla corretta visualizzazione delle pagine.

Cookie	Durata	Descrizione
_pk_id.9.ff27	1 year 1 month	Description is currently not available.
_pk_ses.9.ff27	1 hour	Description is currently not available.
CONSENT	2 years	YouTube sets this cookie via embedded YouTube videos and registers anonymous statistical data.

Cookie	Durata	Descrizione
VISITOR_INFO1_LIVE	6 months	YouTube sets this cookie to measure bandwidth, determining whether the user gets the new or old player interface.
YSC	session	Youtube sets this cookie to track the views of embedded videos on Youtube pages.
yt.innertube::nextId	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Durata	Descrizione
__Secure-YEC	1 year 1 month	Description is currently not available.
VISITOR_PRIVACY_METADATA	6 months	Description is currently not available.

Il file robots.txt

Perchè un cattivo utilizzo del file robots.txt può essere dannoso?

E’ obbligatorio avere un file robots.txt?

Come dovrebbe essere il file robots.txt?

Lascia un commento Annulla risposta

Ultimi articoli

Tag

Newsletter

Vuoi iniziare un nuovo progetto?

Supero ltd

Il file robots.txt

Perchè un cattivo utilizzo del file robots.txt può essere dannoso?

E’ obbligatorio avere un file robots.txt?

Come dovrebbe essere il file robots.txt?

Articoli correlati

Lascia un commento Annulla risposta