File robots.txt: come funziona?

Tutti coloro che creano o gestiscono un sito web avranno sentito parlare almeno una volta del file robots.txt. Questo file è utilizzato dai web master per fornire ai crawler dei motori di ricerca delle istruzioni su cosa scansionare e cosa no. Andiamo a scoprire insieme come funziona il file robots.txt.

File robot .txt: che cos’è?

Come detto il file robots.txt ha il compito di fornire ai crawler dei motori di ricerca istruzioni su cosa devono scansionare e cosa no, cosa deve essere quindi indicizzato e cosa invece deve rimanere nascosto. Si tratta di uno strumento definito Protocollo di Esclusione Robot che ha un funzionamento molto specifico. Ogni bot infatti, quando inizia il procedimento di scansione del sito web visiterà per prima la pagina /robots.txt per ricercare le istruzioni fornite dal web master- 

Grazie a questo file è possibile dare istruzioni ai crawler di non effettuare la scansione di alcune delle pagine presenti sul proprio sito web. Molto utile soprattutto se si hanno dei contenuti duplicati che potrebbero finire per penalizzare il sito sui motori di ricerca. 

Robots .txt: la struttura

Questo tipo di file ha una struttura molto semplice, nella prima riga sarà necessario indicare i bot con cui si desidera comunicare le istruzioni mentre nella seconda riga bisognerà riferirsi alle pagine o alle sezioni del proprio sito che non dovrebbero essere visitate dai bot. Ecco la sua struttura base:

User-agent: *

Disallow:

Il file robots.txt può essere utilizzato anche per indicare ai bot dove è localizzata la sitemap del vostro sito. Inserendo una semplice stringa (Sitemap: ) a cui far seguire l’URL esatto della propria sitemap sarà possibile portare a termine l’operazione. 

File robots .txt: come crearlo?

Non tutti i siti web dispongono di file robots.txt e ovviamente, nel caso in cui i bot non trovino nessun file effettueranno automaticamente la scansione di tutte le pagine del sito web, stessa cosa che accade nel caso in cui esista un file ma esso non contenga alcun tipo di testo. 

Se si intende creare un file robots.txt per il proprio sito web, bisognerà aggiungere il file nella cartella principale del proprio server in modo che i crawler possano trovarlo visitando l’URL del vostro sito /robots.txt. 

Quando viene creato il file per il proprio sito bisogna accertarsi di chiamarlo esattamente robots.txt, utilizzando soltanto lettere minuscole, senza aggiungere nessun tipo di simbolo o carattere. Se il nome non sarà esattamente questo i bot non potranno riconoscerlo e la sua creazione sarà del tutto inutile. 

Alcuni tipi di bot possono decidere di ignorare i file robots.txt, questo avviene molto spesso nel caso di bot malevoli come quelli utilizzati per attività di spam. Il file robots.txt è accessibile pubblicamente, quindi è importante non inserire al suo interno informazioni riservate. 

Per questo motivo è importante non utilizzare questo file per nascondere parti del proprio sito web, cioè ad esempio utilizzando la stringa “Disallow” per nascondere una specifica cartella che contiene informazioni riservate non avrebbe in realtà alcun effetto. 

Bisogna inoltre specificare che ogni sottodominio dovrà avere il proprio file robots.txt e che ogni parametro dovrà essere inserito su singola riga e che non vengono riconosciute virgole o spazi. L’uso principale di questo file è per migliorare la SEO. 

L’attività di scansione e quella di indicizzazione dei bot sono attività differenti la scansione è effettuata dai crawler per analizzare i contenuti dei siti web e riferiscono le informazioni ottenute ai server, l’indicizzazione invece è l’inserimento degli URL delle pagine web nei motori di ricerca. In alcuni casi capita che i bot rispettino l’istruzione di non scansionare precise pagine web ma che queste vengano comunque indicizzate.