Disallow

Disallow

Disallow è un comando che tramite il file robots.txt possiamo impartire a Google e agli altri motori di ricerca. Letteralmente, sta a significare: “non scansionare queste pagine o parti di sito”.

 

1. Informazioni propedeutiche

Se non hai mai sentito nominare parole come crawler, file robots.txt, scansione e indicizzazione relativamente alla SEO, ti consigliamo caldamente di leggere le relative voci presenti nel nostro glossario. Per un elenco, visita la sezione Leggi anche, presente in fondo a questo articolo.

 

2. Il comando Disallow: in robots.txt

Una volta che hai avuto accesso al file robots.txt del tuo sito, con buona probabilità noterai che la prima riga di comandi riporta la stringa user agent: *, che qui non ci interessa approfondire. La seconda, immediatamente a capo, dovrebbe invece recitare:

 

Disallow:

 

e può essere seguita o meno da determinati parametri. Ecco, quello è il comando Disallow di cui ci occupiamo qui.

Va prima di tutto specificato che non è detto che troverai un solo comando Disallow all’interno di robots.txt. Ne possono essere presenti diversi e, a seconda della stringa che segue i due punti, ognuno di essi può avere un significato diverso. Vediamo a cosa rimandano questi significati nello specifico.

 

Se la riga è vuota (ovvero, non c’è scritto nulla dopo Disallow:) non stai bloccando niente, e ciò significa che spider e crawler possono scansionare ogni parte del tuo sito. Se i due punti sono seguiti dalla barra obliqua (/), invece, impedirai ai motori di ricerca di scansionare tutto il sito.

 

Detta graficamente:

 

User-agent: *
Disallow: /  

 

Significa che motori di ricerca non scansioneranno alcuna pagina del tuo sito. Mentre

 

User-agent: *
Disallow:  

 

Significa che i motori di ricerca scansioneranno il tuo sito per intero.

Chiaramente, questo comando permette di fare molto di più. Ad esempio, non vuoi che i bot di Yahoo! scansionino la directory del tuo sito relativa ai video? Basta specificare nel file robots.txt che il comando è ristretto al solo Yahoo (stringa: slurp) e subito dopo indicare la cartella che vogliamo nascondergli (/Video). La stringa corretta sarà pertanto la seguente:

 

User-agent: slurp
Disallow: /Video

 

Attenzione alle lettere maiuscole o minuscole. I bot le riconoscono come diverse e quindi con la stringa sopraelencata Yahoo! non scansionerà la cartella /Video ma scansionerà la cartella /video, se presente.

 

3. L’importanza del comando Disallow:

Fare attenzione a utilizzare correttamente questo comando è importante per due ordini di motivi.

 

Primo. Contribuisce a migliorare il crawl budget perché riduce le pagine che vengono scansionate. Come sappiamo, dal punto di vista SEO, è fondamentale che definiamo noi preliminarmente quali parti del sito debbano essere scansionate e quali no. Per esempio, è importante rilasciare ai robot dei motori di ricerca l’informazione di non scansionare le sezioni di programma delle piattaforme, le aree coperte da log in e quelle di amministrazione dei siti.

 

Secondo, è speculare al primo. Anche se impediamo ai crawler di scansionare una determinata pagina o cartella, non è detto che questa non venga indicizzata. Scansione e indicizzazione sono due cose diverse, e per impedire la seconda è necessario un comando apposito: noindex.  Detta altrimenti, se vogliamo impedire che una determinata pagina finisca nei risultati di ricerca, non è sufficiente il comando Disallow ma ne serve uno apposito che ne impedisca l’indicizzazione (noindex, appunto).

 

D’altronde, l’opera dei crawler e degli spider non è l’unica che consente a un determinato contenuto di finire nell’indice di Google. Questo può essere indicizzato ad esempio tramite backlink (molto semplicemente: un link che da un altro sito o dal tuo sito stesso rimanda alla pagina in questione) o, ancor più banalmente, se il contenuto viene condiviso sui social.

Tag: Seo
« Torna al Glossario