27 Nov Disallow

Posted at 16:51h in by Federico Fontolan

Disallow è un comando che tramite il file robots.txt possiamo impartire a Google e agli altri motori di ricerca. Letteralmente, sta a significare: “non scansionare queste pagine o parti di sito”.

1. Informazioni propedeutiche

Se non hai mai sentito nominare parole come crawler, file robots.txt, scansione e indicizzazione relativamente alla SEO, ti consigliamo caldamente di leggere le relative voci presenti nel nostro glossario. Per un elenco, visita la sezione Leggi anche, presente in fondo a questo articolo.

2. Il comando Disallow: in robots.txt

Una volta che hai avuto accesso al file robots.txt del tuo sito, con buona probabilità noterai che la prima riga di comandi riporta la stringa user agent: *, che qui non ci interessa approfondire. La seconda, immediatamente a capo, dovrebbe invece recitare:

Disallow:

e può essere seguita o meno da determinati parametri. Ecco, quello è il comando Disallow di cui ci occupiamo qui.

Va prima di tutto specificato che non è detto che troverai un solo comando Disallow all’interno di robots.txt. Ne possono essere presenti diversi e, a seconda della stringa che segue i due punti, ognuno di essi può avere un significato diverso. Vediamo a cosa rimandano questi significati nello specifico.

Se la riga è vuota (ovvero, non c’è scritto nulla dopo Disallow:) non stai bloccando niente, e ciò significa che spider e crawler possono scansionare ogni parte del tuo sito. Se i due punti sono seguiti dalla barra obliqua (/), invece, impedirai ai motori di ricerca di scansionare tutto il sito.

Detta graficamente:

User-agent: *
Disallow: /

Significa che motori di ricerca non scansioneranno alcuna pagina del tuo sito. Mentre

User-agent: *
Disallow:

Significa che i motori di ricerca scansioneranno il tuo sito per intero.

Chiaramente, questo comando permette di fare molto di più. Ad esempio, non vuoi che i bot di Yahoo! scansionino la directory del tuo sito relativa ai video? Basta specificare nel file robots.txt che il comando è ristretto al solo Yahoo (stringa: slurp) e subito dopo indicare la cartella che vogliamo nascondergli (/Video). La stringa corretta sarà pertanto la seguente:

User-agent: slurp
Disallow: /Video

Attenzione alle lettere maiuscole o minuscole. I bot le riconoscono come diverse e quindi con la stringa sopraelencata Yahoo! non scansionerà la cartella /Video ma scansionerà la cartella /video, se presente.

3. L’importanza del comando Disallow:

Fare attenzione a utilizzare correttamente questo comando è importante per due ordini di motivi.

Primo. Contribuisce a migliorare il crawl budget perché riduce le pagine che vengono scansionate. Come sappiamo, dal punto di vista SEO, è fondamentale che definiamo noi preliminarmente quali parti del sito debbano essere scansionate e quali no. Per esempio, è importante rilasciare ai robot dei motori di ricerca l’informazione di non scansionare le sezioni di programma delle piattaforme, le aree coperte da log in e quelle di amministrazione dei siti.

Secondo, è speculare al primo. Anche se impediamo ai crawler di scansionare una determinata pagina o cartella, non è detto che questa non venga indicizzata. Scansione e indicizzazione sono due cose diverse, e per impedire la seconda è necessario un comando apposito: noindex. Detta altrimenti, se vogliamo impedire che una determinata pagina finisca nei risultati di ricerca, non è sufficiente il comando Disallow ma ne serve uno apposito che ne impedisca l’indicizzazione (noindex, appunto).

D’altronde, l’opera dei crawler e degli spider non è l’unica che consente a un determinato contenuto di finire nell’indice di Google. Questo può essere indicizzato ad esempio tramite backlink (molto semplicemente: un link che da un altro sito o dal tuo sito stesso rimanda alla pagina in questione) o, ancor più banalmente, se il contenuto viene condiviso sui social.

Disallow

27 Nov Disallow

1. Informazioni propedeutiche

2. Il comando Disallow: in robots.txt

3. L’importanza del comando Disallow:

Gli ultimi articoli

Argomenti