27 Nov Disallow
Disallow è un comando che tramite il file robots.txt possiamo impartire a Google e agli altri motori di ricerca. Letteralmente, sta a significare: “non scansionare queste pagine o parti di sito”.
1. Informazioni propedeutiche
Se non hai mai sentito nominare parole come crawler, file robots.txt, scansione e indicizzazione relativamente alla SEO, ti consigliamo caldamente di leggere le relative voci presenti nel nostro glossario. Per un elenco, visita la sezione Leggi anche, presente in fondo a questo articolo.
2. Il comando Disallow: in robots.txt
Una volta che hai avuto accesso al file robots.txt del tuo sito, con buona probabilità noterai che la prima riga di comandi riporta la stringa user agent: *, che qui non ci interessa approfondire. La seconda, immediatamente a capo, dovrebbe invece recitare:
Disallow:
e può essere seguita o meno da determinati parametri. Ecco, quello è il comando Disallow di cui ci occupiamo qui.
Va prima di tutto specificato che non è detto che troverai un solo comando Disallow all’interno di robots.txt. Ne possono essere presenti diversi e, a seconda della stringa che segue i due punti, ognuno di essi può avere un significato diverso. Vediamo a cosa rimandano questi significati nello specifico.
Se la riga è vuota (ovvero, non c’è scritto nulla dopo Disallow:) non stai bloccando niente, e ciò significa che spider e crawler possono scansionare ogni parte del tuo sito. Se i due punti sono seguiti dalla barra obliqua (/), invece, impedirai ai motori di ricerca di scansionare tutto il sito.
Detta graficamente:
User-agent: *
Disallow: /
Significa che motori di ricerca non scansioneranno alcuna pagina del tuo sito. Mentre
User-agent: *
Disallow:
Significa che i motori di ricerca scansioneranno il tuo sito per intero.
Chiaramente, questo comando permette di fare molto di più. Ad esempio, non vuoi che i bot di Yahoo! scansionino la directory del tuo sito relativa ai video? Basta specificare nel file robots.txt che il comando è ristretto al solo Yahoo (stringa: slurp) e subito dopo indicare la cartella che vogliamo nascondergli (/Video). La stringa corretta sarà pertanto la seguente:
User-agent: slurp
Disallow: /Video
Attenzione alle lettere maiuscole o minuscole. I bot le riconoscono come diverse e quindi con la stringa sopraelencata Yahoo! non scansionerà la cartella /Video ma scansionerà la cartella /video, se presente.
3. L’importanza del comando Disallow:
Fare attenzione a utilizzare correttamente questo comando è importante per due ordini di motivi.
Primo. Contribuisce a migliorare il crawl budget perché riduce le pagine che vengono scansionate. Come sappiamo, dal punto di vista SEO, è fondamentale che definiamo noi preliminarmente quali parti del sito debbano essere scansionate e quali no. Per esempio, è importante rilasciare ai robot dei motori di ricerca l’informazione di non scansionare le sezioni di programma delle piattaforme, le aree coperte da log in e quelle di amministrazione dei siti.
Secondo, è speculare al primo. Anche se impediamo ai crawler di scansionare una determinata pagina o cartella, non è detto che questa non venga indicizzata. Scansione e indicizzazione sono due cose diverse, e per impedire la seconda è necessario un comando apposito: noindex. Detta altrimenti, se vogliamo impedire che una determinata pagina finisca nei risultati di ricerca, non è sufficiente il comando Disallow ma ne serve uno apposito che ne impedisca l’indicizzazione (noindex, appunto).
D’altronde, l’opera dei crawler e degli spider non è l’unica che consente a un determinato contenuto di finire nell’indice di Google. Questo può essere indicizzato ad esempio tramite backlink (molto semplicemente: un link che da un altro sito o dal tuo sito stesso rimanda alla pagina in questione) o, ancor più banalmente, se il contenuto viene condiviso sui social.