23 Nov Crawl budget
1. Cos’è il crawl budget
Per crawl budget si intende il numero massimo di pagine o URL di un sito che un bot di Google (crawler o spider) riesce a indicizzare in un giorno. È questo un numero che dipende da due valori: il limite di scansione e la richiesta di scansione.
2. Limite di scansione e richiesta di scansione
Il limite di scansione (in inglese crawl rate limit) determina il numero di volte che un crawler o uno spider possono scansionare un sito, e soprattutto a che velocità sono autorizzati a farlo. Questo fattore dipende da quello che potremmo definire lo “stato di salute della scansione” (in inglese crawl health) e dal fatto che l’intero sito web abbia come preimpostato un determinato numero di scansioni (questa opzione è modificabile esempio tramite l’importante strumento di Google Search Console, piattaforma che ogni bravo webmaster dovrebbe imparare a maneggiare).
A scanso di equivoci, spieghiamo anche cosa intendiamo per stato di salute della scansione. Detto in parole poverissime, se il sito è vivo e funzionante, carica velocemente e risponde immediatamente alle richieste dei bot, il limite di scansione salirà. Risultato: si può usare un numero maggiore di connessioni per aiutare i crawler a scansionare. Se il sito è lento o compromesso da errori di sistema, il limite scende e i bot di Google e degli altri motori di ricerca indicizzeranno di meno.
In parole semplici, la richiesta di scansione misura quanto i bot di Google “abbiano voglia” di indicizzare un sito. Ovviamente, trattandosi di software, non possiamo dire che abbiano una volontà propria, ma questa volontà è dettata da quanto spesso e con quanta regolarità aggiorni il tuo sito. In altre parole, più spesso lo aggiorni, più invoglierai i crawler a venirlo a visitare.
3. Ma è davvero importante interessarsi al crawl budget?
Assolutamente sì. E per capirlo basta dare uno sguardo a come funzionano i crawler. Questi sono programmi che trovano in automatico le nuove pagine che compaiono in internet, al fine di indicizzarle il prima possibile. Indicizzarle significa, detto molto terra terra, inserirle nell’indice di Google, che a sua volta le renderà disponibili a chi fa una ricerca sul web. Prova a rispondere a questa domanda: se hai un sito e inserisci un nuovo articolo nella sezione blog, preferiresti che questo articolo venisse mostrato subito agli internauti o dopo qualche settimana? È chiaramente una domanda retorica, che prevedere una sola risposta.
Per trovare nuovi contenuti, crawler e spider sono continuamente in rete, saltando di link in link, alla ricerca di nuovo materiale o di vecchie pagine che nel frattempo sono state aggiornate. Quando trovano del contenuto nuovo, ne copiano le informazioni nell’indice di Google (da qui la definizione di indicizzazione) che provvederà a processarle e a renderle fruibili agli utenti tramite il suo algoritmo.
Ecco, porre un limite a questa attività dei crawler ignorando l’importanza del crawl budget danneggerà il loro lavoro, e di conseguenza la visibilità del tuo sito.
4. Avere un sito che piace a Google: quali fattori condizionano il crawl budget?
Il numero di fattori che possono condizionare il crawl budget è abbastanza ampio, e non possiamo riassumerlo esaustivamente in queste righe. Tuttavia, possiamo consigliarti di fare attenzione ad alcuni aspetti tecnici particolari, ma alla portata di tutti. Ad esempio, dovresti provare a evitare che nel tuo sito siano presenti:
- pagine con poco contenuto, o con contenuto che Google considera poco interessante;
- articoli doppi o anche molto uguali ad altri articoli già presenti nel tuo sito o altrove nel web;
- i cosiddetti contenuti di article spinning, ovvero contenuti che sono presi da altri già esistenti e “mascherati” per apparire come nuovi, magari modificando qualche parola;
- tempi lenti di caricamento;
- pagine hackerate o contenenti virus;
- pagine con link corrotti, ovvero quei link che una volta cliccati non rimandano da nessuna parte, o rimandano verso una pagina che non esiste più;
- contenuti vecchi, non aggiornati da molto tempo e obsoleti;
- più genericamente, pagine difficili da navigare.
Probabilmente facendo attenzione a questi particolari non farai mutare la situazione come si passa dal giorno alla notte, ma è quantomeno una traccia da cui partire per avere un sito che piaccia a Google.
5. Come migliorare e ottimizzare il crawl budget?
Come abbiamo detto sopra, i crawler e gli spider amano contenuti di qualità, quindi prima di tutto devi assicurarti che il tuo sito sia in grado di dar loro ciò che cercano, assicurandoti che tutte le pagine siano indicizzabili.
L’attività di ottimizzazione del crawl budget si chiama crawl budget optimization. Ecco quindi, prima di chiudere, cinque consigli per ottimizzare il crawl budget:
5.1. Inserisci link interni
Per un crawler, saltare da un link a un altro all’interno dello stesso sito è il modo par excellence di scoprire nuovi contenuti. Agevolerai il suo lavoro se inserirai nelle pagine del tuo sito i cosiddetti link interni, ovvero quei collegamenti che rimandano da una pagina A a una pagina B senza abbandonare il sito che si sta navigando. Esempio: il link alla pagina “La nostra storia” all’interno della pagina “Chi siamo”.
5.2. Migliora la velocità del sito
Più il sito è veloce, più richieste dai crawler sarà in grado di gestire. Ciò si ripercuoterà positivamente sul limite di scansione (Vedi punto 2).
5.3. Aggiorna spesso il sito
Cerca tutte le pagine contenutisticamente deboli (vedi punto 4) e aggiornale con regolarità. Assicurati che ognuna di esse presenti contenuti originali e aggiungine di nuove. Questo si ripercuoterà positivamente sul valore di richiesta di scansione (vedi punto 2).
5.4. Blocca alcune sezioni del sito
Se ci sono parti del tuo sito che non sono più importanti o semplicemente usate come un tempo, non avere paura a bloccarle o anche a eliminarle del tutto. In questo modo, i crawler sapranno immediatamente dove andare a guardare per trovare contenuti interessanti. Questa azione è possibile andando a modificare ad esempio il file robots.txt.
5.5. Fai attenzione agli elementi Ajax, JavaScript e Flash
È importante che tu permetta al crawler di muoversi agilmente all’intero del tuo sito. Per questa ragione, dovresti ridurre al minimo il ricorso a elementi che girano con linguaggi di programmazione Ajax, JavaScript e Flash.