Crawler

Crawler

Definizione di crawler

I crawler sono software che analizzano i contenuti presenti in rete per conto dei motori di ricerca.

 

Come funzionano i crawler

I crawler, anche detti spider o robots, sono dei software che scansionano automaticamente la rete alla ricerca di nuovi siti e dell’aggiornamento di siti già scansionati.

 

I crawler sono programmati per analizzare i contenuti di ogni sito, partendo dalla home page e mappandone la struttura, navigando attraverso i link interni. Da qui comprendiamo l’importanza di ottimizzare la struttura dei link interni dei siti.

 

L’obiettivo dei crawler è di leggere i contenuti delle pagine dei siti internet a cui possono accedere, per consentire ai motori di ricerca di recuperare le informazioni quando serve, componendo correttamente le SERP.

 

L’attività di scansione della rete e dei contenuti di tutti i siti contribuisce alla creazione degli indici dei motori di ricerca. Il più famoso naturalmente è Google.

 

Comprendere il funzionamento dei crawler è fondamentale per l’attività di ottimizzazione SEO.

 

E’ possibile guidare o limitare l’attività degli spider attraverso il file Robots.txt

In questo file è possibile inserire le istruzioni in maniera molto preciso, escludendo determinate pagine o determinate sezioni dei siti, inibendo ad alcuni bot la scansione o determinando la frequenza di scansione (crawl delay). Teniamo presente che Google non legge il parametro crawl delay.

Il file Robots.txt dovrebbe contenere la sitemap del sito, per fornire un ulteriore supporto agli spider per la mappatura della struttura del sito.

 

Attenzione perchè i crawler possono essere malevoli e rappresentare una minaccia per i siti: è bene conoscerli e monitorarne le dinamiche attraverso i log del server. 

 

I crawler possono alterare i dati di traffico tracciati da Google Analytics. Consigliamo sempre di configurare in Google Analytics una vista filtrata, impostando le esclusioni relative al traffico generato dai bot.

 

Per quanto riguarda la frequenza di scansione, riferendoci a Google, il motore di ricerca più diffuso, Googlebot non scansiona ogni volta tutte le pagine di un sito, ma cerca di capire quali contenuti hanno bisogno di essere controllati più di frequente. 

Tutto dipende dalla frequenza di pubblicazione e di aggiornamento dei contenuti. E, di conseguenza, dallo stato di salute del sito. Un parametro molto importante da questo punto di vista è il crawl budget.

Insistiamo molto con i nostri clienti sull’importanza della freschezza dei contenuti e del costante ritmo di pubblicazione.

Googlebot non scansiona tutte le pagine di un sito nello stesso momento per non sovraccaricare le risorse dello stesso sito.

I passaggi nei siti da parte di Googlebot possono essere monitorati all’interno di Google Search Console.

 

Quali sono i principali spider

Ecco una lista dei principali spider presenti in rete:

 

Google: Googlebot

Google image: Googlebot-Image

Google Mobile: Googlebot-Mobile

Bing: Bingbot

Yandex: Yandex Bot

Baidu: Baidu Spider

Yahoo: Slurp Bot

DuckDuckGo: DuckDuckBot

Alltheweb: Fast

Facebook: Romilda

Alexa: Ia_archiver

 

Alcuni crawler aiutano gli sviluppatori ad analizzare i siti emulando il comportamento degli spider dei motori di ricerca. Il più famoso è Screaming Frog. 

Sinonimi:
Robots
Bot
Spider
Tag: Seo
« Torna al Glossario