23 Ott Scansione

Posted at 15:04h in by Federico Fontolan

La scansione è una delle tre attività fondamentali dei motori di ricerca insieme a quelle dell’indicizzazione e del posizionamento. Consiste nella ricerca periodica da parte dei motori di ricerca di nuovi siti e degli aggiornamenti dei siti già indicizzati, al fine di restituire risultati sempre più pertinenti con le richieste degli utenti.

1. Cos’è la scansione dei motori di ricerca

La scansione (o crawling) viene condotta grazie ad appositi software (i crawler) che prendono il nome di bot o spider. Il loro compito è quello di visitare una determinata pagina, analizzarne i link ed eventualmente scoprire se questi link conducono ad altri contenuti interessanti.

Le pagine che un motore di ricerca conosce già (poiché già indicizzate) vengono scansionate periodicamente dai crawler soprattutto per capire se hanno subito cambiamenti importanti. Se il motore di ricerca rivela qualche cambiamento aggiornerà il suo indice secondo i nuovi dati contenuti nella pagina.

2. Come funziona la scansione?

Ogni motore di ricerca dispone di crawler propri, che iniziano a scansionare un sito sempre partendo dalle informazioni contenute nel file robots.txt. Quindi, prima di tutto è importante assicurarsi che questo file sia sempre in perfetto ordine nel tuo sito. Perché? Perché in esso sono presenti tutte le informazioni su quali pagine dovranno essere scansionate (o non essere scansionate) dal motore di ricerca. Nel file robots.txt sono contenute anche informazioni sulla sitemap, altro elemento importante di cui ci occuperemo più approfonditamente nel paragrafo 4.2.

3. Scansione di immagini e di altri file non testuali: attenzione ai metadati

Generalmente, i motori di ricerca scansionano e indicizzano ogni URL che incontrano.

Tuttavia, alcuni elementi dei siti possono non essere di tipo testuale, come ad esempio le immagini, i video e gli audio, e in questo caso il motore di ricerca potrebbe non essere in grado di individuarli se non limitatamente al nome del file e ai metadati. Consiglio: quando carichi un file multimediale sul tuo sito, quindi, fai attenzione a come lo chiami e agli attributi che gli dai, perché puoi compromettere o favorire la capacità del motore di ricerca di riconoscerlo o meno.

Per fare un esempio: se stai scrivendo un articolo su come potare le piante e carichi un’immagine che ritrae un albero di mele, non nominare il file “foto0001.jpg”, ma chiamalo “albero-di-mele.jpg”. Assicurati di attribuire all’immagine il nome “albero di mele” anche nella sezione Attributo alt dell’immagine. Se lavori su un CMS quale WordPress il lavoro da questo punto di vista è facilitato.

Google può scansionare e indicizzare con un certo successo un numero definito di tipi di file: sono raccolti in questa pagina.

4. Tipi di scansione

Esistono tre modi principali per far sì che i bot di Google o di altri motori di ricerca indicizzino e scansionino le pagine del tuo sito. Conoscendoli, puoi attivarti affinché il compito dei crawler sia più agevole, con conseguente vantaggio anche per la visibilità della tua pagina web.

4.1. Scansione ed estrazione di link a nuove pagine partendo da pagine preesistenti

I crawler scoprono nuove pagine riscansionando pagine che conoscono già, ne analizzano i link e scoprono le nuove pagine a cui questi rimandano. I nuovi link vengono quindi aggiunti a quella che viene definita coda di scansione per essere scaricati in un secondo momento.

Tramite questo processo, i motori di ricerca sono in grado di scansionare ogni pagina di internet pubblicamente accessibile, a patto che a questa si possa arrivare almeno da un link presente in un’altra pagina.

4.2. Sitemap

Un altro modo tramite il quale i motori di ricerca scoprono nuove pagine è tramite la scansione delle sitemap.

Le sitemap altro non sono che una serie di link, e possono essere create proprio per fornire ai motori di ricerca una lista di pagine da scansionare. In questo modo, si aiutano i crawler a trovare i contenuti più profondi e nascosti di ogni sito, ma soprattutto il webmaster è sempre nella condizione di controllare cosa far vedere a Google e cosa no.

Quindi, la sitemap deve sempre essere presente e deve sempre essere catalogata correttamente, perché rilascia la struttura esatta del sito (già catalogata). In questo modo facilita il lavoro dei robot e semplifica la vita del webmaster.

4.3. Consegna manuale di pagine

Le pagine possono essere segnalate ai motori di ricerca utilizzando direttamente le interfacce messe a disposizione da questi ultimi. È un metodo manuale e quindi poco pratico (ogni pagina va segnalata singolarmente), ma ti dà la certezza di fornire al motore di ricerca la versione più aggiornata del contenuto che proponi, senza dover attendere che un bot arrivi a scansionarlo.

Ad oggi, Google consente la consegna manuale di massimo 10 link al giorno.

5. Scansione: a cosa fare attenzione?

A cosa deve fare attenzione, quindi, un bravo websmaster se vuole che il proprio sito venga scansionato e indicizzato correttamente? Oltre ad avere una sitemap chiara e pulita, sicuramente è importante la frequenza di aggiornamento del sito, perché Google ne tiene conto. In altre parole, più lentamente aggiorni il tuo sito, minori saranno le possibilità che un crawler torni a visitarlo in tempi brevi. In altre parole, se non lo hai aggiornato negli ultimi tre anni e pubblichi un nuovo post oggi, non puoi pretendere che venga immediatamente indicizzato.

Particolare attenzione va poi prestata alla struttura dei menù (che Google capisce e legge) e all’uso dei link interni, fondamentali come abbiamo visto in 4.1. per consentire al motore di ricerca di indicizzare l’intero sito.

Sinonimi:

Crawling

Scansione