Se hai lavorato al posizionamento del tuo sito web sicuramente ti sarà capitato di imbatterti in due componenti molto importanti e troppo spesso sottovalutate: la Sitemap e il file Robots.txt. Sai perché sono così importanti e a cosa servono? Intanto possiamo anticiparti che si tratta di due elementi fondamentali per la scansione corretta del tuo sito da parte dei motori di ricerca.
Se ci vorrai seguire in questa breve guida, alla fine della lettura non potrai fare altro che verificare se il tuo sito li sta utilizzando al meglio!
Cos’è la Sitemap e perché è sempre meglio averla?
Una sitemap è un file in cui è possibile elencare le pagine web del vostro sito per comunicare a Google e altri motori di ricerca l’organizzazione dei suoi contenuti.
Per capire meglio questa definizione dobbiamo comprendere come funziona davvero un motore di ricerca come Google.
Google ha la capacità di scansionare milioni di siti web istantaneamente attraverso i crawler, o più semplicemente dei bot, che analizzano periodicamente ogni sito web e sono in grado di catalogare i suoi contenuti in modo che, nel momento in cui un utente fa una ricerca, il motore sia in grado di fornire una risposta coerente e sempre più precisa, oltre che un link all’utente.
Per quanto performanti possano essere questi crawler è normale che, nel caso di alcuni siti web particolarmente complessi, o non ottimizzati, o con una struttura insolita, si perdano qualche pagina e di conseguenza non la indicizzino, posizionando il sito web in maniera non ottimale.
Ecco: la sitemap è la descrizione della struttura del sito, un elenco di tutte le pagine presenti che il motore di ricerca dovrà indicizzare. Una sorta di mappa, appunto, per aiutare i crawler nel loro arduo compito senza che si perdano qualche pezzo.
L’invio di una sitemap a Google è un buon modo per assicurarsi che i Googlebot conoscano il tuo sito web e le pagine da scansionare, le indicizzino e le posizionino tra i risultati di Google.
La Sitemap è obbligatoria per essere visibili sui motori di ricerca?
No, non lo è. Alcuni siti web ben costruiti potrebbero avere delle pagine indicizzate anche senza aver inviato una Sitemap al motore di ricerca, ma questo non assicura che siano presenti tutte. Presentare una Sitemap è invece essenziale per assicurarsi che il sito sia indicizzato correttamente – e nella sua interezza – dai motori di ricerca.
In quale caso non puoi davvero fare a meno di una Sitemap?
Avere una Sitemap è una best practice SEO, ma per alcuni siti web è più importante che per altri. Ad esempio devi assolutamente avere una Sitemap se:
- hai un e-commerce
- se il tuo sito web è molto complesso, con molte pagine e sottopagine, come una banca dati o una testata giornalistica
- se non hai ancora fatto lavorato sui link interni e le singole pagine non sono collegate bene tra loro, oppure se la struttura non è convenzionale
- se il tuo sito web è nuovo, non hai iniziato un’attività di ADV e ricevi poco traffico. I bot di Google seguono i link e i visitatori per trovare nuovi siti web e indicizzarli. Se un sito web è nuovo e sconosciuto, l’invio di una Sitemap è un modo per far sapere a Google che esiste.
Migliorare l’usabilità del sito con la Sitemap: Sitemap XML vs Sitemap HTML
La sitemap non è solo uno strumento utile per i motori di ricerca, ma anche per migliorare la user experience dei tuoi utenti.
Ti consigliamo quindi di creare:
- una Sitemap XML, cioè un profilo della struttura del sito nel linguaggio amichevole di Googlebot XML per far sì che il sito sia facilmente trovato dai motori di ricerca;
- una Sitemap HTML per i visitatori del sito, cioè un file che contiene l’elenco delle pagine con collegamenti ipertestuali a ciascuna di esse, rendendo più facile per l’utente navigare e trovare le pagine che sta cercando.
Cos’è il file Robots.txt?
Se con la Sitemap aiuti i motori di ricerca a orientarsi, con il file robots.txt dai indicazioni precise ai crawler su dove possono e non possono andare. Ad esempio ci sono contenuti che è necessario nascondere al motore di ricerca, come l’area riservata o il carrello di un ecommerce.
Non sarai mai in grado di influire totalmente sulle azioni dei bot, potrebbero anche decidere di ignorare le tue direttive, ma in linea di massima queste indicazioni verranno rispettate.
Il file robots.txt è uno strumento che ti permette, quindi, di avere un maggior controllo sull’azione dei crawler:
- Puoi prevenire, anche se non evitare del tutto, il crawling di contenuti duplicati
- Puoi mantenere come private alcune sezioni del sito
- Puoi Prevenire il sovraccarico del server
- Puoi fare in modo che Google non sprechi “crawl budget”
- Puoi evitare che tra i risultati di ricerca di Google compaiano anche foto, video e file
Il crawl budget è l’insieme delle risorse allocate dal motore di ricerca per la scansione del tuo sito web. Questo budget viene determinato dallo spider e rappresenta il numero di URL che il Googlebot può e vuole scansionare. Considera che più Kb vengono scaricati, quindi più il sito è aggiornato, più Google riterrà interessante e utile il tuo sito web e maggiore sarà la sua considerazione nei suoi confronti.
Il file robots.txt ha dei componenti base estremamente semplici, ma che possono avere un enorme impatto sulla SEO del tuo sito web. Facciamo una piccola panoramica.
- User agent: l’identificazione di ogni motore di ricerca. Puoi definire istruzioni personalizzate per ciascuno di essi nel tuo file robots.txt oppure utilizzare l’asterisco (*) come jolly per assegnare direttive a tutti gli user-agents. Puoi anche fare in modo che alcuni crawler non scansionino il tuo sito.
- Direttive: le regole che vuoi che lo user-agent segua. Di seguito alcuni esempi delle più importanti per farti comprendere quanto può essere interessante il file robots.txt
- Allow/Disallow indica ai motori di ricerca di accedere o non accedere ai file e alle pagine che seguono questo percorso. Allow in particolare permette di dire al motore di ricerca di accedere ad una pagina presente in una sezione altrimenti non permessa.
- Sitemap specifica dove trovare la sitemap ai motori di ricerca. Anche se avessi comunicato la tua sitemap a Google attraverso la Search Console, inserirla nel file robots.txt ne segnala la presenza anche a tutti gli altri motori di ricerca ed è quindi buona norma inserirla sempre
- Noindex, in teoria, ti permette di dire ai motori di ricerca quali pagine non indicizzare. Nella realtà Google ufficialmente non supporta questa direttiva e molti preferiscono escludere le pagine da non indicizzare solo attraverso i meta robots tag.
- Nofollow istruisce ai motori di ricerca di non seguire i link sulle pagine e file sotto un determinato percorso. Anche in questo caso ufficialmente Google non supporta questa direttiva.
Che tu sia avvezzo a certi termini o che restino un mistero, ricorda che Sitemap e robots.txt sono componenti importanti per la SEO del tuo sito web, componenti che troppo spesso vengono sottovalutate e che il tuo competitor potrebbe aver ignorato.
Verifica se ha già una Sitemap e il file robots.txt. Fai un passo avanti e giocati il tutto per tutto per guadagnare posizioni davanti a lui sui motori di ricerca.
Se vuoi controllare la presenza e lo stato di sitemap e robots.txt, anche queste procedure sono parte di un’attenta strategia SEO: contattaci per avere un’audit completa del tuo sito web.
Contenuti