Come avere il proprio sito indicizzato

Google scopre e indicizza i siti web in modo automatico, classificandoli secondo dei sistemi di ranking.

Può capitare però che, per vari motivi, Google non prenda in considerazione il sito o parti di esso (ad esempio articoli, schede prodotto, categorie). Per ovviare a ciò occorre prendere degli accorgimenti per avere il proprio sito indicizzato.

Se dopo tanto tempo, il sito non è ancora indicizzato o le pagine vengono ignorate, possono esserci diversi motivi.

Cosa dice Google in proposito

Google assicura che se un sito è costruito secondo le sue linee guida sull’indicizzazione, non ci dovrebbero essere problemi: di norma si viene indicizzati entro le due settimane in modo naturale.

Ma l’indicizzazione di per sé è solo il primo passo. Significa che il sito viene inserito nel database di Google ed è quindi disponibile per la ricerca degli utenti. È un concetto diverso dal ranking (posizionamento), cioè dal sistema di classificazione che determina la posizione di una pagina per una determinata ricerca.

I sistemi di Google, dei veri e propri classificatori, decidono in modo algoritmico quali contenuti vanno in prima pagina.

Però viene subito da chiedersi: quante pagine del sito sono indicizzate? È possibile che Google indicizzi alcune pagine e ne “nasconda” altre?

La risposta è sì. E dipende da un concetto chiamato “budget di crawling”. Cioè la quantità di risorse che Googlebot, il crawler di Google incaricato di scoprire nuove pagine sul web, impiega per esplorare un sito web.

Questo “budget” può essere accresciuto nel tempo, alzando il limite della frequenza di crawling. Se gli utenti trovano più facilmente il sito, e lo apprezzano, Google può visitare il sito più frequentemente e dunque alzare la frequenza di crawling, migliorando nettamente l’indicizzazione complessiva.

La prima cosa da fare è dunque capire se il sito è presente nell’indice di Google e in che misura. I suggerimenti proposti sotto vengono da anni di osservazioni teoriche e pratiche, e di fatto mirano ad alzare la frequenza di indicizzazione e far sì che Google torni sul proprio sito più spesso, per scoprire sempre nuovi contenuti.

Verifica la presenza del sito nell’indice di Google

  • Scrivi su Google: “site:esempio.com” senza virgolette e sostituendo il nome del tuo sito a quello di comodo dell’esempio.
test indicizzazione su Google

Se il tuo sito non esce, o vengono mostrati pochi risultati rispetto al numero di pagine e articoli che hai pubblicato, ed è più vecchio di un mese, significa che Google non sta indicizzando delle sezioni importanti del sito.

Il primo passo da fare, dopo questa breve analisi dal vivo, è inserire il sito su Google Search Console.

Inserisci il sito su Google con Search Console

Google Search Console è uno strumento gratuito offerto da Google, che aiuta i proprietari dei siti a monitorare la presenza del proprio sito su Google. È un servizio essenziale per chiunque voglia aumentare la visibilità e il posizionamento sul motore di ricerca.

Il procedimento di inserimento e verifica del sito su Google Search Console è semplice.

  1. Vai su Google Search Console (basta anche cercarlo su Google e cliccare).
  2. Clicca su inizia ora ed accedi tramite i dati della tua casella di posta gmail, se non sei già collegato.
  3. Aggiungi il tuo sito nel modulo chiamato Prefisso URL, scrivendo il nome del dominio in modo completo (es.: https://www.tuosito.com)
  4. Effettua la verifica.
Google Search Console

La verifica è importante e richiede una minima conoscenza tecnica. Google offre alcune alternative per effettuarla. Le più comuni sono:

  • Scaricare un file html e inserirlo nella root del sito, per farlo trovare da Google.
  • Incollare un tag nella sezione head del sito.

Su WordPress, Wix e nei principali CMS di e-commerce è proprio la seconda opzione quella più usata.

Su WordPress è sufficiente cercare nelle opzioni dei principali plugin SEO, trovando la verifica di Google Search Console e incollando il tag fornito da Google.

Inviare la sitemap del sito

La cosa migliore da fare, dopo la verifica, è inviare la sitemap del sito.

Ancora una volta: se utilizzi WordPress puoi ottenere la sitemap XML tramite plugin, inclusi quello SEO. Per siti statici trovi dei generatori di Sitemap XML online.

Dal menu di Google Search Console è sufficiente andare alla voce Sitemap e aggiungerla come nella figura qui sotto:

inviare la sitemap

Come noti nell’immagine, la sezione “Indicizzazione”, oltre alla sitemap, presenta la voce “Pagine”. È qui che puoi scoprire i livelli di indicizzazione del sito, grazie a degli avvisi specifici di Google. Le pagine indicate in verde, nel grafico, sono quelle presenti nell’indice.

Quelle segnate in grigio presentano invece dei problemi e delle regole (spesso volontarie) che impediscono l’indicizzazione. Ecco in dettaglio gli errori segnalati da Google Search Console.

google crawler

Pagine con reindirizzamento

Pagine che sono reindirizzate tramite REDIRECT verso altri contenuti (esempio: un articolo vecchio ora reindirizza a uno più aggiornato).

Pagina alternativa con tag canonical appropriato

In alcuni casi, potresti avere due pagine simili sul tuo sito. Per evitare problemi di contenuto duplicato e garantire che Google indichi solo la versione che preferisci, puoi usare il tag canonical.

Questo tag serve a specificare quale delle due pagine consideri la principale. Inserendo il tag canonical nella pagina secondaria, indichi a Google di trattare la pagina principale come la fonte principale e di ignorare l’altra per scopi di indicizzazione. Questo approccio aiuta a concentrare il punteggio di Google sulla pagina selezionata e a mantenere l’ordine nel tuo sito.

Pagina duplicata non-HTML

Ad esempio sul tuo sito ci sono versioni alternative di una pagina, come il formato stampa o PDF e Google preferisce questa.

Esclusa in base al tag “noindex”

Questa definizione indica che hai applicato il tag ‘noindex‘ a una pagina, istruendo esplicitamente Google a non includerla nell’indice dei risultati di ricerca. Questo può essere fatto volontariamente, per evitare l’indicizzazione di pagine non essenziali o riservate, o involontariamente, a causa di un errore di configurazione del tag “noindex”.

Non trovata con errore 404: la pagina non è presente su Google perché ha restituito un errore con codice 404, che significa “pagina non trovata”. Non è un problema, se hai deciso di cancellare la pagina di tua iniziativa. Se Google lo segnala è perché la pagina è ancora presente sull’indice. In questo caso, se viene segnalato un eccesso di errori 404 soft (leggeri) è importante comunicare a Google se le pagine sono state rimosse di propria iniziativa oppure spostate altrove.

Pagina scansionata ma attualmente non indicizzata: verifica la bontà del contenuto, se il sito offre una buona esperienza di navigazione, se quello che è presente è attendibile, se hai buoni link in entrata.

Pagina rilevata ma non attualmente indicizzata: in questo caso Google ha scoperto la pagina, ma ha deciso che non valeva la pena indicizzarla. È la situazione peggiore, devi ottimizzare al meglio la pagina e in generale aumentare l’autorevolezza del dominio.

Tipiche cause di mancata indicizzazione

Assenza della sitemap XML

La sitemap XML è un protocollo accettato da tutti i motori di ricerca per aiutarli a capire meglio la struttura interna del tuo sito, l’alberatura, e quindi indicizzarlo al meglio.

Come detto sopra occorre generarla e comunicarla a Google via Search Console. La sua assenza può far perdere opportunità di indicizzazione completa.

Ci sono errori nel file robots o file robots mancante

Anche questo file, come la sitemap, svolge un ruolo importante nell’indicizzazione perché può contenere delle direttive di blocco per il motore di ricerca.

Immagina il file robots.txt come un manuale di istruzioni che dice al motore di ricerca cosa fare. In particolare, escludere intere sezioni dall’indicizzazione perché non vuoi che vengano rese pubbliche su Google.

Di norma capita che sia Google a impedire l’indicizzazione di una pagina, per i motivi detti sopra. Ma con il file robots.txt – anche senza che tu te ne accorga – sei tu a bloccare Google.

L’assenza di un file robots.txt viene subito segnalata da Google Search Console e puoi verificarla inserendo robots.txt alla fine del tuo dominio (esempio.it/robots.txt).

WordPress genera un file robots.txt virtuale, nel caso non lo si aggiunga manualmente e accade lo stesso anche con Wix.

Puoi sempre farlo valutare da Google Search Console, tramite il tester del file robots.

Sono presenti delle direttive noindex, nofollow

Mentre il file robots.txt sbarra la strada di una cartella o di un file ancora prima di entrarci, con i meta tag robot lo si fa entrare (crawling) per effettuare la scansione, ma dandogli un’istruzione precisa su cosa fare una volta entrato.

“Noindex, nofollow” indica ai motori di ricerca di non indicizzare la pagina nei risultati di ricerca e di non seguire i link presenti in essa.

Se una o più pagine o addirittura l’intero sito è impostato su questa direttiva, Google lo ignora e non lo indicizza. Di default, i siti hanno index, follow (indicizza, segui) impostato. Quindi sarebbe molto strano se fosse il contrario, ma è bene controllare cercando nel sorgente html della pagina.

Ti basta perciò cliccare con tasto destro sulla pagina, aprire menu “Visualizza Sorgente” oppure cliccare la combinazione ctrl+U o cmd+U su Mac. I meta name robots si presentano così:

<!DOCTYPE html>
<html>
<head>
    <title>Esempio di Noindex, Nofollow</title>
    <meta name="robots" content="noindex, nofollow">
</head>
<body>
    <h1>Pagina Non Indicizzabile</h1>
    <p>Questa pagina non sarà indicizzata dai motori di ricerca e i link presenti non saranno seguiti.</p>
</body>
</html>

Se utilizzi WordPress questa impostazione generale è presente nel menu Impostazioni > Lettura da bacheca. Se trovi la casella “Scoraggia i motori di ricerca” selezionata, deseleziona e salva perché altrimenti stai impostando i meta robot su noindex, nofollow su tutto il sito!

Di default i meta robots sono impostati su index, follow. Cioè indicizza e segui. Segui significa di considerare tutti i link presenti all’interno della pagina.

Il sito è troppo lento

I fattori che impattano sulla velocità sono tanti, ma esistono almeno due risorse gratuite che possono aiutare a impostarli al meglio.

  1. Google Page Speed Insights
  2. GTmetrix

Entrambi di danno una mano a ottenere dei buoni punteggi di Core Vitals, i segnali web essenziali che testimoniano l’esperienza di navigazione dell’utente in base a vari parametri.

È importante eseguire questi test proprio per evitare che il pubblico, frustrato dalla lentezza, abbandoni le pagine del tuo sito ancor prima di leggerle.

sito veloce

Sono presenti duplicazioni

Un altro problema di indicizzazione potrebbe essere dovuto alla presenza in massa di duplicazioni.

  1. Duplicazioni di contenuto presente altrove o già presente sul sito.
  2. Duplicazioni dei meta tag title o ripetizione costante della base dell’URL.

Il primo caso è più diffuso di quanto si pensi. I proprietari dei siti a volte non si preoccupano di copiare interi testi da altri siti, ad esempio da Wikipedia, o da libri indicizzati su Google Books o ancora da altri siti, credendo che non ci saranno problemi, ma si sbagliano.

Il secondo caso è più subdolo nel senso che il proprietario del sito può andarci incontro involontariamente.

Può capitare negli e-commerce, dove le varietà dei prodotti possono variare di poco, o in siti in Worpdress privi di plugin SEO come Yoast, AIOS o RankMath.

Meta tag troppo ripetitivi e già presenti in massa possono fornire a Google delle informazioni contraddittorie e non decisive, lasciandolo nel limbo circa le pagine da indicizzare.

Anche indirizzi delle pagine molto simili possono portare alla cannibalizzazione, nel senso che un contenuto si mangia l’altro perché sono troppo simili, risultando nella mancata indicizzazione del più debole.

Un controllo sulla iterazione dei title tag e delle URL può essere svolto tramite tool professionali come Screaming Frog SEO Spider.

Questo è probabilmente il tool più importante in materia di indicizzazione e segnalazione di errori tecnici, anche se a pagamento e destinato ai professionisti del settore.

La soluzione in questo caso, oltre all’intervento manuale, e a una scelta preventiva di NON creare indirizzi delle pagine tutte uguali e variare molto i title tag, è quello di usare il tag canonical.

Questa funzione di norma è già inclusa nei plugin SEO, ma Google fornisce un’adeguata spiegazione del perché usarlo.

Soprattutto negli e-commerce e nei siti di grandi dimensioni, più soggetti ad andare incontro a questo tipo di problemi.

Violazione delle linee guida di Google

Se il sito inizia a perdere indicizzazione o non ne raggiunge affatto, può essere che stai violando le linee guida di Google, in particolare per quanto riguarda il link building (cioè la creazione di link in entrata, che attribuiscono un punteggio all’autorevolezza del sito) e la creazione di contenuti artificiali creati esclusivamente per il motore di ricerca.

Google punisce alcune pratiche scorrette e prima o poi può avvisarti via Search Console della presenza di un’Azione Manuale.

La “penalizzazione” può essere algoritmica, sotto forma di un ricalcolo verso il basso, senza bisogno di subire un’azione manuale.

L’algoritmo ti punisce e il sito perde posizioni o addirittura alcune sezioni scompaiono (vengono deindicizzate).

Presenza di malware e attacchi hacker

Google può escludere temporaneamente i contenuti di un sito dall’indice se questo è stato compromesso da un attacco hacker, distribuisce malware o viola delle leggi.

Il contenuto non è migliore di quello già presente

Google può scegliere di ignorare una nuova pagina, se considera migliore una vecchia già indicizzata, che tratta lo stesso argomento.

In particolare, nelle linee guida sui Core Update, Google fa riferimento a contenuti creati allo scopo di “rispecchiare” delle variazioni di ricerca già simili ad altre, con lo scopo di occupare le SERP. In molti casi non ne vale la pena, e Google procederà a ignorare il nuovo contenuto.

Il sito non ha contenuti di valore

Il tuo sito semplicemente non è una risorsa utile, non aggiunge nulla a ciò che è già presente in rete, per cui nemmeno intercetta l’intento dell’utente.

Hai quindi contenuti di bassa qualità, che andrebbero rivisti e sottoposti nuovamente a scansione (sfruttando lo strumento “Controllo URL” su Google Search Console).

Recuperare vecchi contenuti e aggiornarli, creando sempre dei collegamenti con i nuovi, è un buon metodo per aumentare i livelli di indicizzazione del sito.

Compattarli intorno a un unico argomento migliora il rendimento.

Altri motivi per cui il sito non è indicizzato su Google

Se c’è un problema di indicizzazione del sito su Google, oltre ai motivi sopra esposti, potrebbe dipendere dalla natura del sito o dalla sua qualità complessiva.

  • Il tuo sito contiene informazioni datate e non aggiornate e non più utili nel tempo.
  • Non sono presenti ottimizzazioni, sono presenti errori soft 404 non corretti via Search Console (ovvero dichiarati “contenuti eliminati”).
  • Sono presenti molti errori HTML, collegamenti spezzati.
  • Il sito ha una pessima navigazione interna e una grafica dispersiva.
  • Il sito ha troppe pubblicità nella parte superiore.

Come aumentare il budget di crawling

Come detto all’inizio, maggiore è il budget di crawling, migliori sono le possibilità di far indicizzare tutto il sito web.

Se Google non ritiene che il sito offra dei contenuti utili e che abbia sufficiente autorevolezza, può decidere di visitarlo con poca frequenza, indicizzando in ritardo i contenuti.

Addirittura, in seguito ad aggiornamenti importanti come i “Core Update” può decidere di deindicizzare contenuti che non ritieni utili o che sono di scarso valore.

Per ottimizzare il budget di crawling, puoi migliorare la velocità del server, ridurre gli errori HTTP, eliminare i contenuti duplicati e assicurarti che il file robots.txt non blocchi le risorse importanti.

Una struttura del sito chiara e un utilizzo efficace dei link interni possono aiutare Googlebot a scoprire nuove pagine.

Pietro Soddu

Senior web marketing manager

Aiuto PMI, professionisti, siti web e attività locali a trovare il loro posto nella rete, aumentando visite e ricavi.