Il mondo del SEO è stato scosso da un leak senza precedenti: migliaia di documenti interni di Google, apparentemente provenienti dal “Content API Warehouse” dell’azienda, sono stati pubblicati su Github da un bot chiamato “yoshi-code-bot”. Questa documentazione, la cui autenticità è stata confermata da Google stesso, getta nuova luce sull’algoritmo di ranking del motore di ricerca, rivelando oltre 14.000 potenziali fattori che influenzano il posizionamento delle pagine nei risultati di ricerca, 14000 ingredienti per la ricetta della salsa segreta di Google.
Già l’anno scorso era successo qualcosa di analogo, quando erano venuti a galla i fattori di posizionamento usati da Yandex ma, con tutto il rispetto per il motore di ricerca russo, questo nuovo leak è di qualche ordine di grandezza più potente.
La notizia è stata riportata da Rand Fishkin di SparkToro e Mike King di iPullRank, che hanno ricevuto i documenti da una fonte anonima (in seguito identificata come Erfan Azimi) e ne hanno verificato la veridicità con l’aiuto di alcuni ex dipendenti di Google. Ciò che emerge da questi file mette in discussione molte delle conoscenze acquisite dalla comunità SEO nel corso degli anni e solleva interrogativi sulla trasparenza di Big G nella comunicazione con il pubblico.
Ribadiamo che questi documenti non rivelano la ricetta della salsa segreta che fa funzionare Google, il motore di ricerca. Il contenuto del leak è più simile alla lista degli ingredienti, analogamente a quando era avvenuto l’anno scorso per Yandex. Non sappiamo neppure se tutti gli ingredienti citati siano effettivamente usati nella preparazione della salsa, è possibile (probabile) che alcuni siano obsoleti e altri vengano citati solo come riferimento.
Allo stesso tempo però possiamo anche dire che, alla luce di questi documenti, cambierà il modo ti fare posizionamento sui motori di ricerca, e non solo su Google.
Tra le rivelazioni più sorprendenti c’è l’importanza dei dati di clickstream per il ranking. Fin dai primi anni, il team di ricerca di Google ha riconosciuto la necessità di raccogliere informazioni complete su ogni URL visitato dagli utenti, al fine di migliorare la qualità dei risultati. Inizialmente, questi dati venivano raccolti tramite la Google Toolbar e il PageRank, ma il desiderio di avere ancora più precisi sul comportamento degli utenti è stato una delle motivazioni chiave per la creazione di Chrome nel 2008.
Il sistema chiamato “NavBoost“, citato anche dal VP of Search Pandu Nayak durante la sua testimonianza nel caso Google/DOJ, utilizza il numero di ricerche per una determinata keyword per identificare i trend, il numero di click su un risultato e la durata dei click stessi (distinguendo tra “long clicks” e “short clicks”) per valutare la rilevanza di una pagina. Esperimenti condotti da Fishkin tra il 2013 e il 2015 sembravano già confermare l’impatto di questi fattori sul ranking (ufficialmente negato da Google).
Inoltre, NavBoost analizza le query di ricerca per comprendere l’intenzione dell’utente: ad esempio, se una certa soglia di attenzione e click viene superata per video o immagini, queste features verranno attivate per quella specifica query e per quelle correlate. Ma non solo: Google esamina i click e l’engagement anche dopo la query principale (definita “NavBoost query”).
I dati di NavBoost vengono utilizzati anche per valutare la qualità complessiva di un sito a livello di host, in quella che la fonte ha ipotizzato essere il famoso “Panda Update” di Google. Questa valutazione può risultare in un boost o in una penalizzazione per il sito in questione. Altri fattori considerati in questo processo sono le penalità per i domini che coincidono esattamente con query di ricerca non brandizzate (es. “hotel-roma-centro.com”), un nuovo punteggio “BabyPanda” e vari segnali di spam.
È interessante notare come NavBoost geo-localizzi i dati dei click, prendendo in considerazione il paese, lo stato/provincia e il tipo di dispositivo utilizzato (mobile vs desktop). Tuttavia, se per certe regioni o user-agent non ci sono abbastanza dati, il processo viene applicato universalmente ai risultati della query.
Il leak rivela anche l’utilizzo di whitelist da parte di Google per promuovere o penalizzare determinati siti in particolari circostanze. Durante la pandemia di Covid-19, ad esempio, sono state create delle liste di siti “autorizzati” ad apparire in alto nei risultati per le ricerche correlate al virus. Similarmente, durante le elezioni democratiche, alcune fonti sono state messe in whitelist per essere mostrate o penalizzate in relazione a query di natura politica.
Ovviamente, il leak solleva più domande di quante ne risolva. Sebbene Google abbia confermato l’autenticità dei documenti, non sappiamo esattamente come e se questi 14.000 fattori vengano effettivamente utilizzati nell’algoritmo di ranking. La documentazione non specifica il peso di ciascun segnale, e Big G ci tiene a precisare che trarre conclusioni da informazioni parziali, obsolete o decontestualizzate potrebbe portare a supposizioni errate.
D’altra parte, molte delle informazioni emerse sembrano contraddire dichiarazioni pubbliche fatte dai vari portavoce di Google nel corso degli anni. Ad esempio, l’azienda ha sempre sminuito l’importanza dei dati di click, mentre i documenti trapelati suggeriscono che abbiano un ruolo chiave nell’algoritmo. Inoltre, l’esistenza di punteggi di autorità a livello di sito è stata ripetutamente negata, ma nei file ci sono chiari riferimenti a metriche come “siteAuthority”. Possiamo entrare in dibattiti semantici e chiamarlo “PageRank” oppure “Mandragola” ma il punto è che questo punteggio esiste.
Queste incongruenze sollevano legittime domande sulla trasparenza di Google nella comunicazione con la comunità SEO e con il pubblico in generale. Perché negare l’utilizzo di certi fattori quando le “prove” dicono il contrario? Si tratta di una strategia deliberata per mantenere il “segreto industriale”, o semplicemente della difficoltà di spiegare in termini semplici un algoritmo estremamente complesso e in continua evoluzione?
Al di là delle implicazioni etiche e filosofiche, ciò che più interessa ai SEO sono le ricadute pratiche di queste rivelazioni. Anche senza conoscere l’esatta “ricetta” dell’algoritmo, gli spunti che emergono dal leak possono aiutarci ad affinare le nostre strategie di ottimizzazione. Vediamo alcuni dei più rilevanti:
- La user experience e la qualità dei contenuti sono più importanti che mai. I segnali di engagement come i click, il tempo di permanenza sulla pagina, la bounce rate sono fondamentali per comunicare a Google la rilevanza e l’utilità del nostro sito. Non basta più “ottimizzare per le keyword”, bisogna creare contenuti che rispondano realmente alle esigenze degli utenti.
- L’architettura del sito e la coerenza dei contenuti rispetto al topic principale diventano ancora più cruciali. Il fatto che Google utilizzi embedding a livello di pagina e di sito per valutare la pertinenza suggerisce che un sito ben organizzato e focalizzato su un argomento specifico avrà un vantaggio sui competitor. La vecchia tecnica dei micro-siti ultra-specializzati potrebbe tornare in auge.
- Ogni pagina del sito contribuisce all’autorità e alla reputazione del dominio nel suo complesso. Non ha più senso pensare in termini di singole “landing page” da ottimizzare, ma bisogna considerare il sito come un ecosistema organico in cui ogni elemento ha un impatto sull’insieme.
- Trucchetti come gli “exact match domain” per keyword non brandizzate possono ritorcersi contro. I documenti rivelano che Google applica penalità specifiche per scoraggiare questo genere di pratiche.
- I dati di clickstream e di engagement raccolti da Google Chrome e dagli altri servizi dell’azienda hanno un peso significativo nell’algoritmo. Questo potrebbe rappresentare uno svantaggio competitivo per i motori di ricerca più piccoli e solleva questioni di privacy e di monopolio. D’altra parte, gli stessi dati vengono utilizzati per combattere lo spam e il click fraud, a beneficio di tutti.
In definitiva, il quadro che emerge dal leak è quello di un algoritmo sempre più sofisticato e “umano”, che cerca di valutare la qualità e la rilevanza dei siti web a più livelli, con l’obiettivo di offrire agli utenti i risultati migliori per le loro ricerche. La sfida per i SEO è quella di adattarsi a questo scenario in continua evoluzione, trovando il giusto equilibrio tra le esigenze “tecniche” di ottimizzazione e la necessità di creare contenuti che siano realmente utili e coinvolgenti per il pubblico.
Non sappiamo se i 14.000 “ingredienti” rivelati dal leak siano tutti effettivamente utilizzati nella “ricetta segreta” di Google, ma una cosa è certa: non basta più conoscere gli ingredienti, bisogna saperli combinare con maestria per soddisfare il palato sempre più esigente degli utenti. Solo così potremo guadagnarci un posto in prima pagina nella SERP di Big G.
Lascia un commento