I Google leaks, con 2500 documenti interni trafugati e resi pubblici, stanno accedendo i fari sul segreto finora meglio mantenuto dopo la formula della Coca-Cola, anch’essa rivelata da un altro celebre leak. Lo ha reso noto un esperto di SEO, Rand Fiskin, in un post qualche giorno fa, ma oggi è giunta la conferma della BigG che comunque dice che si tratta di file non più attuali. Nel 2023 anche il motore di ricerca russo Yandex subì un leak.
Il trafugamento dei file della società di Mountain View fanno luce su come funziona il Google Ranking, l’algoritmo che determina se un sito Web abbia successo in rete oppure finisca nell’oblio.
Indice degli argomenti
Google data leaks, perché sono importanti
“I documenti sulle API di Google stanno generando molto interesse nella comunità SEO”, commenta Veronica Contini, docente all’università di Bergamo ed esperta SEO: “In questa enorme tassonomia di 2596 moduli per un totale di circa 14mila attributi (features) ogni entità è definita senza che ad essa sia associato un valore di riferimento di importanza (peso). Per questo in queste prime ore di studio è facile cadere nell’effetto Forer, quello che ci fa credere negli oroscopi. Troviamo finalmente la conferma che il nostro modo di fare SEO è quello giusto e che Google ci abbia sempre mentito”.
I leaks rimangono preziosi e soprattutto dimostrano che nessun segreto industriale è mai al sicuro.
“Il leak dei documenti di Google dimostra quanto possa essere importante l’impatto di tali eventi su un’azienda”, conferma Pierluigi Paganini, analista di cyber security e CEO Cybhorus. Ecco come correre ai ripari.
Google leaks: svelati i dettagli del Page Rank della BigG
Il codice del Google Ranking, l’algoritmo da cui dipende l’ordine in cui vengono esposti agli utenti i risultati di una ricerca svolta sul motore di ricerca, in base a una query digitata da un utente, non è più un segreto.
A far trapelare il funzionamento dell’algoritmo del motore di ricerca di Mountain View, il segreto meglio custodito al mondo, sono 2500 documenti svelati nei Google Leaks, da cui fra l’altro si evince che la società, di cui Alphabet è capofila, non aveva mai detto la verità su questo scottante tema da cui finora dipendeva il suo business core, il mercato dell’advertising online. Anche perché i siti che non scalano la classifica del Page Rank, comprano le AdWords per farsi trovare dagli utenti. Ma non solo.
“Tutta la documentazione e le comunicazioni ufficiali di Google ai proprietari di siti sono finalizzate a prevenire azioni di spam e di manipolazione dell’algoritmo. Quindi sì, Google mente, sapendo di mentine, per proteggere la qualità dei risultati“, spiega Veronica Contini.
“Google, a propria difesa, ha risposto affermando che i documenti sono stati estrapolati fuori contesto, il che potrebbe portare a interpretazioni errate e manipolazioni del sistema”, aggiunge Sandro Sana, Cybersecurity Manager, Certified Ethical Hacker.
“La manipolazione potrebbe compromettere l’integrità dei risultati di ricerca, penalizzando contenuti autentici e di alta qualità”, conferma Sana: “D’altronde Google potrebbe aver mentito per evitare ulteriori fughe di notizie, proteggere la propria immagine pubblica e mantenere la fiducia degli utenti e inserzionisti”.
I Google leaks invece rendono pubblici oltre 14mila parametri. “Nel caso specifico sono messi in discussione gli algoritmi di ranking“, spiega Paganini, “ovvero il cuore pulsante dell’impresa, con ovvie ricadute sulla sua reputazione di Google qualora si dimostri che quanto sostenuto dall’azienda non trovi riscontro nel leak”.
Per esempio emerge che criteri quali la potenza di un brand, l’autorevolezza e credibilità di un sito o la sua anagrafica (l’età calcolata in base alla data della registrazione di un sito), un tempo esclusi perentoriamente tra i parametri che l’algoritmo di ranking prendeva in esame, invece contano.
“In breve, ecco cosa abbiamo scoperto in queste poche ore:
- la centralità del comportamento degli utenti, raccolto sia nella pagina dei risultati che
attraverso l’utilizzo del browser Chrome; - l’inaspettata presenza del fattore umano, tramite quality raters, whitelist e punteggi di
qualità per i temi più pericolosi per gli utenti; - la centralità del valore del brand e del dominio associato, come asset fondamentali per
ogni attività che sfrutta questo canale per raggiungere il pubblico”.
L’algoritmo era naturalmente frutto di continui cambiamenti. Infatti gli addetti del mercato SEO (Search Engine Optimization), adibiti alla consulenza per aiutare i gestori di un sito web a emergere ai primi posti nella classifica dei risultati di Google, rispetto a certe keyword, devono continuamente affinare le loro strategie per scalare la graduatoria con cui i siti vengono ordinati.
Tuttavia oggi scopriamo che i click non solo si contano, ma soprattutto si pesano, come certi voti e certe azioni, secondo la nota massima di Enrico Cuccia di Mediobanca. Parametro fondamentale è infatti anche la durata temporale del clic, quanto tempo cioè l’utente trascorre su un sito prima di fare ritorno sulla pagina dei risultati da cui il suo percorso ha preso il via per effettuare la ricerca in base alla parola chiave digitata.
Gli altri dettagli
Altro criterio essenziale riguarda il CTR (Click Through Rate). Si tratta della relazione tra i clic ottenuti attraverso un’inserzione pubblicitaria e la sua conversione in visualizzazioni. Google lo aveva finora smentito, ma non aveva detto il vero. Dai Google leaks giunge la conferma di ChromeInTotal che registra il conteggio del set dei clic collezionati dagli utenti del browser Chrome per l’accesso a un determinato sito.
Fra i criteri più originali spunta la contabilizzazione della media pesata della grandezza dei font impiegati in un documento.
Secondo SEO esperti, al di là dei 14 mila parametri, che Google definisce obsoleti, “l’unico parametro che veramente conta è l’inbound link ovvero i link che si ricevono da fonti autorevoli, qualificate e pertinenti”, aggiunge Enrico Bisenzi, autore del libro “I motori di ricerca nel caos della rete” (ShaKe edizioni, 2000).
Come proteggersi dai data leak
In origine dei documenti top secret trafugati ricordiamo i Pentagon Papers ai tempi del Vietnam, quindi, in epoca Internet, i WikiLeaks di Julian Assange, seguiti dai Panama Papers ed altri celebri leaks. Oggi molti trafugamenti sono frutto di esflitrazioni di dati, dopo attacchi cyber anche di tipo ransomware.
Spesso alla base del trafugamento di documenti interni ci sono dipendenti infedeli o mossi da motivazioni di varia natura, anche etiche. Il risultato finale è che il mondo scopre documenti che sarebbero dovuti restare segreti.
“In questo caso si tratterebbe di un leak causato da uno strumento automatico, un bot, che ha pubblicato i documenti in un folder concepito per immagazzinare contenuti acceduti mediante API“, evidenzia Paganini.
Per prevenire data leak è necessario adottare una serie di misure tecniche di sicurezza, politiche aziendali e pratiche operative. “L’utilizzo di crittografia per proteggere i dati sia in transito che a riposo, l’implementazione di controlli rigorosi per garantire che solo il personale autorizzato possa accedere a dati sensibili, e l’uso di software di Data Loss Prevention (DLP), sono alcun alcune delle azioni che dovrebbero essere intraprese dalle aziende”, sottolinea Paganini.
“Cruciali sono”, continua Paganini, “le politiche di sicurezza dei sati per la definizione di come i dati devono essere trattati e protetti, così come la formazione del personale sulle minacce informatiche e le best practice per mitigare i rischi”.
Infine, “è buona norma prevedere attività di monitoraggio e auditing per tracciare l’accesso e l’uso dei dati sensibili”, conclude Paganini.
In questo leak, anche Google sta entrando da protagonista nell’era dell’intelligenza artificiale generativa, dove Alphabet potrebbe cambiare radicalmente il concetto di motore di ricerca. Il search engine potrebbe rispondere in futuro non elencando una classifica di link pertinenti alla keyword, ma offrire risposte ai prompt degli utenti come il suo Gemini o ChatGPT di OpenAI. Così, anche il Google Ranking, che ordinava i risultati del search, potrebbe quasi non servire più, così com’è oggi, al business core di Google.