Facciamo chiarezza sul Knowledge-Based Trust di Google

È già operativo in Google?

Come già detto nei precedenti articoli, nell’ultimo periodo in casa Google si è creata un po’ di confusione sul suo nuovo algoritmo Knowledge-Based Trust, il quale permetterà di intercettare i contenuti considerati poco attendibili, premiando o penalizzando i siti web che li pubblicano.

Ma esso deve ancora entrare in azione, come è mostrato nel sito Arxiv.org: questo algoritmo è solo un paper, è una semplice ricerca che non mostra nulla di conclusivo, come citato per esempio in altre fonti. Questo è solo uno dei tanti cambiamenti all’algoritmo di Google, infatti, ogni anno vengo proposti circa 500 cambiamenti ma per un motivo o per un altro spesso non vanno a buon fine, come ha dichiarato Matt Cutts.

Questo però, non vuole dire che il Knowledge-Based Trust non verrà mai messo in funzione, anche perché esso fino ad ora ha dato dei buon segnali durante i risultati sperimentali soprattutto in due campi:

  1. Identificazione della qualità delle fonti via web (qualità data per estrazione di dati e non qualità della pagina in funzione dei risultati di ricerca, differenza notevole e fondamentale)
  2. Miglioramento dell’attuale sistema di Knowledge Fusion (dato moltoimages importante contenuto nel paper: ora non si lavora più solo a livello di data e di fonte, ma anche a livello di soggetto, predicato e oggetto. In questo modo, confrontando il tutto con i dati raccolti su Freebase si può avere un miglior controllo nella qualità della fonte).

Questi dati restano ancora sotto il controllo umano, rendendo possibili casi di manipolazione senza che Google se ne accorga. I dati su Freebase, inoltre, sono estratti da fonti controllate con metodi basati su link: è qui che si vuole attuare il vero cambiamento, creando un nuovo approccio per determinare la reale qualità di una fonte per Knowledge Fusion.

In cosa consiste questo sistema?

 Il sistema consiste nel riuscire a capire dove è presente un eventuale errore, confrontandolo con i dati rilevati e riuscendo a stabilire perciò la qualità della fonte in base ai fatti citati dalla fonte stessa. Meno errori ci saranno, più sarà ritenuta attendibile la fonte, che verrà utilizzata per estrarre i dati per aumentare la conoscenza generale di cui Google aspira.

Esso, invece che contare i link in entrata, conta il numero di fatti non corretti all’interno della pagina. Una fonte che ha pochi fatti falsi è considerata affidabile e finisce in alto nell’elenco”: l’attuale algoritmo di Google ordina infatti i risultati in base alla popolarità, premiando nel ranking le pagine che hanno più link da parte di altri siti.

Pare che questo cambiamento sia in linea con le volontà del colosso di Mountain View di creare un motore di ricerca che sia in grado di decifrare la ricerca conversazionale, comprendendo il linguaggio e le reali intenzioni dell’utente, fornendo risultati più pertinenti ed esatti. L’intenzione sarebbe quella di passare da una valutazione dei siti più quantitativa (ovvero basata su fattori come il numero di backlink e di condivisioni della pagina) a una più qualitativa, basata sui contenuti dei siti web.

Ma dalla teoria alla pratica la strada è ancora lunga, infatti, Google sta ancora cercando di capire se l’errore dei dati sia dovuto dalla sua estrapolazione di essi, e i metodi per estrarli risultano ancora particolarmente limitati.