« 5 cose che non sai di me | Main | Big G »

Brevetti Google: PhraseRank, information retrieval basato sulle frasi

Di recente apprendo che lo scorso 28 dicembre 2006 è stato reso noto l'ultimo brevetto di casa Google.
Rispetto ai precedenti brevetti è stato minore l'interesse dimostrato dagli addetti ai lavori per Phrase-based searching in an information retrieval system subito rinominato PhraseRank (o Phrase Rank).
Il brevetto si presenta con 16 pagine (in inglese) che appena visualizzate fanno venir voglia di chiudere la sessione del browser, nelle righe iniziali, il phraserank, è descritto come in sistema di information retrieval che utilizza frasi per indicizzare, organizzare e cercare documenti.

Un sistema di information retrieval si basa sull'esistenza di un insieme di elementi possibili oggetto di ricerche di cui verificare la presenza in un secondo insieme di elementi di diverso tipo.
Rapportando il concetto di information retrieval a quello che è oggi il probabile impiego negli attuali motori di ricerca il primo insieme è rappresentato un insieme di termini mentre il secondo da un insieme di documenti. In fase di valutazione di un documento, il motore di ricerca crea un terzo insieme composto da relazioni di esistenza tra i primi due (posting list) dove per ogni termine A viene indicata la frequenza nel documento B.
Quella che oggi potrebbe essere l'innovazione introdotta dal brevetto di Google sul PhraseRank è la trasformazione dell'insieme dei termini in insieme di frasi (frase = uno o più termini).
Il recente brevetto di Google ha come obiettivo quello di individuare in un documento un insieme di frasi e frasi correlate/estese su cui basare il ranking nelle serp.

L'analisi dei claims presenti nel brevetto ci permette di capire meglio il concetto di information retrieval rapportato all'utilizzo delle frasi come base di partenza per l'analisi dei documenti.

1. A method of selecting documents in a document collection in response to a query, the method comprising: receiving a query; identifying a plurality of phrases in the query, wherein at least one phrase is a multiple word phrase; identifying a phrase extension of at least one of the identified phrases; and selecting documents from the document collection containing at one phrase from a set including phrases in the query and the phrase extension.

Considerando una query (cane di razza pastore tedesco) è richiesta l'individuazione di almeno una frase composta da più termini (cane di razza) e delle relative estensioni (cane di razza pastore, cane di razza pastore tedesco) e l'individuazione nell'insieme dei documenti di quelli che contengono almeno una frase dell'insieme (cane di razza, cane di razza pastore, cane di razza pastore tedesco).

3. A method of selecting documents in a document collection in response to a query, the method comprising: receiving a query; identifying an incomplete phrase in the query; replacing the incomplete phrase with a phrase extension; and selecting documents from the document collection containing the phrase extension.
4. The method of claim 3, wherein identifying an incomplete phrase and replacing the incomplete phrase comprise: identifying a candidate phrase in the query; matching the candidate phrase to an incomplete phrase in a list of incomplete phrases; and replacing the candidate phrase with a phrase extension associated with the incomplete phrase.


Tra i metodi di ricerca è prevista l'esistenza di frasi incomplete (cane) da sostituire in fase di elaborazione della query con frasi che la estendono (cane da caccia, cane da tartufo, cane pastore tedesco) da utilizzare per l'estrazione dei documenti le cui posting list comprendono le frasi estese.

6. A method of selecting documents in a document collection in response to a query, the method comprising: receiving a query including a finformation retrievalst phrase and second phrase; retrieving a posting list of documents containing the finformation retrievalst phrase; for each document in the posting list: accessing a list indicating related phrases of the finformation retrievalst phrase that are present in the document; and responsive to the list of related phrase indicating that the second phrase is present in a document, selecting the document to include in a result to the query, without retrieving a posting list of documents containing the second phrase.
7. The method of claim 6, further comprising: responsive to the list of related phrases indicating that the second phrase is not present in a document, excluding the document from the result to the query, without retrieving a posting list of documents containing the second phrase.

In questi claims viene spiegato come in presenza di più frasi nella query è solo la prima ad essere presa in considerazione per l'estrazione dei documenti se nella loro posting list è presente questa, successivamente vengono scartati tutti i documenti dove non è compresa la seconda frase.


Nei claims da 10 a 13 vengono introdotti i sistemi di ordinamento, tali sistemi si basano sull'attribuzione di un valore ad ogni frase e frase correlata presente in un documento, la somma di questi valori determinerà in ranking finale.

Continuando a leggere il brevetto del PhraseRank attirano l’ attenzione alcuni dettagli del funzionamento dell'algoritmo:

1. L'identificazione delle frasi tende a distinguere frasi cattive da frasi buone all'indicizzazione del documento, quest'ultime si ipotizza siano presenti un certo numero di volte ed evidenziate da tag, formattazione o altri indicatori grammaticali. Le frasi buone, inoltre, predicono la presenza di alre frasi buone. Ovviamente saranno le stesse frasi presenti in posting list a determinare l'argomento del documento.
2. Individuazione dei documenti duplicati, sarà basata sul confronto della frequenza di frasi e frasi correlate tra documenti, se l'informazione coincide con quella di altri documenti indicizzati probabilmente (within a tolerance) si tratta di duplicati e si procederà alla rimozione dall'indice di uno di questi.

Le rimanenti informazioni presenti nel brevetto del PhraseRank possono passare in secondo piano per chi segue l'aspetto SEO, parte della documentazione è stata tradotta e messa da Francesco, in ogni caso vi assicuro che la lettura del documento originale non è pesante come sembra. A breve ulteriori approfondimenti.

Tag: (2) (7) (2) (1) (1)

TrackBack

TrackBack URL for this entry:
http://get.fastpopularity.com/mt/mt-gettb.cgi/17

Listed below are links to weblogs that reference Brevetti Google: PhraseRank, information retrieval basato sulle frasi:

» Top Ten con i migliori articoli di internet marketing di febbraio from Progetto-Seo
Oggi 1 marzo puntuale come un orologio svizzero arriva su progetto seo l’appuntamento con la top ten dei 10 migliori articoli, che trattano di seo e webmarketing, raccolti in rete nel mese di febbraio. Senza dilungarmi troppo, il regolamento lo conos... [Read More]

Commenti (1)

 
Traniarhign:

I read some of the posts and I think it is a great blog. Sometimes I can't help but show you my dizzy school I have a fresh joke for you) Did you hear that NASA has launched several Holsteins into low earth orbit? It was the herd shot around the world.

Scrivi un commento

GET

GET è il blog multi autore che entra a far parte del network e si propone come elemento aggiuntivo per quella che è la mission di FastPopularity, "promuovi la tua visibilità online".

Partner

FastPopularity.com consiglia ConversionLab V4.0, uno strumento innovativo, versatile e dal facile utilizzo ma soprattutto un alleato sicuro e affidabile nello sviluppo e gestione di campagne pubblicitarie online.



Add to Technorati Favorites FastPopularity
Powered by
Movable Type 3.34