Scrivere sul web è sostanzialmente diverso da qualsiasi altra forma di scrittura: la lettura a video è molto più fastidisiosa, l'utente vuole trovare subito quello che cerca quindi bisogna usare un tipo di comunicazione più diretta, i testi devono essere ben formattati per evitare i cosiddetti "muri" di testo e tanti altri accorgimenti che fanno dello scrivere sul web un vero e proprio mestiere.
In questo post volevo soffermarmi però su come un testo, attualmente, viene visto e archiviato da un motore di ricerca, e porre l'attenzione su quelle che vengono chiamate stopwords (o stop words), cioè le parole che vengono filtrate, prima, dopo, durante un processo di archiviazione di un testo.
Il termine stopwords, coniato da Hans Peter Luhn, pionere nell'information retrieval, sta ad indicare proprio quelle parole in cui il processo di archiviazione si ferma, salta la parola "inutile" e riprende.
In generale infatti le stopwords sono filtrate in base al loro livello di utilità in un dato contesto o percentuale di uso.
Perchè attualmente?
Perchè oggi i motori di ricerca filtrano un certo tipo di parole sia per ridurre lo spazio occupato dall'indicizzazione, sia per aiutare gli utenti in fase di ricerca, provvedendo alla richiesta di una certa query, con dei risultati migliori. Solitamente, a diversi processi di text mining corrispondono differenti liste di stopwords a seconda del contesto, della percentuale con cui vengono ripetute e dei filtri che vengono impostati; un probabile riassunto dei termini che vengono inclusi nelle stopwords potrebbe essere:
- aggettivi indefiniti
- articoli
- avverbi
- esclamazioni
- interiezioni
- preposizioni
- pronomi (dimostrativi, indefiniti e relativi)
- verbi ausiliari (essere, avere, andare, venire)
- verbi modali (dovere, parere, potere, sapere, sembrare, solere, volere).
Ma domani?
Sembra che il futuro sia quello dell'indicizzazione per frasi: il gigante di Mountain View, infatti, ha recentemente rilasciato una serie di brevetti, di cui sotto vediamo un abstract dei due che ritengo più importanti, che convergono ad un'analisi di un documento diversa da quella a cui siamo abituati:
1) Phrase-based searching in an information retrieval system
"Un sistema di IR che usa frasi per indicizzare, recuperare, organizzare e descrivere documenti. Le frasi identificate predicono la presenza di altre frasi nel documento. I documenti vengono indicizzati in accordo alle frasi che includono. Le frasi correlate e l'estensione delle frasi sono anch'esse definite. Frasi in una query sono identificate e usate per recuperare e valorizzare i documenti. Le frasi sono anche usate per raggruppare i documenti nei risultati delle ricerche, creare le descrizioni dei documenti ed eliminare documenti duplicati dai risultati e dall'indice."
2) Detecting spam documents in a phrase based information retrieval system
"Un sistema di IR che usa frasi per indicizzare, recuperare, organizzare e descrivere documenti. Le frasi identificate predicono la presenza di altre frasi nei documenti. I documenti vengono indicizzati in accordo alle frasi che includono.
Un documento spam è identificato basandosi sul numero delle frasi correlate incluse in un documento."
Vi segnalo un'interessante discussione sul forum GT, e un articolo riassuntivo della situazione di William Slawski, un po lungo ma da stampare e appendere in studio!


