I motori di ricerca

Costruire l'indice


Una volta che lo spider ha terminato il proprio lavoro, i dati devono essere salvati nel famoso indice di cui abbiamo parlato in precedenza. Due sono essenzialmente le componenti che entrano in gioco a questo punto:
  • Quali informazioni salvare
  • In che modo salvarle
Il modo più semplice per salvare le informazioni potrebbe essere quello di memorizzare parola e relativo URL. In questo modo però il motore di ricerca non riuscirebbe a capire il peso della parola all'interno del sito web e non potrebbe quindi identificare un sito che parla in modo approfondito di un determinato argomento da uno in cui l'argomento è appena nominato.

Alla luce di questo, un indicizzazione ben fatta deve tener conto di altre informazioni (oltre a parole e URL) quali ad esempio il peso di ogni parola. Questo dato può essere calcolato con differenti algoritmi, ma solitamente si tende ad assumemere che una parola che appare nel titolo o nei meta tags abbia un peso maggiore rispetto ad una che appare solo in fondo alla pagina.

Alcuni motori di ricerca (tra cui il famosissimo Google), memorizzano per ogni parola anche il suo carattere, la grandezza del font ed il colore, ed usano tali informazioni nell successive fasi di ricerca. E' ovvio infatti che parole scritte con un font più grande rispetto al resto del documento abbiano un peso differente rispetto alle altre. Lo stesso dicasi per l'eventuale colore o per il tipo di carattere usato.