03 Termini tecnici
generali di riferimento
- Caching
- È l’operazione eseguita da un server (un proxy, ad esempio) o da un
computer cliente, consistente nel memorizzare una copia locale di una risorsa
recuperata da Internet, con lo scopo di servire all'utente che ne fa richiesta
quella copia locale, in luogo del documento originale presente su Internet.
L’attività di caching può contribuire a falsare in notevole misura la
veridicità dei dati di traffico rilevati dai log file di un server
web. (Secondo Martin Filz di Red Sheriff, la percentuale delle
page view mancanti, dovuta all’attività di caching, può
raggiungere il 60% del traffico totale che interessa un sito.) È
possibile però prevenire questa perdita di traffico, inserendo nel codice
delle pagine del sito sottoposto a rilevazione statistica un comando che,
definendo la scadenza immediata della validità di ogni pagina, costringa
l’utente interessato a collegarsi effettivamente alla risorsa richiesta, non
potendola più recuperare dalla cache. Questa soluzione ha però degli
svantaggi: in primo luogo una maggiore occupazione di banda, in secondo luogo
un’attesa più lunga per il caricamento delle pagine (rispetto all'attesa per
quelle recuperate direttamente dalla memoria del proxy) da parte dell’utente, il
quale potrebbe essere negativamente influenzato – per quanto riguarda future
visite - da un simile inconveniente.
- Cookie
- Letteralmente “biscotto”. Si tratta di un file di testo che viene generato
dal browser dell’utente in seguito ad un messaggio inviato dal server web in
risposta alla richiesta di collegamento ricevuta. Il cookie viene memorizzato
sul computer cliente. Esso contiene delle informazioni che identificano
univocamente quell’utente rispetto al sito Internet che lo ha generato. Ad
ogni successiva connessione, il server web richiederà al browser il cookie
precedentemente memorizzato. Se questo viene trovato, il server potrà
utilizzare le informazioni in esso contenute per vari scopi:
- per offrire contenuti personalizzati a quell’utente (ad esempio una pagina di
benvenuto con il suo nome);
- per tracciare dei profili di comportamento basati sui percorsi di navigazione
seguiti nel corso delle visite effettuate al sito;
- per aggiornare le statistiche che registrano le visite ricevute da utenti
unici.
Tutte le rilevazioni statistiche di traffico-web originate dall’uso di cookie
sono soggette principalmente a due variabili: a) che l’utente collegato abbia
abilitato nel proprio browser il supporto per i cookie; b) che effettui i
successivi collegamenti per mezzo dello stesso browser.
- DHCP, Dynamic Host Configuration Protocol
- È un protocollo di comunicazione che, installato su un server di rete,
consente di governare automaticamente e centralmente l’assegnazione degli
indirizzi IP a ciascuna macchina connessa ad Internet all’interno della rete. DHCP
è in grado sia di assegnare IP statici, cioè indirizzi sempre uguali nel
tempo, sia IP dinamici, cioè indirizzi con scadenza a breve termine
(generalmente la durata di una sessione di connessione ad Internet). L’uso di
DHCP con assegnazione di IP dinamici è particolarmente utile per quegli enti,
quali università e provider, che hanno a disposizione un numero di indirizzi IP
da distribuire inferiore al numero delle macchine che potenzialmente possono
accedere ad Internet tramite i loro server.
Il fatto che moltissimi utenti si colleghino alla Rete per mezzo di IP
dinamici ricevuti automaticamente via server DHCP è un’ulteriore fonte di
incertezza per le rilevazioni statistiche del traffico generato da un sito.
Infatti l’indirizzo IP soggetto ad assegnazione dinamica è un’informazione
insufficiente per identificare nel tempo in modo non ambiguo un singolo
visitatore del sito (lo stesso IP potrebbe essere assegnato in successione ad
x utenti di una stessa rete).
- DNS, domain name system
- È il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di
dominio è un nome letterale, associato in modo univoco ad un indirizzo IP
numerico, per identificare una risorsa su Internet. Ogni volta che un utente
invia tramite il proprio browser una richiesta di collegamento specificando un
nome di dominio (ad es. www.diodati.org), il server DNS competente intercetta la
richiesta e trasforma la stringa letterale nel corrispondente indirizzo IP. Se
quest’ultimo non è contenuto nella propria tabella di corrispondenze, la
richiesta viene inoltrata ad un altro server DNS, e così via finché il nome
letterale non viene risolto nella stringa numerica corrispondente. A questo
punto, tutti i DNS interpellati si aggiornano automaticamente, inserendo nei
rispettivi database la nuova corrispondenza trovata. Questo sistema di
chiamate e aggiornamenti incrociati tra una serie di server DNS decentrati è
più veloce, pratico e sicuro di un sistema basato su un unico server
DNS centralizzato.
- IP address (indirizzo IP)
- La sigla IP sta per Internet Protocol. È un numero di 32 bit che
rappresenta univocamente ogni mittente o ricevente di pacchetti di dati
attraverso Internet. Nella sua forma più comune l’IP address è espresso come
una serie di quattro numeri, separati tra loro da un punto. Ognuno dei quattro
numeri può variare (con alcune limitazioni) tra 0 e 255. Qualsiasi
comunicazione che avviene su reti appartenenti ad Internet deve comprendere
necessariamente l’indirizzo IP del mittente e quello del destinatario, allo
scopo di poter essere istradata correttamente.
- Log file (file di registro)
- Buona parte delle rilevazioni statistiche sul traffico generato dai siti
Internet sono effettuate da programmi che analizzano e presentano, in forma
comprensibile al lettore umano, i dati memorizzati momento per momento dai server
web nei propri file di log.
Usati originariamente come fonte primaria di informazioni per determinare
i carichi di lavoro dei server e studiare possibili migliorie nella
distribuzione di quei carichi, oggi i dati ricavati dai file di registro sono
considerati principalmente come strumenti commerciali, cioè:
- come informazioni sul successo di un sito Internet o di una sua parte,
- come mezzi per conoscere abitudini e preferenze di navigazione degli utenti
che si collegano ad un sito,
- come credenziali per vendere servizi (ad esempio spazi pubblicitari).
È importante però tener presente che i dati ricavati dall’analisi dei log non
sono altro che registrazioni dell’attività del server web e, solo in modo
indiretto e con molta cautela, possono essere considerati strumenti per
conoscere il numero degli utenti collegati e le loro abitudini di navigazione.
Su questo equivoco poggiano molte cattive interpretazioni dei dati di traffico
generati dai server web.
I file di log possono assumere, a seconda dei sistemi, nomi e struttura
differenti. Pur nella variabilità delle configurazioni, possiamo suddividere
comunque i file di registro in quattro categorie principali:
- Transfer (o access) log
– Registra tutte le richieste di trasferimento file pervenute ad un server tramite protocollo HTTP dagli utenti collegati via
Internet. I dati in esso raccolti sono una buona misura del carico di lavoro a
cui è sottoposto un server web.
- Error log – Memorizza tutte le richieste HTTP che non hanno prodotto il
risultato atteso dall’utente. Rientrano in questa categoria il ben noto errore
‘404 File not found’, gli errori di timeout (= scadenza del
tempo di attesa), le connessioni rifiutate, quelle
interrotte, i messaggi di server ‘too busy’ (= troppo occupato), ed altri
ancora. L’analisi degli errori riportati in questo file di registro è utile
per correggere possibili squilibri nella struttura di un sito, per scoprire la
presenza di collegamenti interrotti, per verificare se la potenza di elaborazione
della CPU o la banda di connessione ad Internet siano sufficienti rispetto al
volume di traffico generato.
- Referrer log – Tiene traccia della provenienza delle richieste di
trasferimento di file ricevute dal server. È in genere meno usato dei due log
precedenti.
- Agent (o user agent) log –
Registra il tipo di software che invia una
richiesta HTTP al server web. Le informazioni fornite da questo file di
registro riguardano il tipo e la versione di browser utilizzato dall’utente,
il sistema operativo usato, la risoluzione video. Altri dati importanti sono
quelli relativi agli accessi effettuati da spider e robot utilizzati da motori
di ricerca per indicizzare le pagine di un sito (se ne conoscono oltre una
ventina).
Va detto a questo proposito che le visite effettuate dai software di
indicizzazione dei motori di ricerca dovrebbero essere sottratte al numero
complessivo di visite al sito risultante dai file di registro. Questo è un
altro degli equivoci che possono nascere da un esame superficiale dei dati di
traffico forniti dai file di log.
- NAT, Network Address Translation
- Letteralmente: traslazione dell’indirizzo di rete. È un
meccanismo che consente, tramite appositi sistemi hardware e software, di far
corrispondere una serie di indirizzi IP usati solo in rete locale ad una serie,
generalmente meno numerosa, di indirizzi IP pubblici. Si ottengono così
molteplici vantaggi:
-
l’uso in rete locale di indirizzi IP già assegnati su Internet (la cosa non crea
conflitto per il fatto, appunto, che tali IP sono usati solo per identificare
i computer all’interno di una LAN);
-
la possibilità di mascherare l’IP delle singole macchine agli utenti esterni,
i quali “vedono” unicamente gli IP pubblici attribuiti al gateway di rete (in
questo senso il natting, interponendosi tra l’interno e l’esterno della rete
locale agisce anche da firewall)
-
la possibilità di gestire in concreto una quantità di IP maggiore di quelli
che sono stati acquistati come IP pubblici
L’uso di questa traslazione degli indirizzi IP da parte di molte reti
rappresenta una perdita d’informazioni per la rilevazione statistica degli
accessi ad un sito. Se, infatti, non si dispone della tabella di traduzione
usata da un server NAT, non è possibile sapere se le richieste giunte da un
certo IP fanno capo ad una o più macchine, né tantomeno a quali.
- Proxy server
- È un server che agisce da filtro tra le richieste di connessione a siti
Internet, provenienti in genere dall’interno della rete LAN o WAN a
cui il proxy appartiene, ed i siti stessi. La richiesta di accedere
ad una risorsa su
Internet, proveniente da un computer appartenente ad una LAN o ad una WAN, viene intercettata dal
proxy di rete in modo del
tutto trasparente per l’utente. Se la pagina richiesta non è presente nella
cache (= memoria tampone) del proxy, la richiesta viene inoltrata al sito che ospita la
risorsa, così da recuperare la pagina ed inviarla all’utente. Se, viceversa,
la pagina è già presente nella cache del proxy, questa viene inoltrata
direttamente all’utente, senza che occorra inviare alcuna richiesta al sito
Internet che ospita la risorsa. L’uso di un proxy server fornisce
essenzialmente due vantaggi:
-
La possibilità di filtrare le richieste provenienti dall’interno della propria
rete, in modo da evitare, ad esempio, di soddisfare le richieste di
connessione a determinati siti proibiti dalle regole aziendali.
- La possibilità di aumentare notevolmente le prestazioni, risparmiando tempo e
banda di connessione: ciò avviene quando una stessa pagina, già presente nella
cache del proxy, viene richiesta da più utenti
e quindi inviata loro direttamente dal proxy stesso, che evita così
di connettersi nuovamente al server remoto che ospita la risorsa.
Come si può comprendere, il fatto che molti accessi ad un sito provengano da
proxy di reti più o meno ampie può falsare grandemente la valutazione del
numero di pagine effettivamente viste (page views), numero che potrebbe essere
ben superiore a quello rilevato tramite l’analisi dei file di log. Si pensi ad
esempio a quanti utenti potrebbero essere serviti da un’unica pagina prelevata
da un proxy di America On Line e conservata nella sua cache.
- Redirect (reindirizzamento)
- È un meccanismo per mezzo del quale un utente che ha richiesto di
collegarsi ad un certo indirizzo Internet viene reindirizzato automaticamente ad un
indirizzo
differente. Càpita spesso, così, che una medesima pagina web possa essere
raggiunta, in virtù di appositi reindirizzamenti, da un certo numero di
indirizzi diversi. Ai fini della rilevazione del numero effettivo di page view
ottenuto in un certo periodo, occorre perciò tenere conto di tutti i redirect
effettuati dal web server nel periodo considerato.
- Reverse DNS lookup
- Mentre la trasformazione da un indirizzo letterale al corrispondente
indirizzo numerico è detta forward DNS lookup, l’operazione contraria – cioè
il risalire da un indirizzo IP noto al corrispondente nome di dominio – è detta
reverse DNS lookup. Appositi software sono in grado, interrogando dei server
DNS, di ottenere il nome di dominio a partire dall’IP numerico. Un sistema di
rilevazione dei dati di traffico ha più valore se è in grado di effettuare il
reverse DNS lookup, dal momento che per l’interprete umano la lettura di una
serie di IP numerici dice poco o nulla, mentre molto più utile risulta la
corrispondente serie di indirizzi letterali: solo questa è in grado, infatti,
di informare effettivamente gli amministratori di un sito sulla provenienza
degli accessi registrati.
- Spider, o crawler o web bot
- Si tratta di programmi che automaticamente effettuano, in base a
determinati criteri, una serie di richieste di file ad un server web, allo
scopo di indicizzare i contenuti di quel sito per conto di un motore di
ricerca.
Le richieste provenienti da spider possono incidere fortemente sulla
rilevazione del traffico generato da un sito. Per tale motivo, gli accessi
prodotti da spider vengono in genere evidenziati dai sistemi di misurazione
statistica, in modo che se ne possa tener conto e non risultino così falsati i
valori relativi alle visite ricevute da parte di utenti umani.
- Session timeout
- È la durata massima predefinita di una visita ad un sito da parte di un
utente unico. Non esiste uno standard per questa durata e neppure un
consistente accordo in proposito. La lunghezza di una sessione può variare da
un minimo di 10-15 minuti ad un massimo di un’ora. Nella maggior parte dei
casi essa è impostata su 20 o 30 minuti. Se dura 20 minuti, ciò significa che
ad un utente unico - riconosciuto come tale perché ha il medesimo
indirizzo IP -
vengono attribuite due visite al sito, nel caso in cui una sua richiesta di
pagina giunga oltre 20 minuti dopo la precedente richiesta registrata.
Viceversa, se l’intervallo trascorso tra questi due eventi è inferiore a 20
minuti, allora viene conteggiata per quell’utente un’unica visita.
Come è facile comprendere, la durata di sessione è un parametro del tutto
arbitrario, che nulla ha a che vedere con l’effettivo comportamento degli
utenti collegati ad un sito e che può tuttavia influenzare le valutazioni del
settore commerciale di un’azienda, circa la misura della fedeltà degli utenti ai
siti presi in considerazione. Poniamo ad esempio che un sito, avendo un
timeout di sessione impostato su 20 minuti, registri molte visite di utenti
unici nell’arco di un mese di rilevazione: se ne potrebbe ricavare l’idea che
dietro quelle visite ripetute si celino utenti fidelizzati. Basterebbe però
probabilmente aumentare di soli dieci minuti il timeout di sessione, per
scoprire che il numero di visite al sito da parte di utenti unici è nettamente
diminuito! Ancora una volta è la conoscenza del significato e della reale
portata dei numeri offerti dalle statistiche di traffico che aiuta a non
commettere pericolosi errori di valutazione.
- URL, Uniform Resource Locator
- È l’indirizzo, unico e inequivocabile, di una risorsa su Internet.
Qualsiasi documento - sia esso un file immagine, un file di testo, una risorsa
multimediale, ecc. – è localizzabile precisamente per mezzo della URL. Questa
comprende:
-
una parte relativa al protocollo di comunicazione invocato (es.:
http://
);
-
una parte più generale, che identifica l’host, ovvero il computer su cui è
archiviata la risorsa (es.:
www.diodati.org
);
-
una parte di dettaglio, che specifica il percorso e il nome del file da
recuperare (es.:
/scritti/2002/g_stat/index.htm
).
Nel linguaggio tecnico delle Specifiche HTML 4,
non si parla più di URL ma di URI (Uniform
Resource Identifier = Identificatore Uniforme di Risorsa). Nel linguaggio
comune di autori ed appassionati di Internet, però, l'uso della sigla URL è di
fatto ancora largamente prevalente.
Leggi
Tipi di informazioni ricavabili dalle statistiche di traffico
Vai al
sommario
Scrivi a
info@diodati.org
Aggiornato Wednesday, 11-Sep-2002 10:56:20 CEST
inizio
pagina