Gli esempi sviluppati nella sezione precedente mostrano come collegare fra loro elementi presenti nella medesima pagina o pagine diverse che si trovano nella stessa cartella (directory) di un disco fisso locale: queste quindi sono pagine locali. È evidente che, per quanto detto circa il Web e la sua diffusione mondiale, è necessario un modo per indirizzare tutte le risorse presenti nel Web, non solo quelle locali. È in tal modo che si estende la "ragnatela" del Web e si realizza la condivisione delle risorse. In altri termini, gli indirizzi URL sono gli elementi cruciali della navigazione nel World Wide Web.
Il Web utilizza uno schema di indirizzamento alle risorse di tipo standardizzato, denominato complessivamente Universal Resource Locator (localizzatore universale delle risorse) o semplicemente URL. L'indirizzo URL precisa esattamente le posizioni dei documenti e di altri tipi di informazioni nel Web in modo che i browser possano trovare il materiale cercato. Un URL può puntare a un'altra zona della pagina corrente, ad una pagina locale diversa da quella corrente o ad una risorsa Web remota. Quando quindi si creano delle pagine Web, queste avranno un loro URL unico: questo loro indirizzo unico permette a qualsiasi utente del Web di trovare la pagina e di esaminarne il contenuto.
La struttura di un indirizzo URL, inizialmente può sembrare complicata mentre invece, ad una analisi più approfondita, appare logica e chiara. Vediamola nei particolari.
Le componenti di un indirizzo URL sono:
Protocollo. Il protocollo di un URL indica al browser il tipo di risorsa cui sta accedendo. In effetti, il browser deve sapere come interpretare ciò che trova: è come se il browser dovesse tradurre documenti scritti in lingue differenti. Prima di interpretare le istruzioni di una pagina, il browser deve sapere in quale linguaggio sono scritte: in altri termini, il protocollo segnala al browser il formato in cui è espresso il tipo di risorsa che si vuole utilizzare.
Ad esempio nell'indirizzo URL che punta al documento Web
http://campus.sede.enea.it/internetscuola/home.html
I separatori tra un campo e l'altro consistono, dopo il tipo di protocollo, dalla combinazione dei caratteri :// e successivamente sempre dalla barra /.
L'indirizzo URL seguente
ftp://ftp.liberliber.it/liberliber/ftp/readme.txt
mette in evidenza che
Sempre con una sintassi simile ci si può riferire anche a file contenuti nel disco fisso locale, cioè a file appartenenti al sistema nel quale sta funzionando il browser. In tale caso il sistema locale viene individuato con il termine localhost seguito, nei sistemi Windows, con i nomi delle unità locali A: per il floppy, C: per il disco fisso, D: per il lettore CD. Per esempio, volendo puntare al file di nome index.html memorizzato nella cartella no-audio del cd-rom contenente questo corso, potremo usare l'indirizzo (supposto che il lettore sia l'unità D:)
file://localhost/D|/no-audio/index.html
e omettendo, localhost, l'indirizzo si riduce a
file:///D|/no-audio/index.html
Come si vede ai due punti identificativi dell'unità, va sostituita la barra verticale (in questo contesto i due punti assumono un diverso significato da quello usuale nei sistemi Windows).
In sostanza un indirizzo URL possiede una sintassi molto semplice. Essa è composta di quattro parti:
TipoDiProtocollo://NomeDelServer/Percorso.../NomeFile.Estensione
Tra la prima e la seconda parte vanno inseriti i caratteri ://.
Nota. Se si intende referenziare una zona specifica del file di destinazione dovremo aggiungere alla sintassi sopra il nome di tale zona. La corrispondente etichetta va scritta subito dopo il nome del file (comprensivo dell'estensione) ed è separata da questo dal simbolo #: tale simbolo, già incontrato nella sezione precedente, assume quindi il significato di separatore tra il nome del file e il punto che si intende raggiungere entro questo file.
Nelle tabelle sottostanti riportiamo i protocolli più importanti che permettono l'accesso ai relativi servizi, accompagnati da alcuni esempi illustrativi (N.B.: l'ultimo protocollo utilizza una sintassi un po' diversa da quella descritta).
Protocollo | file |
Esempio | file:///C|/index.html |
Descrizione | Indirizza al file index.html che il browser troverà sul computer locale, in particolare sul disco fisso C:. Va notato che l'omissione di localhost implica la presenza di 3 barre e che la lettera C è seguita da una barra verticale e non dai due punti. |
Protocollo | ftp |
Esempio | ftp://ftp.liberliber.it/liberliber/ftp/readme.txt |
Descrizione | Indica una risorsa che si vuole trasferire nel proprio computer. Di solito questo protocollo permette agli utenti di prelevare uno o più file da un server remoto e copiarlo sulla macchina locale. |
Protocollo | http |
Esempio | http://www.mclink.it |
Descrizione | È il protocollo di funzionamento usuale del browser, quello che permette la consultazione di pagine scritte in HTML ossia di muoversi nel Web. |
Protocollo | mailto |
Esempio | mailto:LRoi@mclink.it |
Descrizione | Questo tipo di URL viene utilizzato per indicare l'indirizzo di e-mail di qualcuno (in questo caso del sottoscritto). Se l'utente fa clic su un tale link viene avviato il programma di posta elettronica e si può spedire una comunicazione al proprietario di tale URL (nel caso vogliate mettervi in contatto, non pensateci due volte!). Si noti che non viene usata la barra (slash). |
Già ad una prima occhiata, quanto esposto sopra appare significativamente diverso da quello che è emerso nei due esempi di link locali sviluppati nella pagina precedente. Questa osservazione mette in evidenza l'esistenza di un percorso alternativo al metodo descritto sopra: in sintesi tale metodo, detto dei percorsi assoluti, richiede di specificare completamente l'URL, a partire dal tipo di protocollo, per attraversare tutta la gerarchia di cartelle a partire dal livello superiore.
Il metodo alternativo, che spiega i link della pagina precedente, fa uso invece di percorsi relativi e cioè di una sintassi, generalmente più sintetica. Questa richiede di definire solo il percorso che si seguirebbe per raggiungere un determinato file partendo, anziché ogni volta dal livello gerarchico più elevato, dalla cartella corrente.
La specificazione di un percorso relativo inizia quindi dalla cartella che contiene il documento che si sta consultando con il browser, appunto la cartella corrente o di lavoro. Il nome quindi di un percorso relativo non può iniziare con una barra / in quanto diverrebbe assoluto essendo questa il simbolo della cartella di livello più alto (la directory principale). Alcuni esempi potranno chiarire questo metodo:
HREF="canti34.html" | Il file si trova nella cartella corrente. Questo è il formato più semplice e diffuso di un percorso relativo. |
HREF="no-audio/index.html" | Il file si trova nella cartella no-audio, che è una sottocartella della cartella corrente. |
HREF="no-audio/Inferno/canto1.html" | Il file è reperibile all'interno della cartella Inferno, posta all'interno della cartella no-audio, sottocartella di quella corrente. |
HREF="../Paradiso/canto1.html" | Questo innanzitutto indica al browser di spostarsi nella cartella superiore. I due punti (..) indicano di passare alla cartella che si trova a un livello superiore rispetto a quella corrente cioè alla cartella "madre" di quella corrente. Questo percorso indirizza al file canto1.html reperibile all'interno della cartella Paradiso, contenuta nella cartella superiore rispetto a quella corrente. |
A prima vista si potrebbe pensare di utilizzare sempre il metodo del percorso assoluto per specificare i file nei collegamenti ipertestuali: è invece vero l'opposto. Per spiegare perché, occorre sottolineare che, se possibile,
L'uso quindi di percorsi relativi consente di spostare le pagine all'interno del sistema o di trasferirle su altri sistemi con pochissime modifiche e spesso nessuna modifica. È molto più semplice eseguire la manutenzione di pagine HTML contenenti percorsi relativi e questo ripaga della fatica spesa per determinare tali percorsi.
Dopo aver discusso del metodo di indirizzamento del Web, siamo in grado di collegare pagine sparse ovunque. Intendiamo inserire un link alla pagina Web remota di LiberLiber, associazione senza fini di lucro per la pubblicazione in forma elettronica di testi letterari. Pertanto, attivato il file canti12.html
Ora il link con la risorsa remota è impostato e, se dotati di collegamento, un clic su LiberLiber ci porterà direttamente al file index.htm relativo alle opere reperibili in forma elettronica di Dante Alighieri.
Poiché, in questo esempio, il file cui si fa riferimento possiede il nome index.htm si sarebbe potuto immettere l'indirizzo nella forma abbreviata
http://www.liberliber.it/biblioteca/a/alighieri/
omettendo quindi il nome del file. Difatti, tutte le volte che un indirizzo relativo al protocollo HTTP non termina con il nome di un file, il file che viene caricato dal server è il file "standard" di tale cartella (nel nostro caso la cartella è alighieri): normalmente questo file ha appunto nome index.htm o index.html (oppure home.htm, home.html).
Pertanto se si sta progettando una pagina Web dalla quale dipendono tutti i file di una cartella (o di un sito), converrà chiamare index.html (oppure home.html) questa pagina: in tal modo l'indirizzo URL sarà più breve e il server caricherà in ogni caso la pagina voluta.
Per concludere, dato che la maggior parte dei server costituenti la rete funzionano con il sistema operativo UNIX, quando si digita l'indirizzo URL va posta particolare attenzione ai caratteri presenti e al fatto che essi siano minuscoli o maiuscoli. Difatti in UNIX, i nomi dei file in caratteri maiuscoli non sono considerati identici a quelli minuscoli. Così se l'indirizzo appena immesso fosse stato digitato come
http://www.liberliber.it/biblioteca/a/Alighieri/index.htm
con l'iniziale di Alighieri maiuscola anziché minuscola il server, quasi certamente, avrebbe risposto che l'indirizzo cercato è inesistente o è errato.