Database

2. COMPUTER SCIENCE

2.1 DATABASE

Science, 13 Aug 93, Vol. 261, pg, 841 - Robert Pool - Internet, il sistema mondiale di computer interconnessi in rete, sta creando delle comunità elettroniche di studenti, ricercatori e scienziati che comunicano fra di loro mediante e-mail ed attingono ai circa 50000 database della rete. Si sta assistendo ad una rivoluzione portata avanti soprattutto dai giovani cresciuti con il personal computer. Ci sono oggi 1,7 milioni di computers collegati nel mondo tramite Internet, e di questi 1 milione negli USA, ed il numero raddoppia ogni anno. Dopo lo e-mail, l’accesso ai database è il motivo principale per cui ci si collega ad Internet. Il problema sta nella difficoltà ad orientarsi nell’enorme massa dei dati disponibile. Sono stati sviluppati dei software tools per aiutare a navigare in Internet. Il più antico è Archie, un indice aggiornato di files disponibili adatto a chi sa cosa vuole cercare. Il più popolare è oggi il Gopher che fornisce una guida per entrare nelle “infobases” che includono testi ed immagini e cercare con chiavi di ricerca. Il più ambizioso e nuovo è il WWW o World Wide Web (ragnatela mondiale) che usa rinvii ipertestuali con l’uso di un mouse.

Science, 13 Aug 93, Vol. 261, pg, 846 - Eliot Marshall - Agli inizi del prossimo secolo un array di satelliti osserverà la terra e raccoglierà ogni tipo di dati. Si valuta che ogni giorno si raccoglieranno più di un terabyte (trilioni di bytes) di dati. Per maneggiare questo torrente di informazioni, la NASA creerà il più complesso database scientifico mondiale: EOSDIS (Earth Observing System Data and Information System). L’accesso a questa enorme massa di dati dovrà essere facilitata da linguaggi user friendly. Si pensa di avere una versione 0 prototipo della rete di dati pronta per l’uso nel giugno 1994 ed una versione 1 più sofisticata nel 1997. Si dovrà definire un’architettura di sistema che incoraggi continue innovazioni. Per la prova finale del concetto saranno necessari almeno 5 anni da oggi.

Science, 3 Feb 95, Vol. 267, pg. 608 - Ellen Germain - Un “tiger team” della Computer Security Technology Center nel Lawrence Livermore National Laboratory sta provando la resistenza agli attacchi degli hackers del MEDLINE, il database medico, ed il GenBank, il database del DNA che raccoglie le sequenze decifrate dai genetisti di tutto il mondo, nella National Library of Medicine. Questi grandi database sono continuamente aggiornati via Internet. Internet è stata concepita per facilitare le comunicazioni e non la sicurezza. Le normali password passano sulla rete e sono vulnerabili a programmi di ascolto. One-time password vengono adottate da laboratori industriali, ma sono difficili da usare nelle università. Si tende a creare dei “fire walls”, dei passaggi obbligati con filtri software, che permettono l’invio di e-mail e collegano per altri sevizi solo a speciali computer protetti.

Science, 2 Aug 96, Vol. 273, pg. 585 - Ellen Germain - Internet è stata concepita come un modo per permettere a più gruppi di lavorare insieme e scambiare dati, ma vere attività di brain storming sono oggi impossibili per la congestione del traffico. Anche se Internet è capace di una velocità di 2 Mb/s (megabit al secondo), si può contare su 0,2 o 0,7 Mb/s troppo poco per un colloquio interattivo. I ricercatori chiedono delle strategie per fare distinzioni fra gli utenti. Una di queste è di creare delle strade veloci con priorità, ma questo viene in conflitto con la cultura egualitaria di Internet e probabilmente richiederebbe un cambiamento dei costi del servizio. L’algoritmo di trasmissione è oggi basato sul criterio first-in first-out dei pacchetti, questi vengono parcheggiati in una coda ed appena si libera la banda passante vengono inviati, in realtà non esistono buone statistiche su come fluisce il traffico dei dati per migliorarlo. Per ridurre l’ammontare del traffico Web, specialmente quello attraverso l’Atlantico, si sono creati delle memorie cache in UK dove si memorizzano i siti USA visitati in modo a essere accessibili da altri utenti. Si può creare un meccanismo di prenotazione, o Resource Reservation Protocol (RSVP), per un servizio di qualità che acceleri la trasmissione; in questo caso si deve creare un meccanismo per decidere chi deve avere questo servizio e per prevenire abusi; un tale meccanismo passa chiaramente per un costo aggiuntivo. Un’altra tecnologia per rendere più veloce il trasferimento dati è il sistema noto come ATM (asynchronous tranfer mode) che sostituisce i pacchetti di dimensioni diverse con pacchetti di uguali dimensioni evitando che i messaggi più lunghi debbano aspettare a lungo fino a che non si renda disponibile una sufficiente banda passante. Il sistema ATM può essere introdotto nell’attuale rete con modifiche software, ma per funzionare bene sono necessarie modifiche hardware.

Science, 18 Oct 96, Vol. 274, pg. 335 - Andrew Lawler - Il Presidente Clinton vuole lanciare un progetto della NSF detto very high speed Backbone Network Service (vBNS) per permettere ai ricercatori di bypassare la troppo affollata rete Internet. La nuova rete permetterà alle università di comunicare da 100 a 1000 volte più velocemente di oggi. Mentre l’attuale Internet ha una capacità di trasmissione di 45 megabits per secondo, la nuova rete arriva a 622 megabits per secondo. Oggi vi sono collegate 13 università, alla fine dell’anno ne saranno collegate 30 ed entro 3 anni 100.

Science, 7 Mar 97, Vol. 275, pg. 1412 - Jeffrey Mervis - Due nuove iniziative stanno emergendo per rendere più efficace la rete di interconnessione Internet. Una è il programma detto Next Generation Internet (NGI) da 5 milioni di US$ in 5 anni che il presidente Clinton ha annunziato lo scorso ottobre. La seconda è un’iniziativa universitaria chiamata Internet-2 per migliorare la rete dei campus. Queste iniziative si aggiungono a quelle già esistenti: la NSF vuole estendere a 100 università il collegamento very high speed Backbone Network Service (vBNS) del 1995 fra i 5 siti di supercomputers; il Department of Energy ha lo ESnet (Energy Sciences Network) che serve i propri laboratori; il Department of Defence ha la rete DREN (Defence Research and Engeneering Network) creata per i 57 propri laboratori; la NASA ha la rete NREN (NASA Research and Education Network) creata nel 1994 per connettere 5 centri di ricerca.

Science, 18 Sep 98, Vol. 281, pg. 1784 - Joseph Alper - Si è coniato il termine di Universal Library per indicare il progetto di una interconnessione fra molte librerie che mettano insieme il loro materiale in modo trasparente per l’utilizzatore. Negli USA, negli ultimi 4 anni, la Digital Library Initiative (DLI-1) sta sviluppando schemi per raccogliere, memorizzare, ed organizzare le informazioni in forma digitale per renderle disponibili sulle reti di comunicazione e sviluppare metodi veloci per trovare le informazioni in un sistema di librerie distribuito. Così si stanno realizzando lentamente i singoli blocchi di questa Universal Library; il Progetto Gutemberg (sailor.gutemberg.org) riunisce le librerie che stanno entrando nel mondo digitale; la JSTOR (www.jstor.org) raccoglie i numeri attuali e precedenti di 83 riviste accademiche; la Electric Library (www.elibrary.com) fornisce ai sottoscrittori l’accesso ai documenti di molte librerie private e pubbliche; la Alexandria Digital Library di Santa Barbara (CA) (www.alexandria.ucsb.edu) fornirà mappe per la ricerca. Si stanno documentando in forma digitale anche oggetti tridimensionali mediante sistemi laser che ottengono una risoluzione millimetrica. Il Vaticano sta usando questo sistema per documentare la sua enorme collezione artistica. Lo stesso sta facendo il National Ethnological Museum di Osaka (Giappone) per le sue collezioni usando 5 video recorder ed un sistema laser. Tuttavia i sistemi di ricerca commerciali non sono oggi completamente soddisfacenti nell’uso di parole chiavi e non sono capaci di ricercare immagini o dati di tipo acustico. La ricerca si risolve normalmente con l’offerta di un enorme numero di pagine e scarse indicazioni del contenuto. L’università di Berkeley in California ha sviluppato il programma Cha-Cha per una ricerca facilitata (cha-cha.berkeley.edu). Per le immagini c’è la Visual SEEk della Columbia University (www.ctr.columbia.edu/VisualSEEk) e la SaFe (disney.ctr.columbia.edu/safe). Per la medicina il più grande database pubblico è quello del MEDLINE della National Library of Medicine’s e per il genoma umano la GenBank (www.ncbi.nlm.nih.gov) amministrata dal National Institute of Health.

Science, 3 Dec 99, Vol. 286, pg. 1840 - Mark Sincel - Il flusso di dati provenienti dagli esperimenti fisici e dalle osservazioni astronomiche sta diventando una vera inondazione ed è pressante il problema di immagazzinarli e canalizzarli. Gli esperimenti previsti dal Large Hadron Collider (LHC) del CERN, che inizieranno nel 2005, forniranno un flusso di dati di 100 megabyte/s e dureranno per 10-15 anni; sono oltre 100 petabyte (1 petabyte è 10E15 byte) equivalenti a circa 10 milioni di hard disk da personal computer. Un altro torrente di dati proviene dai programmi astronomici; lo Sloan Digital Sky Survey (SDSS) che deve raccogliere le immagini di 200 milioni di galassie e misurare la distanza di diversi milioni di esse, produrrà 40 terabyte di informazioni (1 terabyte è 10E12 byte). Altri survey a diverse lunghezze d’onda contribuiranno per altri 10 terabyte. Oltre al problema di immagazzinaggio, c’è quello di organizzare i dati e distribuirli a chi li utilizza. Una collaborazione fra fisici delle particelle ed astronomi, finanziata dalla NSF, sta preparando un piano per distribuire i dati degli esperimenti di LHC e SDSS su un sistema di computer disposti secondo una gerarchia. Al più alto livello si troverà una copia completa dei dati, quindi delle selezioni, orientate per soggetto, saranno distribuite in un gruppo di centri denominati Tier-0. Sotto questo livello vi saranno altri tre livelli sempre più specializzati, Tier-1, -2, -3, che avranno copie progressivamente più limitate di dati. Il contenuto esatto dei livelli cambierà con il tempo in base alle richieste degli utenti in modo da ottimizzare l’efficienza evitando di dover sempre cercare ai livelli superiori.

Science, 24 Jan 2003, Vol. 299, pg. 520 - James Handler - Oggi gli scienziati si affidano sempre più al World Wide Web per le loro ricerche di articoli e riferimenti, per partecipare a discussioni online, per accedere ai database e per ordinare attrezzature. Se si cerca un particolare sito web o un articolo su un specifico argomento si usano i motori di ricerca. Il Google può fare un lavoro fantastico scegliendo fra miliardi di possibilità per identificare potenziali candidati già con le prime ricerche. Nei siti web specifici i motori di ricerca possono fare anche meglio in ambiti più ristretti. Tuttavia continuando a crescere la scienza esponenzialmente in complessità diventa sempre più importante la collaborazione fra scienziati di diverse discipline per accedere a più livelli delle stesse o spaziare in campi scientifici completamente diversi. Ad esempio chi cerca tecniche per analizzare dati basati su immagini può non sapere di dover guardare agli Invarianti laplaciani e nelle basi matematiche delle tecniche. L’attuale tecnologia web è insufficiente nelle ricerche interdisciplinarie. Stanno però emergendo nuove tecnologie web e l’Information Technology dovrà creare nuovi modelli di cooperazione. Questa nuova generazione viene chiamata Semantic Web ed è orientata a migliorare la comunicazione fra persone che usano diverse terminologie e per collegare più database, sulla base di descrizioni leggibili dalle macchine, in tutte le risorse web. A questo scopo è stato sviluppato un nuovo linguaggio basato sul Resource Description Framework (RDF) che va oltre le capacità dell’HTML (Hypertext Markup Language) usato oggi nei siti web e dell’ultima estensione, la Extensible Markup Language (XML). Il centro di bioinformatica del National Cancer Institute (NCI) sta convertendo un vasto vocabolario di termini di ricerca in espressioni leggibili dalle macchine associando ciascuno a organismi, funzioni, localizzazioni e malattie e creando così collegamenti non limitati ad una sola parola chiave. Si possono creare anche legami diretti con altre risorse online e database. Sfortunatamente la maggior parte dei ricercatori non è a conoscenza degli sforzi del Semantic Web. L’iniziativa e-Science in UK che provvede infrastrutture per permettere agli scienziati di accedere a grandi collezioni di dati, risorse di calcolo e programmi di visualizzazione è un buon esempio di come ricercatori e tecnologie dell’informazione lavorano insieme (www.research-councils.ac.uk/escience). Il successo del Semantic Web potrà essere però limitato se i risultati degli sviluppi non sono lasciati in open source senza politiche di brevetti e proprietà intellettuali che rendono impossibile la diffusione e la crescita del sistema.