Reporting the World Over

News and Comments about Life

IBM aiuta la British Library a preservare le informazioni sul web per le future generazioni

Un nuovo software Analytics rende più facili le ricerche di grandi moli di dati

Il mondo cambia sempre più velocemente. Le nuove tecnologie, internet in testa, hanno reso più facile per chiunque accedere ad un mezzo di comunicazione globale per manifestare le proprie idee, la propria cultura. Allo stesso tempo, però, hanno reso molto più difficile districarsi in quella che è stata definita una vera e propria giungla, la giungla della civiltà dell’informazione. Ogni giorno, su internet,decine di migliaia di pagine – ovvero, di espresioni culturali – vengono create, ma vengono anche perse. Per aiutare a preservare un bagaglio di cultura e conoscenza che altrimenti andrebbe perso per sempre, IBM ha annunciato la collaborazione con la British Library ad un progetto per la conservazione e l’analisi di terabytes di informazioni sul Web, denominato IBM BigSheets.

Il nuovo progetto di analytics software aiuta ad estrarre, annotare e analizzare visivamente grandi quantità di informazioni Web utilizzando un browser. Il prototipo della nuova tecnologia IBM sta aiutando la British Library ad archiviare e preservare quantità massiccie di pagine Web e, quindi, aprire la porta virtuale dei suoi archivi alle generazioni future.

La nuova tecnologia di IBM aiuta la British Library a velocizzare il processo di archiviazione, prima che il dato presente su Web venga perso per sempre. Il Web cambia velocemente, con nuove pagine che vengono create ogni giorno: un’esplosione di informazioni, destinate a sparire quasi altrettanto velocemente. Recenti ricerche stimano l’aspettativa di vita di un sito Web tra i 44 ed i 75 giorni. Ogni sei mesi, il 10% delle pagine Web dei domini inglesi viene perso.

“IBM BigSheets fa per le grandi quantità di informazioni quello che un foglio di calcolo ha fatto per un personal computer,” ha detto Rod Smith, vice president, Emerging Internet Technologies, IBM. “Nello spazio di pochi minuti, ricercatori, accademici e studenti potranno eseguire ricerche su archivi di pagine Web di grandi dimensioni, analizzare e visualizzare senza sforzo i risultati della ricerca.”

Preservare le informazioni per le generazioni future

Ogni anno più di sei milioni di ricerche vengono generate a partire dal catalogo online della British Library, e più di 400.000 persone visitano le sale-lettura della British Library, alla ricerca di informazioni. La British Library riceve una copia di ogni pubblicazione fisica prodotta nel Regno Unito ed in Irlanda, per un totale di 150 milioni tra mappe, manoscrittti, spartiti musicali, giornali e riviste che deve archiviare. Andando oltre il semplice aspetto fisico, la British Library ha avviato l’archiviazione di pagine Web scelte dai domini UK a partire dal 2004. Con BigSheets, gli utenti della biblioteca, in futuro, avranno la possibilità di accedere ad un vasto archivio storico di siti Web e di fare ricerche e analisi, visualizzandone i risultati, in modo semplice.

“Stimiamo che lo spazio Web del Regno Unito conterrà, entro il 2011, oltre 11 milioni di siti Web. Per affrontare l’enorme sfida di catturare questi contenuti, abbiamo bisogno di un sistema capace di portare l’Archivio Web ad una scala adeguata, una scala-Web,” ha detto Helen Hockx-Yu, Web Archiving Programme Manager, The British Library. “IBM può aiutarci ad analizzare l’archivio web, contenente milioni di pagine, e a portare in superficie una conoscenza che, altrimenti, sarebbe molto difficile da scoprire con i metodi di ricerca tradizionali.”

Che si trati di una persona interessata al proprio albero genealogico o di uno studente al lavoro su un progetto per scuola, le persone hanno bisogno di aiuto nell’orientarsi in questo oceano di informazioni su Web, in continuo aumento. Per esempio, le elezioni del 2005 hanno visto il primo tentativo, da parte dei politici inglesi, di usare il web come strumento di campagna politica. Si prevede che questo utilizzo del web avrà un’esplosione per le elezioni del 2010, e i dati raccolti nel 2005 consentiranno ai ricercatori di studiare l’evoluzione del rapporto tra politica e web per accedere ad una fonte primaria di materiali di grande valore.

BigSheets: i fondamenti tecnici

Quest’anno, la mole di informazioni digitali si stima raggiungerà i 988 esabite, l’equivalente di una catena di libri dal Sole a Plutone e ritorno. Il Web sta esplodendo di informazioni,ed i business professionals vogliono accedere a quelle informazioni – strutturate e non strutturate – per avere una visione più approfondita del loro lavoro. IBM BigSheets è un motore di approfondimento che aiuta le aziende a ottenere una vista migliore da data set di grandi dimensioni ed in breve tempo. Costruito sul framework di Apache Hadoop, IBM BigSheets è capace di elaborare grandi quantità di dati velocemente ed in modo efficace.

IBM BigSheets è il prototipo di una nuova tecnologia. Gli utenti possono esplorare e generare nuovi approfondimenti dei dati utilizzando un’applicazione Web e poi il software IBM pubblica data feeds secondo gli standard Web 2.0, ricercabili dai clienti della British Library.

BigSheets è l’estensione del paradigma del mashup, che integra gigabytes, terabytes, o petabytes di dati non strutturati provenienti da repository su Web; raccoglie una grande quantità di dati non strutturati partendo da user-defined seed URLs; estrae ed arricchisce l’informazione usando un’architettura di gestione delle informazioni non strutturate; e permette all’utente di esplorare e visualizzare queste informazioni in un contesto specifico, ritagliato per l’utente. Per esempio, gli utenti possono vedere i risultati delle ricerche in un grafico a torta e vedere i dati in una tag cloud.

3 comments on “IBM aiuta la British Library a preservare le informazioni sul web per le future generazioni

  1. Pingback: Notizie dai blog su La British Library per tramandare il Web ai posteri

  2. Pingback: Notizie dai blog su Voglia di tattoo… il web ci aiuta!

  3. Pingback: Notizie dai blog su La sicurezza delle informazioni bancarie

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Information

This entry was posted on February 27, 2010 by in Culture, notizie, Tecnologia and tagged , , , , , , .
%d bloggers like this: