Identificare i formati di dati
I dati sono una raccolta di fatti, ad esempio numeri, descrizioni e osservazioni, usati per registrare le informazioni. Le strutture di dati in cui questi dati sono organizzati spesso rappresentano entità importanti per un’organizzazione, ad esempio clienti, prodotti, ordini di vendita e così via. Ogni entità ha in genere uno o più attributi o caratteristiche, ad esempio un cliente potrebbe avere un nome, un indirizzo, un numero di telefono e così via.
È possibile classificare i dati come strutturati, semistrutturati o non strutturati.
Dati strutturati
I dati strutturati sono dati che rispettano uno schema fisso e quindi hanno tutti gli stessi campi o le stesse proprietà. In genere, lo schema per le entità di dati strutturate è tabulare. In altre parole, i dati vengono rappresentati in una o più tabelle costituite da righe che rappresentano ogni istanza di un'entità dati e colonne che rappresentano gli attributi dell'entità. Ad esempio, l'immagine seguente mostra rappresentazioni di dati tabulari per le entità Customer e Product.
I dati strutturati vengono spesso archiviati in un database in cui più tabelle possono farvi riferimento usando i valori chiave in un modello relazionale. Questo aspetto verrà trattato in modo approfondito più avanti.
Dati semistrutturati
I dati semistrutturati sono informazioni con una struttura che consente una variazione tra istanze di entità. Ad esempio, mentre la maggior parte dei clienti può avere un indirizzo di posta elettronica, alcuni possono avere più indirizzi di posta elettronica e altri potrebbero non averne affatto.
Un formato comune per i dati semistrutturati è quello JavaScript Object Notation (JSON). Nell'esempio seguente viene illustrata una coppia di documenti JSON che rappresentano le informazioni sul cliente. Ogni documento del cliente include informazioni su contatti e indirizzi, ma i campi specifici variano tra i clienti.
// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
}
// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
Nota
JSON è solo uno dei molti modi in cui è possibile rappresentare i dati semistrutturati. Il punto qui non consiste nell'esaminare in dettaglio la sintassi JSON, ma piuttosto per illustrare la natura flessibile delle rappresentazioni di dati semistrutturate.
Dati non strutturati
Non tutti i dati sono strutturati o semistrutturati. Documenti, immagini, dati audio e video e file binari, ad esempio, possono non avere una struttura specifica. Questo tipo di dati viene definito dati non strutturati.
Archivi dati
Le organizzazioni in genere archiviano i dati in formato strutturato, semistrutturato o non strutturato per registrare i dettagli delle entità (ad esempio, clienti e prodotti), eventi specifici (ad esempio transazioni di vendita) o altre informazioni in documenti, immagini e altri formati. I dati archiviati possono quindi essere recuperati per l'analisi e la creazione di report in un secondo momento.
Esistono due ampie categorie di archivio dati usati in genere:
- Archivi file
- Database
Entrambi questi tipi di archivio dati verranno esaminati negli argomenti successivi.