Formalizzazione dei concetti statistici di base: Unita’,Caratteri, Classificazione, Matrice dei dati, Dimensioni, Funzioni di aggregazione, Misure, Spazio delle variabili, Cubo multidimensionale. Ma anche NOZIONE DI ACCESSIBILITÀ (IN SENSO TECNICO, NELLA TERMINOLOGIA DEL WEB).

In questo Post ho cercato di illustrare una serie di concetti(come un vero glossario), per rendere la terminologia statistica chiaramente comprensibile.

Un database e’ una raccolta di dati permanenti, gestita ed elaborata da:

Metadati o schema che ci informano, su quali regole valgono i dati, quali valori possono essere validi (vincoli di integrita’) e come i dati sono strutturati e collegati tra loro. Lo schema può cambiare nel tempo, non ha alcun vincolo con i programmi che accedono al database e deve essere definito prima dei dati.

I Dati: sono una rappresentazione(astrazione)dei fatti, ma può anche includere previsioni, supposizioni ed ipotesi conformi ai Metadati (o schema).

Tutti i dati, sono organizzati in insiemi omogenei(stessa struttura)e sono collegabili con altri insiemi.

Le variabili generalmente,per essere integrate, necessitano di un’omogeneità semantica; ciò è possibile attraverso l’uso di metodi di codifica uniformi, utilizzo delle stesse unità di misura, ecc…

Classificazione correlazione tra attributi appartenenti alla stessa dimensione,

dipendente dall’organizzazione e dalle specifiche esigenze applicative (ad

esempio, la gerarchia Tempo è formata dai livelli Anno, Trimestr e Mese.

Un cubo multidimensionale, permette l’intersezione tra i suoi

membri(celle) da cui è possibile ottenere, attraverso estrazione, i dati.

Lo svolgimento di un’interrogazione, può essere un’operazione abbastanza

complessa difatti un cubo può, ad esempio, includere più di tre dimensioni o semplicemente una. I concetti di dimensione, livello, membro e misura sono importanti per comprendere la sintassi.

Le dimensioni sono gli attributi strutturali dei cubi, o meglio, gerarchie organizzate di livelli che descrivono i dati nella tabella dei fatti. Tutte le dimensioni si basano direttamente o indirettamente su tabelle e quando si crea una dimensione da una tabella è necessario, selezionare le colonne che la definiscono. Le dimensioni sono gerarchiche e nella maggior parte dei casi i membri sono disposti in una configurazione a piramide.

Un livello è un elemento della gerarchia divisa per dimensioni. I livelli descrivono la gerarchia dei dati, dal livello superiore al livello inferiore .

I livelli esistono solo all’interno delle dimensioni e ogni livello si basa su una colonna della relativa tabella dimensionale.

I livelli vengono definiti all’interno di una dimensione per specificare il contenuto e la struttura gerarchica. In altre parole, le definizioni dei livelli determinano i membri inclusi nella gerarchia e le posizioni relative dei membri (l’uno rispetto all’altro)all’interno della gerarchia.

Una misura è un set di valori basati su una colonna della tabella dei fatti del cubo e in genere è di tipo numerico.

Le misure inoltre, sono i valori di un cubo su cui si incentra l’analisi,

ovvero rappresentano i dati numerici di principale interesse per gli utenti finali che esaminanoun cubo. Le misure selezionate dipendono dai tipi d’informazioni richieste dagli utenti finali.

Alcuni esempi di misure comuni sono le vendite, i costi, le spese e i volumi di produzione.

Una misura può essere ricavata da più colonne combinate in un’espressione; ad esempio la misura profitto risulta dalla sottrazione di due colonne numeriche: vendite e costi.

I membri calcolati possono essere utilizzati come misure, e i valori dei membri vengono,a sua volta, determinati tramite l’utilizzo di formule. All’interno dello stesso cubo, possono essere create ulteriori dimensioni, per poter incrociare dati, appartenenti alle dimensioni precedenti.Le dimensioni aggiunte possono essere: Anno, Trimestre, Mese, Giorno, Ora…etc.

Un’aggregazione è un insieme di valori (celle) in memoria, qualificate da un

insieme di colonne con il valore delle dimensioni.

Per riconoscere le tabelle delle aggregazioni, bisogna ‘‘mappare’’ le

chiavi esterne e le misure (ad es. nelle fact table), nelle corrispondenti colonne della tabella delle aggregazioni.

E ancora…

  • Unità : è l’oggetto osservato, “artefice” del fenomeno collettivo ed è chiamato, appunto, unità statistica.
  • Matrice dati: rappresenta un insieme rettangolare di numeri/caratteri, dove in riga notiamo le unità statistiche ed in colonna le variabili. Le celle create dall’incontro tra colonna e riga racchiudono un dato, o meglio, il valore registrato per uno specifico caso.
  • Cubo: serie di dati ordinati e in una struttura multidimensionale determinata da un set di dimensioni.
  • Dimensione: peculiarità strutturale di un cubo, ossia una scala gerarchica delle diverse categorie che rappresentano i dati della tabella.
  • Funzione di aggregazione: Questa funzione segue un calcolo su una colonna in un set di righe creando un unico valore.
  • Le misure : sono i valori su cui si basa l’aggregazione e l’analisi dei dati.
  • Classificazione:. Tutte le attività di classificazione hanno il fine di organizzare le entità del dominio in esame, la collocazione delle entità nei diversi contenitori si basa sulla individuazione di differenze di rilievo tra le entità stesse, cioè su processi di distinzione.

  • Aggregate functions: Forniscono indicazioni statistiche relative ad un set di records. Possono essere utilizzate per contare un numero di records in un recordset, o quantificare il valore medio dei valori di un campo.

Per accessibilità intendiamo la capacità di un dispositivo, di un servizio o di una risorsa, d’essere sfruttabile con facilità da tutti gli utenti. Il termine è comunemente usato, per quanto concerne l’applicazione in termini di web, alla possibilità di poter usufruire di un collegamento alla rete.

Normalizzazione: attività mirata all’ ottimizzazione e l’eliminazione della ridondanza nei dati.

Lascia un commento