stats
Il comando stats
restituisce delle statistiche di base, per ogni campo:
type
, il tipo di campo (è un valore dedotto, non letto, quindi ci potrebbe essere qualche errore);sum
, la somma;min
, il minimo (se numerico);max
, il massimo (se numerico);min_length
, la lunghezza minima;max_length
, la lunghezza massima;mean
, la media;stddev
, la deviazione standard;median
, la mediana;mode
, la moda;cardinality
, la cardinalità, ovvero quanti valori distinti.
Ad esempio applicato a questo file
restituisce
field | type | sum | min | max | min_length | max_length | mean | stddev | median | mode | cardinality |
---|---|---|---|---|---|---|---|---|---|---|---|
color | Unicode | blue | yellow | 3 | 6 | red | 6 | ||||
shape | Unicode | circle | triangle | 6 | 8 | square | 3 | ||||
flag | Integer | 4020 | 0 | 1 | 1 | 1 | 0.3988886683865837 | 0.48966978528326777 | 0 | 0 | 2 |
i | Integer | 2526603201 | 56 | 499974 | 2 | 6 | 250704.82248462 | 144927.94969629444 | 251091 | N/A | 10056 |
u | Float | 5022.132880999998 | 0.000044 | 0.999969 | 8 | 8 | 0.49832634262750636 | 0.29031110004586974 | 0.497603 | 0.969583 | 10027 |
v | Float | 5016.69704200001 | -0.092709 | 1.0725 | 8 | 9 | 0.4977869658662455 | 0.28882812412153674 | 0.49699249999999995 | N/A | 10026 |
w | Float | 5034.4910549999895 | 0.042795 | 0.901171 | 8 | 8 | 0.49955259525699414 | 0.033577377526502444 | 0.499945 | 0.542539 | 9434 |
x | Float | 50464.12851900001 | 1.113294 | 8.921095 | 8 | 8 | 5.007355479162526 | 1.1660887238185873 | 4.997097 | 6.466293 | 10071 |
Nota
Se avesse pure il conteggio dei valori nulli, sarebbe perfetto.