Eu queria levantar uma dúvida filosófica aqui: Se o que importa para a medida de dispersão é que o somatório (ou integral no caso contínuo) seja sobre uma função do desvio (amostra menos média) que torne tudo positivo, por que usar a função quadrática? Me parece que existe uma opção muito mais natural que é usar a função exponencial exp(x), daí teríamos var_e(X) = E[exp(X-E[X])] onde E é o operador de Expectativa, dessa forma o desvio padrão seria o logarítimo natural de var_e(X) que também estaria na mesma unidade. Me parece que teriam até mais propriedades interessantes se fosse dessa forma, por exemplo, se X e Y são variáveis aleatórias independentemente distribuídas std_e(X+Y) = std_e(X) + std_e(Y) (se eu não errei minhas contas), ou seja, o desvio padrão assim como a média seria um operador linear.
std_e(X+Y)
= ln E[exp(X+Y - E[X+Y])]
= ln E[exp(X-E[X]+Y- E[Y])] (porque E é linear)
= ln E[exp(X-E[X]) exp(Y- E[Y])]
= ln E[exp(X-E[X]) + ln E [exp(Y- E[Y])] (porque exp é uma função separável)
= std_e(X) + std_e(Y)