분산과 표준편차, 산포를 읽는 통계의 알파벳

평균만으로는 어떤 것도 정확히 말할 수 없다. 데이터의 진짜 모습은 평균 주변에 분포가 어떻게 펼쳐져 있는가에서 드러난다. 분산과 표준편차는 그 펼쳐짐을 정량화하는 가장 기본적인 도구이며, 통계와 확률을 다루는 모든 영역에서 평균 다음으로 자주 등장하는 개념이다. 그러나 이 단순해 보이는 두 양이 실제 분석에서 얼마나 자주 잘못 해석되는지를 보면, 직관과 통계 사이의 간극이 얼마나 큰지 새삼 느끼게 된다.

분산과 표준편차의 정의

분산은 데이터의 각 값과 평균의 차이를 제곱한 것의 평균이다. 수식으로는 Var(X) = E[(X – μ)²]로 표현된다. 표준편차는 분산의 양의 제곱근이고, 분산과 같은 정보를 담지만 단위가 원래 데이터와 같아서 해석이 직관적이다. 키 데이터의 분산은 제곱센티미터 단위지만 표준편차는 센티미터 단위이고, 우리는 후자가 평균에서 얼마나 떨어진 산포를 가지는지 곧바로 감을 잡을 수 있다.

제곱을 사용하는 이유는 두 가지다. 첫째, 부호의 문제를 제거한다. 평균에서의 편차는 양수일 수도 음수일 수도 있고, 그대로 평균을 내면 0이 된다. 제곱을 하면 모든 항이 양수가 되어 정보를 보존한다. 둘째, 큰 편차에 더 큰 가중치를 준다. 제곱 함수는 큰 값을 더 크게 만들기 때문에, 분산은 극단치에 민감하게 반응한다. 이 민감성이 분산의 장점이자 단점이다.

왜 절댓값이 아니라 제곱인가

편차의 부호 문제를 해결하는 방법이 제곱 말고도 있다. 절댓값을 쓰면 된다. 평균 절대 편차(MAD, Mean Absolute Deviation)는 분산과 같은 목적의 측도이고 어떤 면에서는 직관적으로 더 자연스럽다. 그런데도 통계학이 분산과 표준편차를 주류로 채택한 이유는 수학적 편의성에 있다.

제곱은 미분 가능한 매끄러운 함수다. 절댓값은 0에서 미분 불가능한 꺾인 점을 가진다. 최적화 문제를 풀 때 매끄러운 함수가 압도적으로 다루기 쉽고, 이 때문에 회귀 분석, 최우추정, 최소제곱법 같은 거의 모든 표준 통계 기법이 제곱 오차를 기반으로 발전했다. 또한 분산은 독립인 확률변수에 대해 가법성을 가진다. 두 독립 변수의 합의 분산은 각 분산의 합이지만, MAD에는 이런 성질이 없다. 이 가법성이 분산을 다루기 쉬운 양으로 만든다.

표준편차의 직관적 해석

정규분포에서 표준편차의 의미는 매우 명확하다. 평균에서 1 표준편차 안에 데이터의 약 68퍼센트가, 2 표준편차 안에 약 95퍼센트가, 3 표준편차 안에 약 99.7퍼센트가 들어간다. 이 68-95-99.7 규칙은 정규분포라는 가정 위에서만 정확히 성립하지만, 많은 자연 현상과 측정 데이터가 근사적으로 정규분포를 따르기 때문에 실용적으로 매우 유용하다.

그러나 데이터가 정규분포에서 멀리 떨어져 있을 때 이 직관은 완전히 무너진다. 두꺼운 꼬리(fat tail)를 가진 분포에서는 3 표준편차를 넘는 사건이 1000번에 3번이 아니라 100번에 3번 일어날 수도 있다. 지진의 규모 분포, 도시의 인구 분포, 인터넷 트래픽의 패킷 크기 분포가 대표적인 예다. 정규분포 가정으로는 한 세기에 한 번 일어날 사건이 실제로는 10년에 한 번씩 일어난다. 표준편차의 크기로 위험을 측정하는 모델이 실제 극단 사건 앞에서 자주 실패하는 이유다.

두꺼운 꼬리의 의미

꼬리가 두껍다는 것은 단순히 극단치가 많다는 것을 넘어, 분포의 특성이 정규분포와 본질적으로 다르다는 것을 의미한다. 정규분포에서는 표준편차가 분포의 거의 모든 정보를 담지만, 두꺼운 꼬리 분포에서는 표준편차 자체가 잘 정의되지 않거나 무한대가 될 수 있다. 코시 분포 같은 극단적 예에서는 표준편차가 수학적으로 정의되지 않는다.

이런 분포는 평균과 분산이라는 두 수치로 환원되기를 거부한다. 분포의 진짜 모습을 보려면 전체 분포의 형태, 특히 꼬리 부분의 행동을 직접 봐야 한다. 자연계와 사회 현상에서 정규분포가 잘 맞는 영역과 두꺼운 꼬리가 지배하는 영역을 구별하는 것이, 통계 모델을 잘 쓰는 첫 번째 기준이다. 잘못된 분포 가정 위에서 만들어진 모델은 평상시에는 잘 작동하지만 극단 상황에서 무너지고, 그 극단 상황이 가장 중요한 순간이라는 점이 분석을 어렵게 만든다.

표본 분산과 모분산

실무에서 분산을 계산할 때 자주 혼동되는 점이 표본 분산과 모분산의 구분이다. 모분산은 모집단 전체의 분산이고 분모로 N을 쓴다. 표본 분산은 모분산을 추정하기 위한 통계량이고 분모로 N-1을 쓴다. 이 차이를 베셀의 보정(Bessel’s correction)이라고 부른다.

왜 N이 아니라 N-1인가. 표본 평균은 표본 데이터로부터 추정한 값이고, 이 추정값은 모평균보다 표본 데이터에 더 가까운 쪽으로 약간 치우쳐 있다. 그래서 표본의 각 값에서 표본 평균을 뺀 편차의 제곱합은 모평균을 사용했을 때보다 체계적으로 작게 나온다. 이 편향을 보정하기 위해 자유도를 N에서 N-1로 줄이는 것이다. 표본 크기가 클 때는 N과 N-1의 차이가 무시할 수 있지만, 작은 표본에서는 무시하면 분산을 일관되게 과소평가하게 된다.

분산의 한계와 보완

분산이 만능 도구는 아니다. 가장 큰 한계는 극단치에 대한 과민함이다. 평균에서 10 표준편차 떨어진 값 하나가 100개의 평범한 값보다 분산에 더 큰 영향을 준다. 이상치(outlier)가 있는 데이터에서 분산을 그대로 쓰면 분포의 진짜 모습이 가려진다. 이 문제 때문에 통계학에서는 사분위수 범위(IQR), 중앙값 절대 편차(MAD) 같은 대안적 산포 측도가 발전했다.

분산은 또한 분포의 비대칭성을 잡지 못한다. 평균과 표준편차가 같은 두 분포라도 한쪽으로 치우친 정도가 완전히 다를 수 있다. 왜도(skewness)와 첨도(kurtosis)는 이 부분을 보완하는 고차 적률들이다. 확증편향과 손실회피에 대한 이전 분석에서 살펴본 것처럼, 사람들이 변동을 인식할 때 평균이나 분산이 아니라 분포의 비대칭 부분, 특히 음의 방향 꼬리에 더 큰 반응을 보인다. 평균과 분산만으로는 부족하고 고차 적률을 함께 봐야 분포의 실제 모습이 드러난다는 점이 자주 강조된다.

분산을 다루는 자세

실용적 분석에서 분산을 다룰 때 기억해야 할 점은 명확하다. 첫째, 분산만 보지 말고 분포 전체의 모습을 본다. 히스토그램, QQ 플롯, 사분위수 같은 도구가 분산이 놓치는 정보를 잡아준다. 둘째, 분산의 안정성을 확인한다. 시간에 따라 분산이 크게 변하는 데이터에서 단일 분산값으로 산포를 측정하는 것은 위험하다. 변동성 클러스터링에 대한 이전 분석에서 다룬 것처럼, 분산은 시간에 따라 군집을 이루며 변하는 경우가 많고, 이 동적 측면을 무시하면 분석이 평균의 함정에 빠진다.

셋째, 분산의 단위와 시간 척도를 명확히 한다. 일별 변동과 월별 변동, 시간별 변동을 혼동하면 분석이 한 자릿수 단위로 어긋난다. 같은 데이터라도 측정 주기에 따라 분산은 크게 달라지고, 어떤 주기가 적절한지는 분석의 목적에 따라 다르다. 통계 분석과 변동성 측정에 대한 학술 자료는 브리태니커 백과사전의 통계학 항목과 미국수학회의 출판물에서 다양하게 다뤄지고 있다.

넷째, 분산을 다른 통계량과 함께 본다. 평균, 중앙값, 분산, 왜도, 첨도, 최댓값, 최솟값 같은 여러 통계량을 함께 봐야 분포의 모습이 입체적으로 드러난다. 한 가지 통계량에 의존하는 분석은 그 통계량이 놓치는 차원을 보지 못한다. 다섯째, 분산을 시각적으로 확인한다. 박스 플롯, 바이올린 플롯, 히스토그램은 분산이라는 단일 숫자가 전달하지 못하는 분포의 모양을 보여준다. 숫자와 그림을 함께 사용하는 분석이 가장 신뢰할 수 있는 분석이다.

분산이 곧 위험은 아니다

일반적으로 분산이 크면 불확실성이 크고, 작으면 예측 가능하다고 받아들인다. 그러나 이 직관은 한쪽 방향의 변동에는 적용되지 않는다. 분산은 평균에서의 양방향 편차를 모두 포함하기 때문에, 좋은 방향의 변동도 나쁜 방향의 변동과 똑같이 분산을 키운다. 큰 폭으로 좋아지는 변동과 큰 폭으로 나빠지는 변동이 같은 분산을 만들어내고, 분석가에게는 둘 다 같은 강도의 불확실성으로 보인다.

이 한계 때문에 하방 편차(downside deviation)나 상방 편차 같은 일방향 측도가 발전했다. 평균보다 낮은 값들만을 대상으로 표준편차를 계산하면 음의 방향 변동만의 크기가 나온다. 어떤 분석에서 진짜 중요한 것은 한쪽 방향의 편차이고, 그때는 분산보다 일방향 측도가 더 적절한 도구가 된다. 분산이라는 단일 도구를 모든 상황에 적용하는 것이 아니라, 어떤 종류의 산포를 측정하고 싶은지를 의식적으로 선택하는 것이 좋은 분석의 출발이다.

분산과 표준편차는 통계의 알파벳 같은 도구다. 단순하기 때문에 어디서나 쓰이지만, 그 단순함이 오해의 출발점이 되기도 한다. 평균만으로는 부족하다는 인식에서 시작해 분산까지 보는 것이 1단계라면, 분산만으로도 부족하다는 인식에서 분포 전체를 보려는 다음 단계가 분석가의 성숙도를 가른다. 도구가 단순할수록 그 한계를 명확히 아는 것이 더 중요해진다. 대중의 흐름과 반대로 사고하는 관점에 대한 이전 글에서 다룬 것처럼, 모두가 평균만 보고 있을 때 분포 전체를 보려는 시도가 진짜 통찰을 만들어내는 자리다.