데이터 시각화의 왜곡, 그래프가 거짓말하는 방식

같은 데이터로 정반대의 이야기를 할 수 있다. 그래프 한 장이 전달하는 메시지는 데이터 자체보다 그 데이터를 시각화하는 방식에 더 큰 영향을 받는다. 축의 범위, 색의 선택, 비교 대상의 구성, 모두 결론의 방향을 바꿀 수 있는 변수다. 데이터 시각화의 진짜 어려움은 데이터를 잘 보여주는 것보다 데이터를 왜곡하지 않고 보여주는 데 있다. 흔적은 거짓말을 하지 않지만, 그 흔적을 그리는 사람은 거짓말을 할 수 있다.

축의 잘림이 만드는 착시

가장 흔하고 가장 효과적인 왜곡 방법이 y축의 시작점을 0이 아닌 값에서 출발시키는 것이다. 100에서 102까지 변한 값을 y축 0부터 그리면 거의 평평한 선이 되지만, y축을 99에서 103 사이로 잡으면 극적인 상승으로 보인다. 같은 데이터다. 변동의 절대값은 동일하지만 시각적 인상은 완전히 다르다. 이 기법은 광고와 보고서에서 광범위하게 쓰이며, 보는 사람의 결론을 무의식적으로 좌우한다.

y축 잘림이 항상 잘못된 것은 아니다. 작은 변동이 의미 있는 영역에서는 잘린 축이 오히려 정보를 더 잘 전달한다. 체온의 변화를 0도부터 그리면 36.5도와 38.5도의 차이가 보이지 않는다. 문제는 잘린 축이 정직하게 표시되지 않을 때다. 축의 시작점이 0이 아니라는 것을 명시하지 않으면, 같은 그래프가 다른 데이터처럼 보일 수 있다.

이중 축의 함정

두 개의 다른 단위를 가진 변수를 하나의 그래프에 그릴 때 자주 쓰는 방식이 좌우 두 개의 y축을 만드는 것이다. 좌측 축에 한 변수, 우측 축에 다른 변수를 놓고 두 선을 겹쳐 그리면 두 변수 사이의 관계가 한눈에 보이는 것처럼 느껴진다. 그러나 두 축의 척도를 어떻게 정하느냐에 따라 두 선의 상관관계는 자유자재로 조작된다.

두 변수가 사실은 무관할 때도, 두 축의 범위를 적절히 맞춰주면 거의 일치하는 두 곡선처럼 보이게 만들 수 있다. 반대로 강하게 상관된 두 변수도 축을 일부러 어긋나게 잡으면 무관한 것처럼 보인다. 이중 축 그래프는 한 그래프 안에 두 개의 다른 척도가 들어가 있기 때문에, 보는 사람이 그 척도를 어떻게 정했는지를 의식적으로 확인하지 않으면 잘못된 인상을 받기 쉽다. 통계학자 가운데 이중 축 그래프 자체를 추천하지 않는 사람도 적지 않다.

막대그래프와 비율의 왜곡

막대그래프는 데이터를 가장 직관적으로 보여주는 도구지만 동시에 가장 자주 왜곡되는 형식이기도 하다. 막대의 너비와 길이가 모두 데이터를 표현할 때, 사람은 막대의 면적으로 양을 판단하는 경향이 있다. 그래서 너비가 두 배로 늘어나면서 길이도 두 배로 늘어나면, 실제로는 두 배 차이인 값이 네 배 차이로 인식된다. 3차원 막대그래프는 이 문제를 더 키운다.

막대그래프의 또 다른 흔한 왜곡은 비교 기준의 조작이다. 어떤 값을 무엇과 비교할 것인지를 정하는 행위 자체가 결론의 방향을 정한다. 같은 매출 데이터를 작년과 비교하면 줄어든 것처럼 보이고, 재작년과 비교하면 늘어난 것처럼 보일 수 있다. 비교 기준을 명시적으로 정당화하지 않은 막대그래프는 자주 결론을 미리 정해놓고 그에 맞는 비교 대상을 선택한 결과다.

색의 정치학

색은 정보를 보조하는 역할로 보이지만 실제로는 결론을 강하게 유도하는 요소다. 빨간색은 위험이나 부정적 의미를 자동으로 연상시키고, 초록색은 안전이나 긍정을 의미한다. 같은 데이터를 빨간색과 초록색 가운데 어느 것으로 칠하느냐에 따라 보는 사람의 정서적 반응이 달라진다.

색의 선택이 의도적으로 정치적인 영역도 있다. 정치 지도에서 어느 정당을 어떤 색으로 표시하느냐는 단순한 관례가 아니라 시각적 메시지의 일부다. 자주 사용되는 빨강·파랑의 배치도 국가와 시대마다 다르다. 색맹인 사람을 고려하지 않은 시각화는 인구의 상당 부분에게 정보를 전달하지 못하는 결과를 낳기도 한다. 좋은 시각화는 색의 선택을 명시적으로 정당화하고, 색 외에 다른 정보 전달 채널을 함께 활용한다.

지도 시각화의 함정

지리 데이터의 시각화는 또 다른 종류의 왜곡 위험을 가진다. 면적이 큰 지역과 작은 지역이 같은 색으로 칠해지면, 실제 인구나 규모와 무관하게 면적이 큰 지역이 시각적으로 더 강한 인상을 준다. 미국의 주별 선거 지도가 자주 보여주는 착시가 이런 종류다. 인구가 적은 큰 주가 인구가 많은 작은 주보다 지도에서 더 두드러지게 보이지만, 실제 영향력은 정반대다.

이 문제를 다루기 위해 카토그램이라는 시각화 기법이 발전했다. 면적을 실제 지리적 크기 대신 인구나 다른 변수에 비례해서 왜곡시키는 방식이다. 결과적으로 지도가 이상해 보이지만 정보의 정확성은 올라간다. 어떤 시각화가 더 정직한지는 단순히 직관적으로 자연스러운지가 아니라 전달하려는 정보를 왜곡 없이 보여주는지로 평가해야 한다. 데이터 시각화의 학술적 정리는 브리태니커 백과사전의 통계학 항목과 미국수학회의 출판물에서 다양한 형식으로 다뤄지고 있다.

표본 추출의 시각적 함정

시각화 자체는 정직해도 시각화에 들어간 데이터가 편향된 표본일 수 있다. 비행 중 추락하지 않은 비행기의 손상 위치를 분석해서 보강 부위를 결정한다는 유명한 이야기는 표본 편향을 시각적으로 인식하기 어렵다는 점을 잘 보여준다. 추락한 비행기의 데이터는 수집되지 않았기 때문에, 남은 데이터만 보면 정확히 반대의 결론에 도달하게 된다.

이런 종류의 편향은 시각화 단계에서 잡아내기가 거의 불가능하다. 데이터가 어떻게 수집되었는지, 무엇이 누락되었는지를 알아야만 보이는 함정이다. 그래서 좋은 시각화는 데이터의 출처와 수집 방식에 대한 정보를 함께 제공한다. 데이터의 정직함은 그래프의 디자인 이전에 데이터 수집의 정직함에서 시작된다. 시계열 데이터에서 패턴을 추출하는 방법에 대한 이전 분석에서 다룬 것처럼, 어떤 데이터가 수집되었고 어떤 데이터가 누락되었는지를 의식하는 것이 시각화를 읽는 첫걸음이다.

좋은 시각화의 원칙

왜곡을 피하는 시각화는 몇 가지 원칙을 공유한다. 첫째, 축의 범위와 단위를 명시적으로 표시한다. 둘째, 비교 기준을 정당화한다. 어떤 값과 비교하고 있는지, 왜 그 비교가 의미 있는지를 분명히 밝힌다. 셋째, 잉크 대 데이터 비율을 최적화한다. 데이터를 전달하지 않는 모든 시각적 요소(과도한 장식, 3차원 효과, 불필요한 배경)를 제거한다. 에드워드 터프티가 정리한 이 원칙은 좋은 시각화의 기준으로 널리 받아들여진다.

넷째, 한 그래프에 너무 많은 정보를 담지 않는다. 작은 그래프 여러 개로 분리하는 것이 큰 그래프 하나에 모든 것을 담는 것보다 자주 더 명확하다. 다섯째, 시각화의 한계를 분명히 인정한다. 어떤 그래프도 데이터의 모든 측면을 보여주지 못하며, 어떤 시각화는 다른 측면을 가린다. 좋은 분석가는 자신의 시각화가 무엇을 보여주는지뿐 아니라 무엇을 보여주지 않는지도 의식한다.

여섯째, 시각화의 목적과 청중을 의식한다. 전문가용 시각화와 일반 독자용 시각화는 같은 데이터를 다루더라도 다른 방식으로 그려야 한다. 전문가에게는 정보의 밀도가 중요하지만 일반 독자에게는 메시지의 명확함이 더 중요하다. 같은 데이터를 다른 청중에게 보여줄 때 다른 그래프를 만드는 것이 자연스럽고, 한 그래프가 모든 청중을 만족시키려고 하면 결국 아무도 잘 이해하지 못하는 그래프가 되기 쉽다.

시각화가 사고를 형성하는 방식

좋은 시각화는 단순히 데이터를 보여주는 것을 넘어 새로운 통찰을 만들어낸다. 표로만 봤을 때는 보이지 않던 패턴이 그래프로 그려졌을 때 갑자기 드러나는 경험은 데이터 분석가에게 익숙하다. 시각화는 인간의 인지 시스템이 가장 잘 처리하는 형식으로 데이터를 변환하는 작업이며, 그 변환이 잘 이뤄지면 데이터에 숨어 있던 구조가 표면으로 떠오른다.

그러나 같은 이유로 시각화는 데이터에 없는 패턴을 만들어내기도 한다. 점을 선으로 연결하면 연속적인 추세가 있는 것처럼 보이고, 평균을 막대로 그리면 차이가 실제보다 명확해 보인다. 시각화가 사고를 돕는 동시에 사고를 좁히는 양면성은 항상 의식해야 할 점이다. 좋은 분석가는 같은 데이터를 여러 가지 방식으로 시각화해보면서 어떤 그래프가 진짜 패턴을 보여주고 어떤 그래프가 시각적 환영을 만드는지를 검증한다.

시각화는 데이터를 전달하는 도구지만, 도구가 메시지를 만든다는 사실을 잊는 순간 시각화는 진실을 보조하는 게 아니라 진실을 가공하는 장치로 변한다.