의미 있는 신호는 거의 언제나 잡음 속에 묻혀 있다. 데이터에서 진짜 패턴을 가려내는 일이 어려운 이유는 단순히 데이터가 많기 때문이 아니라, 의미 없는 변동이 의미 있는 변화처럼 보이기 때문이다. 신호 대 잡음비(signal-to-noise ratio, SNR)는 통신 공학에서 시작된 개념이지만 지금은 거의 모든 데이터 분석 영역에서 핵심 도구로 자리 잡았다. 작은 신호를 큰 잡음 속에서 어떻게 가려낼 것인가에 대한 답은 한 세기 가까이 축적된 학문적 전통 위에 서 있다.
신호와 잡음의 구분
가장 먼저 정리해야 할 것은 신호와 잡음이 본질적으로 같은 것에 대한 다른 해석이라는 점이다. 같은 데이터 안의 어떤 변동이 분석자에게는 신호이고 다른 분석자에게는 잡음일 수 있다. 어떤 질문을 던지느냐가 무엇을 신호로 볼지를 결정한다. 환경 소음을 분석하는 사람에게는 사람의 목소리가 잡음이지만, 음성 인식 시스템에게는 목소리가 신호다.
이 관계는 분석의 출발점이 데이터가 아니라 질문이라는 점을 보여준다. 무엇을 알고 싶은지가 명확하지 않으면 어떤 변동이 신호인지 정의할 수 없고, 잡음을 제거할 기준도 세울 수 없다. 데이터 분석에서 자주 일어나는 실패의 절반 이상은 질문이 충분히 명확하지 않은 상태에서 분석에 들어가는 데서 비롯된다.
잡음의 종류
잡음은 단일한 종류가 아니다. 가장 흔한 것은 백색 잡음(white noise)인데, 모든 주파수에 걸쳐 균등하게 분포한 무작위 변동을 말한다. 측정 장비의 열잡음, 통계적 표본 추출 오차, 인간의 손 떨림 같은 것들이 모두 백색 잡음으로 근사된다. 백색 잡음의 좋은 점은 평균을 내면 사라진다는 것이다. 같은 신호를 여러 번 측정해서 평균을 내면 잡음은 점점 작아지고 신호만 남는다.
다른 종류의 잡음들은 다루기가 더 까다롭다. 분홍 잡음(pink noise)은 저주파에 더 많은 에너지가 몰려 있고, 자기상관을 가진 잡음은 시간적으로 인접한 값들이 비슷하게 움직인다. 이런 종류의 잡음은 단순히 평균을 낸다고 사라지지 않는다. 잡음의 구조 자체를 모델링해서 제거해야 한다. 어떤 분석에서 가장 위험한 잡음은 분석자가 백색 잡음으로 가정하지만 사실은 그렇지 않은 잡음이다.

표본 크기와 신호 검출
표본 크기를 늘리면 신호 대 잡음비는 통계적으로 향상된다. 평균을 N개의 측정으로 추정할 때 잡음의 표준오차는 N의 제곱근에 반비례해서 줄어든다. 즉 표본을 100배 늘리면 잡음은 10분의 1로 줄어든다. 이 제곱근 법칙은 통계 분석의 가장 기본적인 트레이드오프를 보여준다. 신호를 두 배 더 잘 가려내려면 표본을 네 배로 늘려야 한다.
이 비대칭성은 실무에서 자주 간과된다. 작은 표본에서 우연히 큰 차이를 발견했을 때, 그 차이가 진짜 신호일 가능성보다 잡음의 변동일 가능성이 훨씬 크다. 그러나 사람의 직관은 차이의 크기에 끌리지 표본 크기에 끌리지 않는다. 큰 차이가 작은 표본에서 발견되었을 때 더 의심해야 한다는 통계학의 기본 원리는, 실제 의사결정에서 가장 자주 무시되는 원칙 가운데 하나다.
다중 비교의 함정
같은 데이터에서 여러 가지 가설을 동시에 검정하면 잡음이 신호처럼 보일 확률이 급격히 올라간다. 5퍼센트 유의수준에서 100개의 독립적 검정을 하면 평균 5개는 우연히 유의한 결과로 나온다. 의미 있는 효과가 전혀 없어도 그렇다. 다중 비교의 함정은 학술 연구에서 잘 알려진 문제지만, 실무 데이터 분석에서는 아직도 흔하게 무시된다.
본페로니 보정이나 위양성 발견율 통제 같은 통계적 보정 기법이 이 함정을 다루기 위해 발전했다. 그러나 가장 근본적인 해결책은 가설을 사후가 아니라 사전에 정하는 것이다. 데이터를 보고 나서 어떤 가설을 검정할지 정하면 어떤 보정으로도 신뢰성을 회복하기 어렵다. 데이터 탐색과 가설 검정을 명확히 분리하는 분석 설계가 좋은 연구의 기본이다.
필터링과 평활화
잡음을 줄이는 가장 흔한 기법이 필터링이다. 이동평균, 저주파 통과 필터, 칼만 필터, 모두 잡음의 특정 구조에 맞춰 신호를 추출하는 도구다. 좋은 필터는 잡음을 줄이는 만큼 신호를 보존하고, 나쁜 필터는 잡음과 함께 신호도 깎아낸다. 필터의 강도를 정하는 것은 잡음과 신호의 구별이 항상 완벽하지 않다는 사실의 결과다.
지나친 필터링은 자주 새로운 종류의 오해를 만든다. 너무 매끄러워진 데이터는 실제로는 없는 추세를 보여주거나, 진짜 변곡점을 가려버린다. 평활화는 데이터의 노이즈를 줄이지만 동시에 정보를 잃는다. 어떤 정도의 평활화가 적절한지는 분석의 목적과 데이터의 성격에 따라 다르며, 절대적인 기준은 없다.
맥락이 신호를 정의한다
신호 대 잡음비의 가장 깊은 함의는 신호의 정의가 절대적이지 않다는 것이다. 같은 데이터라도 다른 맥락에서는 다른 신호가 보인다. 이 사실은 데이터 분석을 단순한 기술 작업이 아니라 해석 작업으로 만든다. 통계적 도구는 객관적으로 보이지만, 그 도구를 어디에 적용할지, 무엇을 신호로 정의할지는 분석자의 판단이다.
이 판단을 좋게 만드는 것은 분석 도구의 숙련도뿐 아니라 분석 대상에 대한 깊은 이해다. 데이터만 보고 그 데이터가 무엇을 의미하는지 판단하려는 시도는 거의 언제나 실패한다. 데이터가 만들어진 과정, 측정의 한계, 실제 세계의 맥락을 이해하는 사람이 같은 데이터에서 더 의미 있는 신호를 가려낸다. 정보 통신 이론에 대한 학술 자료는 미국수학회의 출판물과 브리태니커 백과사전의 정보 이론 항목에서 다양하게 다뤄지고 있다.
신호의 시간적 일관성
한 번의 측정에서 발견된 신호는 신호인지 잡음인지 알기 어렵다. 같은 조건에서 다시 측정했을 때 같은 신호가 나오는지가 진짜 신호인지를 가르는 기준이다. 재현 가능성이 과학의 핵심 조건인 이유가 여기에 있다. 한 번의 실험에서 강한 효과가 발견되더라도, 다른 연구진이 같은 실험을 했을 때 그 효과가 나타나지 않는다면 처음의 발견은 잡음의 변동일 가능성이 크다.
최근 심리학과 사회과학 분야에서 반복 검증을 통과하지 못한 유명한 연구 결과가 잇따라 발표되면서, 재현 위기라는 표현이 나오고 있다. 이것은 분야의 신뢰성에 대한 도전이지만 동시에 자정 작용이기도 하다. 일회성 신호와 재현 가능한 신호를 구별하는 능력이, 결국 그 분야의 누적적 발전을 결정한다. 데이터의 한 조각이 보여주는 패턴에 휘둘리지 않고 반복된 측정에서 일관되게 나타나는 패턴만을 신호로 받아들이는 절제가, 좋은 분석의 마지막 단계다.
잡음 속에서 패턴을 찾는 본능
인간의 뇌는 잡음에서 패턴을 찾도록 진화했다. 풀숲의 작은 움직임을 포식자의 신호로 해석하는 능력이 생존에 유리했기 때문이다. 이 본능은 현대의 데이터 분석에서는 약점이 되기도 한다. 사람들은 무작위 데이터에서도 패턴을 본다. 의미 없는 점들의 배열에서 얼굴을 보고, 무관한 사건들의 연쇄에서 인과를 추론한다. 확증편향과 손실회피에 대한 이전 분석에서 다룬 것처럼, 한 번 패턴을 발견했다고 느끼면 사람은 그 패턴을 강화하는 증거만 보게 된다.
이 본능을 통제하는 가장 효과적인 방법은 통계적 검정의 외부 시선을 빌리는 것이다. 어떤 패턴이 진짜인지 확인하려면 그 패턴이 무작위에서 우연히 나타날 확률이 얼마나 되는지를 계산해봐야 한다. 직관이 보는 패턴과 통계가 인정하는 패턴은 자주 다르다. 좋은 분석가는 자신의 직관을 신뢰하면서도 그 직관을 통계적 검정으로 견제하는 사람이다.
또 하나 도움이 되는 습관은 자신이 보는 패턴을 다른 사람에게 설명하는 것이다. 머릿속에서만 맴도는 패턴은 검증되지 않지만, 말이나 글로 명시화된 패턴은 검토 가능해진다. 다른 사람의 비판을 받는 과정에서 패턴이 진짜인지 잡음인지가 자주 드러난다. 분석을 혼자 하지 않는 환경, 동료의 시선이 일상적으로 닿는 환경이 분석의 질을 끌어올리는 가장 강력한 조건 가운데 하나다.
데이터 분석의 본질은 결국 신호와 잡음의 경계를 끊임없이 다시 그리는 작업이며, 그 경계가 절대적으로 정해지지 않는다는 사실을 받아들이는 데서 분석의 성숙이 시작된다. 완벽한 신호 추출 기법은 없고, 잡음을 완전히 제거할 수 있는 방법도 없다. 다만 어떤 잡음을 어느 정도 받아들일지를 의식적으로 선택하는 분석가와 그 선택을 무의식적으로 하는 분석가 사이에 결과의 신뢰성이 갈린다.