“이 결과, 정말 믿어도 되는 거야?”
AB 테스트 결과를 보며 이런 생각이 든 적 있으신가요?
클릭률, 전환율, 광고 성과 등 다양한 KPI를 위해 AB 테스트를 자주 실행하지만, 그 결과가 진짜 의미 있는지 판단하기 어려울 때가 많아요. 단순히 “이쪽이 더 높네! 유의미하다고 봐도 되겠어”라고 결론 내리기엔 충분하지 않으니까요.
이번 글에서는 AB 테스트 결과를 제대로 해석하기 위해 필요한 P값(P-value), 신뢰 구간, 효과 크기 개념을 알아보고, 사례와 함께 결과를 분석해볼게요.
1. P값(P-value)이란?
P값(P-value)은 두 그룹(A그룹과 B그룹) 간의 결과 차이가 유의미한지 판단하는데 도움을 주는 지표예요. P값(P-value)을 제대로 이해하려면 귀무가설에 대해 알아야 해요.
- 귀무가설이란?
- 두 그룹(A와 B) 간 차이가 없다고 가정하는 가설이에요. 즉, A와 B의 클릭률 차이는 단순히 우연에 의해 발생한 것이라는 기본 가정이에요.
- P값(P-value)과 귀무가설의 관계
- P값(P-value)은 귀무가설이 맞다(두 그룹 사이에 차이가 없다)는 전제하에, 실험 결과가 우연일 가능성을 나타내는 숫자에요. P값(P-value)이 낮을수록 귀무가설이 맞을 가능성은 줄어들고, 차이가 실제 효과일 가능성이 높아집니다.
예를 들어, 버튼 위치에 따른 클릭률을 비교하는 실험에서 A와 B의 결과가 다음과 같다고 해볼게요
- A 그룹: 100명 중 6명이 클릭 (클릭률 6%)
- B 그룹: 100명 중 10명이 클릭 (클릭률 10%)
B 그룹의 클릭률이 A 그룹보다 더 높게 나왔지만, 100명 중 4명 차이가 정말로 의미 있는 차이인지, 아니면 단순히 우연히 생긴 차이인지 궁금할 수 있죠. 이럴 때 P값(P-value)을 확인하면, 이 차이가 우연이 아닌지 판단할 수 있습니다.
2. 유의수준: P값(P-value), 어느정도여야 유의미할까?
그렇다면 P값(P-value)이 어느 정도로 낮아야 실험 결과가 유의미하다고 볼 수 있을까요?
이 기준을 유의 수준이라고 합니다. 유의 수준은 실험의 신뢰도와 정확성의 중요성에 따라 결정되며, 설정해둔 유의 수준보다 P값(P-value)이 작으면 결과가 유의미하다고 해석해요.
일반적으로 AB 테스트같은 프로덕트 테스트에서는 유의 수준을 0.05(5%)로 설정해요. 그러나 신뢰도가 특히 중요한 의학이나 금융 분야에서는 유의 수준을 더 엄격하게 0.01(1%) 미만으로 설정하기도 합니다.
즉, 유의 수준은 절대적인 값이 아니며, 테스트 결과의 정확성이 얼마나 중요한지와 그로 인해 발생할 리스크가 어느 정도인지에 따라 더 낮거나 높게 조정할 수 있어요.
3. AB테스트 결과 더 정확히 분석하기
P값(P-value)으로 테스트의 성공 여부를 판단했다면, 이후 테스트를 실패하거나 성공한 이유를 구체적으로 분석할 때는 업리프트(효과 크기)와 신뢰 구간 지표를 함께 살펴보는 경우가 많아요. 업리프트와 신뢰 구간이 P값(P-value)을 계산하는 기본 요소이기 때문에, 결과가 실제로 의미 있는 변화인지, 그리고 그 결과가 일관성 있게 나타났는지 더 구체적으로 분석하는 데 중요한 역할을 해요.
- 업리프트(효과 크기)는 두 집단 간의 차이가 얼마나 실질적으로 얼마나 큰 영향을 미치는지를 나타내는 지표에요. 두 그룹의 차이가 실제 비즈니스에 중요한지를 평가해요. 업리프트(효과 크기)가 크면 비즈니스 성과에 의미 있는 변화를 가져올 가능성이 높다고 판단할 수 있습니다.
- 신뢰 구간은 실험 결과가 실제 값에 얼마나 가까운지를 추정하는 범위예요. 결과의 일관성을 평가하는 척도로 사용돼요. 신뢰 구간이 좁을수록 결과가 일관적이라고 볼 수 있고 넓을수록 추가 데이터가 필요할 수 있어요.
P값(P-value), 업리프트(효과 크기), 신뢰 구간은 요즘 쉽게 계산해주는 사이트와 도구가 많아서 직접 계산할 필요가 없어요. ABTasty, VWO, Optimizely 등의 AB테스트 툴에서 자동으로 결과를 계산해주니, 이 지표들의 개념을 잘 이해하고 해석하는 방법을 아는 것이 더 중요해요.
4. 함께 분석해보는 AB테스트 결과
온라인 교육 플랫폼의 AB 테스트
한 온라인 교육 플랫폼은 강의 상세 페이지를 수정하여 강의 구매 전환율을 높이고자 했어요. 기존 그룹(A)에서는 강의 소개와 수강료만 표시되고, 새로운 그룹(B)에서는 커리큘럼과 강사 정보를 추가하여 두번의 테스트를 진행했어요.
두개의 테스트 중 어떤 테스트가 더 유의미한 결과라고 말할 수 있을까요?
첫 번째 테스트에서는 A그룹과 B그룹의 전환율이 각각 5%와 5.5%로, 0.5%의 차이가 있고,
두 번째 테스트에서는 A그룹과 B그룹의 전환율이 각각 10%와 15%로, 5%의 차이가 나타났어요.
그렇다면 두번째 테스트가 전환율 차이가 크니 “두 번째 테스트가 더 유의미하다”라고 결론 내리면 될까요?
P값(P-value) 계산기로 두 결과를 확인해볼게요.
P값 계산하기 > VWO AB Test Calculator
여기서 주목해야 할 점은 단순히 업리프트(효과 크기)만으로는 실험 결과를 정확히 판단할수 없다는거에요. 샘플 사이즈가 작으면 데이터가 우연에 의해 쉽게 왜곡되고 신뢰도가 떨어질 수 있어요.
이런 경우 충분한 샘플 사이즈를 확보하면 변동성을 줄이고 더 정확한 결과를 얻을 수 있어요.
따라서 실험의 성공 여부를 평가할 때는 신뢰 구간과 효과 크기를 반영한 P값(P-value)을 확인해, 통계적으로 유의미한지를 판단하는 것이 중요해요.
이번 글에서는 P값(P-value) 개념을 살펴보고 AB 테스트 결과를 더 깊이 분석하는 방법을 함께 알아봤어요. 어렵게 느껴졌던 AB 테스트 결과 해석이 조금 더 쉬워지셨기를 바랍니다.
이러한 결과 분석을 위해서는 AB 테스트 전문 툴의 활용이 중요해요. 전문 툴 없이 진행하면 데이터 수집과 통계적으로 유의미한 결과 해석에 어려움이 있을 수 있거든요. AB 테스트를 통해 근거 있는 의사 결정을 내리고 효과적인 프로덕트 그로스를 하고싶으시다면, 언제든 아래 링크를 통해 이메일을 남겨주세요🫶🏻
AB테스트 전문툴 알아보기 >>