지난 주에는 실험을 통해 성장을 만들어 내는 ‘그로스 해킹’에 대해 알아보았습니다.
그로스 해킹에서 진행하는 실험을 대표하는 것이 바로 ‘A/B 테스트’로, 이번 주에는 A/B 테스트에 대해 알아보겠습니다.
A/B 테스트 정의
AB 테스트는 기존 요소로 구성된 A안과 특정 요소를 변형한 B안을 비교해 어느 것이 더 나은 성과를 나타내는지 측정하는 실험입니다. 일부 사용자에게는 A안이 표시되고, 다른 사용자에게는 B안이 표시되어 성과를 비교를 하는 것이죠. 이 실험은 웹사이트 뿐만 아니라 이메일, 광고 등을 대상으로 진행할 수 있습니다.
A/B 테스트 사례
오바마 대선 홍보 캠페인은 여러 콘텐츠에서 다루고 있는 유명한 성공 사례입니다.
기존에는 기부금을 내기 위해서 1단계에서 여러 항목을 입력해야 했는데, 이를 4단계로 구분하는 대신 각 단계마다 요구하는 항목을 최소화했습니다. 이를 통해 전환율 5% 상승 효과를 얻어낼 수 있었습니다.
‘7 A/B Testing Examples To Bookmark [2022]’, ‘A/B Testing 필요성과 사례’, ‘바로 활용하는 2가지 AB 테스트 사례’에서 AB 테스트를 통해 성과를 창출한 다양한 사례를 만나볼 수 있습니다.
A/B 테스트 진행 방법
AB 테스트는 크게 다섯 단계로 나누어 진행할 수 있는데, 여기에서는 웹사이트를 예시로 확인해 보겠습니다.
1. 리서치
AB 테스트를 진행하기 전에 현재 웹사이트의 성과를 측정해야 합니다. 데이터를 살펴 보면서 고객들이 방문하지 않는 페이지, 이탈율이 높은 페이지 등을 찾을텐데, 여기에서 발생하는 문제점을 고객 인터뷰를 통해 확인할 수 있습니다. 반대로 고객 인터뷰를 먼저 진행하여 발견한 문제점을 데이터로 확인할 수도 있습니다.
2. 가설 수립
리서치 과정을 바탕으로 우리가 직면한 문제점에 대한 가설을 세울 수 있습니다. 예를 들어, “CTA 위치를 상단으로 옮긴다면, 사용자가 CTA를 더욱 쉽게 인식하여 전환율이 높아질 것이다.”와 같은 것입니다.
3. A안과 B안 생성
가설을 기반으로 기존 요소가 담긴 A안과 특정 요소를 변형한 B안을 생성해야 합니다. 이때 A안을 보는 집단은 대조군(Control Group), B안을 보는 집단은 실험군(Experimental Group)이 됩니다.
4. 테스트 진행
A안과 B안이 생성됐다면 테스트를 진행합니다. 이때 주의할 점은 테스트 기간과 표본 크기입니다.
먼저 A안과 B안의 테스트는 동시에, 동일한 기간 동안 진행돼야 합니다. 변형한 요소 외에 실험에 영향을 줄 수 있는 다른 변수를 최대한 통제하기 위해서입니다.
표본 크기가 중요한 이유는 ‘통계적 유의성’ 때문입니다. 통계적 유의성을 판단할 수 있는 충분한 데이터가 모이기 전에 테스트를 종료하면 잘못된 해석으로 이어질 수 있습니다.
5. 분석 및 의사결정
테스트가 종료됐다면 결과를 분석하고 의사결정을 해야 합니다.
목표로 했던 지표에 대해, 신규안이 기존안 보다 높게 나타났다면 신규안을 배포하면 됩니다. 단순히 배포만 하고 끝내기보다는 신규안에서 더 좋은 성과가 나타난 이유가 무엇인지 정리하는 것을 추천합니다.
반대로 통계적으로 유의미한 결과를 얻지 못한 경우에는 기존안을 그대로 운영하면 됩니다. 이때 실험에서 얻은 인사이트를 정리하고, 새로운 테스트를 계획해 볼 수 있습니다.
A/B 테스트 유의 사항
AB 테스트 수행에 있어 주로 하는 실수는 다음과 같습니다.
1. 무가설
AB 테스트를 통해 검증하고 싶은 가설이 무엇인지 정의하지 않는다면 실험에서 얻을 수 있는 결과는 거의 없습니다.
2. 통제 변수 관리 실패
AB 테스트가 실패하는 가장 큰 원인은 통제 변수를 식별하지 못했거나, 통제 변수를 잘 관리하지 못하는 것입니다. 가설에서 정의한 독립 변수 외에 다른 변수가 종속 변수에 영향을 미쳤다면 그 결과를 성장의 밑거름으로 활용할 수 없습니다.
3. 단순 평균 비교
종속 변수의 변화를 단순 평균 비교하면 우연에 의한 결과와 실제 효과를 혼동할 수 있습니다. 평균 비교 외에도 분포, 유의수준 등을 종합적으로 고려해서 결과를 해석해야 합니다.
4. 시간 흐름 무시
테스트 기간 전체에 대한 종속 변수 평균을 비교하는 것도 중요하지만 시간의 흐름에 따라 종속 변수가 어떻게 변화했는지를 보는 것도 중요합니다. 실제로 실험 초반에는 조건별 차이가 나타났다가 후반에는 차이가 사라지는 경우, 또는 그 반대의 상황이 종종 나타나기 때문입니다.
5. 엿보기와 조기 중지
실험 중에 계속해서 p-value의 변화를 살펴보다가 p-value가 0.05 이하로 내려가는 시점에 갑자기 실험을 중단하는 경우입니다. 통계적으로는 유의미한 차이가 있는 것으로 보이지만, 사실은 실험자가 인위적으로 만들어낸 결과이므로 서비스의 성장에 크게 도움이 되지 않습니다.
p-value는 통계적 가설 검정에서 사용되는 개념으로 ‘가설검정(귀무가설, 대립가설, p-값)’에서 구체적인 내용을 확인할 수 있습니다.
6. 과거에 대한 맹신
AB 테스트에서 유의미한 결과가 나왔다고 해서 그것이 계속해서 유의미하다고 보장할 수는 없습니다. 시장 변화, 계절 변화, 유저 변화 등 다양한 요인에 의해 A/B 테스트 결과는 얼마든지 달라질 수 있기 때문입니다.
A/B 테스트 유사 개념
비교 실험을 한다는 점에서 AB 테스트와 동일하지만, 세부적으로는 차이점이 있는 유사 개념에 대해서도 알아봅시다.
스플릿 테스트(Split Test)
스플릿 테스트는 완전히 다른 디자인에 대해 성과를 측정합니다. 특정 요소만을 변형한 A/B 테스트와는 다르게 전체적으로 다른 콘셉을 비교할 때 유용합니다.
다변량 테스트(Multivariate Test)
A안, B안 두 가지가 아니라 C안, D안 등 다양한 요인에 대해 비교하는 방법입니다. 다변량 테스트의 경우, 실험의 대상이 되는 사용자 집단이 많기 때문에 A/B 테스트보다 상대적으로 많은 데이터가 필요합니다. 그리고 한 번의 테스트 만으로는 어떤 이유로 좋은 성과가 나왔는지 파악하기 어려울 수 있어, 테스트를 반복 수행해야 하는 단점도 있습니다.
마치며
지금까지 AB 테스트에 대해 알아보았습니다. 그로스 해킹 글에서도 언급하였듯, 직접 시행착오를 겪으며 실험을 수행해 보고 결과를 탐색하는 것이 AB 테스트를 이해하는 가장 좋은 방법일 것입니다.
AB 테스트의 진행 방법과 주의 사항을 고려하여, 성과를 만들 수 있는 성공적인 실험을 수행하시기를 바랍니다.
퍼포먼스 마케팅의 정의, 중요한 지표인 ROI와 ROAS 차이, 전환율 상승을 위한 강력한 CTA(Call To Action) 만들기에 대해서는 퍼포먼스 마케팅 완벽 가이드 (정의, ROI vs. ROAS, 전환율, AB테스트)를 읽어보시길 바랍니다.
본 글은 『그로스 해킹』(양승화 지음, 위키북스) , 『내일부터 디지털 마케터』(그레이스 지음, 비제이퍼블릭) 을 바탕으로 작성되었습니다.
References:
A/B 테스트 : 무엇이며 어떻게 작동할까요?
A/B 테스트는 무엇인가요?