퍼포먼스마케팅

퍼포먼스 마케터가 알아야 할 A/B테스트 설계와 결과해석 방법

궁금한물고기 2022. 3. 9. 20:47
반응형

 퍼포먼스 마케팅이라는 단어에서 퍼포먼스가 의미하는 것은 수치적 결과의 퍼포먼스를 의미한다. 즉 마케터가 진행한 일련의 업무들의 결과로 달라진 수치를 보여줘야만 하는데, 이때 가장 많이 사용하는 방법이 A/B 테스트 방법론이 아닌가 싶다. 그만큼 퍼포 마케터가 알아야 할 가장 기본적이면서도 중요한 지식이다. 사실 A/B 테스트가 퍼포먼스 마케팅의 영역에서만 쓰이는 것은 아니고 통계적 실험을 진행하는 많은 영역에서 사용되는데, 대표적으로 의학분야 신약 테스트가 있다. 그런데 A/B테스트라는 것은 통계적 추론 방법론이기 때문에 사실 꽤나 엄격한 실험 설계와 결과 해석에서의 전제들을 필요로 하고 이를 이해해야 하는데, 많은 마케터들이 이를 놓치고 잘못된 결과로 많은 사람들을 설득하려 하는 경우들도 있다. 그래서 오늘은 A/B테스트에 대해서 한번 기록해보고자 한다.

 

A/B 테스트

 

 A/B 테스트의 기본 가정

 

 A/B 테스트는 다른 모든것이 동일하다는 전제 하에, 한가지 조건이 달라질 때 결과가 어떻게 변하는지를 확인하기 위함이다. 실험 설계에서 중요한 것은 다른 모든것이 동일하다는 전제를 만족 시키는 것인데, 기본적인 3가지를 먼저 떠올릴 수 있다.

 

동일한 모집단

 A/B 테스트를 진행하는 대상군은 그 특성이 같아야한다. 특성이 다른 대상으로 성과를 측정한다면 필연적으로 다른 결과가 나올 수 밖에 없다. 예를 들어 구매율 성과를 측정하는데 남자 고객군과 여자 고객군에 대해서 각각 테스트 하고 결과를 본다면 두 집단에서 보이는 구매율은 당연히 차이가 있을 수 밖에 없다. 그렇기 때문에 사용하는 것이 Random Sampling인데 테스트를 위해 대상을 A/B로 나눌 때 그 특성의 차이가 인위적으로 개입되지 않도록 완전 임의적으로 쪼개는 것을 의미한다.

 

동일한 기간

 온라인 서비스, 오프라인 프로덕트, 유행, 사람들의 기분 등 세상 모든것은 변한다 (영원할것 같던 사랑마저도...--;;) 그렇기 때문에 A를 대상으로 테스트를 진행한 기간과 B를 대상으로 테스트를 진행한 기간이 다르다면 그 결과 또한 다를 수 밖에 없다. 가끔 사용할 수 있는 A/B 테스트 툴이 없거나 혹은 현실적인 다른 이유로 인하여 다른 기간에 소재 테스트를 진행한다고 할때, 그 결과에 대한 신뢰도는 떨어질 수 밖에 없다. 그래도 어쩔 수 없다면 최대한 짧은 기간에 걸쳐 테스트를 해서 두 기간의 차이를 최소화 할 수 있도록 해야한다.

 

동일한 요소

 내가 테스트하고자 하는 요소를 제외한 나머지 요소는 모두 동일하게 설정해둬야 실험의 결과를 해석할 수 있다. 그리고 테스트하고자 하는 요소의 단위는 작으면 작을수록 더 확실한 인사이트를 얻을 수 있다. 예를들어 쇼핑몰 광고를 위해 티셔츠로 소재 테스트를 하는데 색도 다르고 디자인도 다른 두가지 티셔츠 소재로 테스트를 진행한다면 다른 결과를 디자인 차이에 의한 결과로 해석해야 할까, 아니면 색깔 차이에 의한 결과로 해석해야 할까? 그렇기 때문에 좋은 A/B테스트 설계자라면 동일한 티셔츠인데 색 소재로만 베리에이션을 줘서 먼저 인사이트를 확보한 후 다음 테스트를 진행할 것이다.

A/B 테스트에서는 요소를 고립(isolate)시켜야 한다

 

A/B 테스트에서는 요소를 고립(isolate)시켜야 한다

 

A/B 테스트의 결과 해석

 

 여러가지 테스트의 기본 가정들을 만족시킨 상태에서, 테스트의 결과로 나온 수치는 어떻게 해석해야 할까? 그리고 그것을 통해 얼만큼의 확신과 인사이트를 기대할 수 있을까? 강조하고 싶은 것은 너무 숫자에만 집착할 필요는 없다는 것이다. 비즈니스에 맞게 결과를 어떻게 인사이트로 전환시킬수 있느냐가 오히려 훨씬 더중요하다.

 

반응형

나의 테스트는 충분히 믿을만 한가?

 보통 테스트의 신뢰도를 확인하기 위해 P-value를 많이 참고한다. 두 수치가 차이가 있다고 얼마나 확신할 수 있는가를 보여주는 수치인데 모수가 많으면 많을수록 P-value는 매우 낮아질 확률이 높다(표준편차가 작아져서 그렇다). 기준은 보통 5% 이하로 잡는데, 이보다 더 높다고 해서 테스트가 의미가 없었다는 이야기는 아니니 P-value에 너무 집착할 필요는 없다. 하지만 내가 보고있는 Metric이 발생한 수치(예를 들어 경험적으로 Click이라고 하면 A와 B 둘다 50 이상은 되는 것이 좀 더 신뢰할만한 것 같다)가 너무 적으면 숫자가 우연에 의한 결과일수도 있으니 이 점은 주의해야 할 필요가 있다. 

 

가설을 기억하자

 A/B 테스트는 보통 무작위 테스트가 아닐 것이다. 고객과 서비스를 이해하는 퍼포먼스 마케터가 현재의 지식에 기반해서 가설을 세우고 그 가설을 증명해내기 위한 과정인 경우가 더 많다. 그렇기 때문에 테스트를 진행하기 전 세웠던 가설을 기억하고 테스트의 결과가 그 가설과 일치하는지, 아니라면 왜 그 가설에서 벗어났는지를 추론해봐야 한다. 단순히 테스트가 끝났다고 결과만 기록하고 애초에 그 테스트를 진행했던 Why를 기억하지 않는다면 지식이 축적되지 않는다.

 

얼마나 큰 차이가 있었을까?

 A와 B가 차이가 있었는지를 확인하는 것도 중요하지만, 얼마나 큰 차이가 있었는지를 아는것도 상당히 중요하다고 할 수 있다. 이때 사용할 수 있는 것이 uplift인데, 수치가 더큰 쪽을 분자 자리에, 수치가 더 작은 쪽을 분모 자리에 놓으면 얼마의 비율로 차이가 있는지를 확인할 수 있다. 만약 이를 매출로 연결시켜 생각한다면 어떤 변화를 주었을 때 기대되는 Return을 계산해볼수도 있는데, 특히 리타겟팅 광고를 할 때 광고 대상을 uplift가 큰 대상으로만 한정시킨다면 낭비될 수 있는 광고비를 많이 세이브 할 수 있을것이다. 앱스플라이어 기술 블로그에 보면 관련 내용이 있어서 내용을 링크로 추가해보았다.

 

마지막으로, A/B테스트는 이론보다는 실전의 영역이다. 어떤 요소를 테스트할지 기초 분석을 통해 가설을 세우고 끊임없이 오퍼레이션 해보는 것이 중요하다. 그리고 많은 사람들이 납득할 수 있는 결과를 찾아 설득해야 한다. 퍼포먼스 마케터에게는 반복적인 업무이지만 피할수 없는 숙명이라고나 할까...
반응형