Temas del artículo
¿Por qué es importante evitar sesgos en las segmentaciones en un test A/B?
Evitar sesgos en las segmentaciones en un test A/B es clave para asegurar la validez y confiabilidad de los resultados.
Hace tiempo os publiqué un post con las mejores recomendaciones para optimizar un test A/B, pero en ésta ocasión vamos a detallar ésa parte de sesgos que hacen perder su rendimiento…
En ese sentido… un test A/B se diseña para comparar dos variantes de una misma variable y analizar cuál de ellas produce mejores resultados. Si la muestra de usuarios se segmenta de forma no representativa, los resultados que tengamos no reflejarán el verdadero impacto de las variantes.
Existen muchas herramientas efectivas para diseñar un test A/B, la clave es tener claro que deben medir el efecto de una única variable en un entorno controlado. Cuando se introducen sesgos en la segmentación añadimos variables confusas que pueden interferir con la interpretación de los resultados.
¿Y entonces…? Pues puede llevar a decisiones basadas en datos distorsionados que no lograrían optimizar el rendimiento o, peor aún, tener un impacto negativo al implementarlas.
Evitar segmentaciones que puedan sesgar los resultados en un test A/B debe ser el objetivo para obtener los mejores resultados.
Te dejo un top 10 para evitar el sesgo y afinar tus análisis en el A/B:
1. Segmentación por Dispositivo:
Asegúrate de que cada grupo (A y B) tengan una mezcla representativa de usuarios en diferentes dispositivos (Mobile, tablets, escritorio…).
No tiene sentido probar una variante solo en móviles y otra solo en escritorio… es posible que las diferencias en los resultados se deban al dispositivo en lugar del cambio que estás probando.
Si estás probando un diseño de página, asegúrate de que tanto la versión A como la B sean accesibles en todos los dispositivos y que los usuarios sean distribuidos aleatoriamente sin importar el dispositivo que usen.
2. Segmentación por Ubicación Geográfica
Distribuye aleatoriamente a los usuarios de diferentes ubicaciones geográficas entre ambos grupos, según las ubicaciones pueden tener comportamientos de compra distintos por factores culturales o de idioma.
Asegúrate de que las regiones geográficas comparadas en los segmentos A y B sean similares en términos de variables de idioma, cultura, comportamiento de compra, y condiciones económicas… resultaría absurdo comparar regiones que tengan grandes diferencias estructurales (Por ejemplo, una región urbana con una rural puede crear un sesgo importante)
De igual forma, asegúrate de que la asignación de usuarios de cada región a los grupos A y B sea siempre aleatoria… así, cualquier diferencia dentro de una región se distribuirá equitativamente entre ambos grupos.
Mis sugerencias:
- Usa un modelo de control para considerar factores geográficos externos que podrían influir en los resultados, como el clima, la proximidad de feriados locales o eventos importantes en ciertas áreas geográficas. Así, podrías evitar que una región geográfica específica sesgue los resultados debido a estas variables externas.
- Considera también otras características de la región, como nivel de ingresos, infraestructura de internet, y preferencias de pago, que pueden influir en los resultados.
- Asegúrate de tener un tamaño de muestra lo suficientemente grande en cada región para que las diferencias no se deban al azar.
- Es muy útil hacer pruebas dentro de la misma región; dividiendo a los usuarios de la región entre los grupos A y B. Así, podrás minimizar las diferencias entre regiones y comparar a los usuarios en condiciones más similares.
- Si las ubicaciones geográficas experimentan variaciones estacionales diferentes (Por ejemplo, regiones donde el clima afecta las compras online), asegúrate de realizar la prueba A/B durante un período de tiempo lo suficientemente largo para no depender de ese tipo de sesgo.
3. Segmentación por hora del día
Las personas pueden tener diferentes comportamientos dependiendo de la hora… Busca distribuir aleatoriamente a los usuarios a lo largo de las 24 horas en ambos grupos para evitar que una franja horaria específica sesgue los resultados.
Ejecuta el test A/B en múltiples días; no segmentes solo por una franja horaria o un solo día. Asegúrate de que las pruebas se realicen a lo largo de diferentes días y a lo largo de todo el día, sobretodo, para esquivar el comportamiento de usuarios que pueda variar de un día a otro y en diferentes horas.
En ese sentido, considera , también, el comportamiento en días laborales y fines de semana ya que el patrón de uso puede cambiar en ambos contextos.
4. Segmentación por Canal de Adquisición
Los usuarios que llegan a tu sitio desde diferentes canales (orgánico, pagado, redes sociales, email marketing) seguramente tengan diferentes comportamientos y tasas de conversión.
Procura asignar los usuarios aleatoriamente asegurando que los grupos (A y B) tengan siempre una distribución similar de usuarios de todos los canales de adquisición (orgánico, pago, redes sociales, email…)
Usa una técnica de muestreo estratificado para dividir a los usuarios, primero; según su canal de adquisición y luego asignando una porción igual de usuarios de cada canal a cada grupo.
Mis sugerencias:
- Si algunos canales de adquisición son mucho más grandes que otros (Por ejemplo, tráfico orgánico vs. tráfico de email…) y para evitar que el test A/B pueda verse influenciado por los dominantes crea subsegmentaciones o tests separados para estos canales más pequeños
- Analiza el impacto por canal durante y después del test; revisando las métricas clave (Conversiones, ingresos, permanencia…) por cada canal de adquisición para analizar el desequilibrado entre grupos
- Ten cuidado de no generar sesgos con un modelo de atribución que asigne valor a múltiples interacciones de un usuario antes de la conversión (Por ejemplo, alguien que llegó primero por tráfico orgánico y luego regresó por email)
- Evita la contaminación temporal; si los canales de adquisición tienen picos en diferentes momentos (Por ejemplo; tráfico pagado durante campañas especiales…), debes controlar las fechas del test para evitar que estos picos sesguen los resultados
5. Segmentación por Frecuencia de Compra
Los nuevos usuarios y los clientes recurrentes pueden reaccionar de manera diferente a los cambios en frecuencia de compra.
Asegura siempre que ambos grupos incluyan una mezcla de usuarios nuevos y recurrentes para ver el impacto en todos los segmentos.
Mis sugerencias:
- Antes de comenzar la prueba; estratifica a los usuarios en función de su frecuencia de compra, es decirdivide la audiencia en segmentos que compartan un comportamiento similar en la compra, por ejemplo:
–Compradores frecuentes (clientes que compran varias veces al mes)
–Compradores regulares (compran una vez al mes)
–Compradores ocasionales (compran cada pocos meses)
Y dentro de cada estrato, asigna a los usuarios aleatoriamente a los grupos de prueba (grupo A y grupo B) buscando que ambos grupos tengan una representación similar en cada segmento de frecuencia de compra.
- Busca siempre un tamaño de muestra lo suficientemente grande en cada segmento de frecuencia de compra. Si los segmentos son pequeños, los resultados pueden no serán significativos.
- Define un periodo de prueba que sea lo suficientemente largo para capturar patrones de compra relevantes en función de la frecuencia. Por ejemplo, los compradores ocasionales necesitarán más tiempo para realizar una compra en comparación con los frecuentes.
- En lugar de hacer una prueba A/B en toda la base de clientes, puedes hacer pruebas cruzadas. Por ejemplo, una prueba A/B separada para cada grupo de frecuencia de compra (frecuentes, regulares, ocasionales) para ayudar a identificar si los resultados son consistentes en todos los segmentos o si algún grupo responde de manera diferente.
6. Segmentación por Comportamiento de Navegación
Usuarios que navegan de manera más exploratoria vs aquellos que van directo a la compra seguramente responderán de manera diferente a los cambios.
Asegúrate de que tanto los usuarios que suelen hacer clic en muchos enlaces como los que solo visitan una o dos páginas estén presentes en ambos grupos. Procura que haya una distribución uniforme de los usuarios en los grupos de prueba y control y que cada segmento de comportamiento (nuevos visitantes, usuarios recurrentes, compradores frecuentes…) esté equitativamente representado .
Algunas variables de comportamiento pueden influir en el resultado del test (como el dispositivo usado, la fuente de tráfico o la hora de visita), para buscar más objetividad será importante controlarlas y también distribuirlas equitativamente. Por ejemplo, si sabes que los usuarios que visitan desde un dispositivo móvil tienden a comportarse de manera diferente que los que usan desktop de escritorio, intenta que ambos grupos (A y B) tengan la misma proporción de usuarios móviles y de escritorio.
Por experiencia, en los análisis que tienen que ver con el comportamiento de usuario siempre recomiendo hacer un análisis del comportamiento previo analizando si hay diferencias significativas en los patrones de navegación de los grupos (Por ejemplo, tasa de conversión, número de páginas vistas). Si ves diferencias sustanciales desde el inicio, es un indicio de que, probablemente, haya sesgo en la segmentación.
7. Segmentación por Tipo de Producto
Si tu ecommerce vende múltiples tipos de productos ( Moda, tecnología, hogar…), los resultados variarán según el tipo de producto.
Distribuye equitativamente a los compradores de diferentes categorías de productos entre ambos grupos, asegúrate de que los productos de todas las categorías estén representados en ambos grupos.
Es clave definir claramente los grupos A y B y que la asignación de usuarios a cada grupo sea completamente aleatoria.
Asegúrate, también, que ambos grupos tengan un tamaño suficiente para que los resultados sean estadísticamente significativos. Un grupo pequeño podría no reflejar con objetividad el comportamiento del tamaño general.
Mis sugerencias:
- Si estás evaluando una funcionalidad, diseño o estrategia, asegúrate de que ambos grupos tengan acceso a una representación equilibrada de los tipos de productos. Por ejemplo, si ciertos tipos de productos son más populares o generan más conversiones (Como productos de moda frente a electrónicos…), garantiza que ambos grupos estén expuestos de manera equitativa a estos productos para evitar sesgos.
- Agrupar productos por categorías homogéneas (como precio, popularidad, tipo de cliente) puede ayudar a equilibrar el impacto de factores externos. (Si un grupo tiene más productos de alta gama y otro de gama baja, esto podría distorsionar los resultados…)
- Si los usuarios llegan al eCommerce a través de diferentes canales (SEO, SEM, redes socials…), asegúrate de que tanto el grupo A como el B tengan una proporción similar de usuarios de cada canal.
- Si se ejecutan promociones o descuentos, asegúrate de que afecten de manera equitativa a ambos grupos. Hay que evitar que uno de los grupos tenga más incentivos para comprar que el otro. Asegúrate de que ambos grupos tengan acceso a una oferta de productos similar.
- Asegúrate de que los perfiles de los usuarios (Como clientes frecuentes frente a nuevos clientes…) estén distribuidos de manera uniforme en los grupos.
Las diferencias en el comportamiento de los distintos tipos de clientes podrían sesgar los resultados, además; factores externos como la temporada del año, eventos especiales o incluso la competencia podrían influir en el comportamiento de esos usuarios.
- Evita segmentar a los usuarios únicamente en función de su comportamiento de compra histórico en ciertos tipos de productos. Es mejor hacer una segmentación más amplia que permita analizar a diferentes tipos de usuarios de manera más equilibrada.
8. Segmentación por Histórico de Compras
Los usuarios con diferentes historiales de compras pueden tener preferencias distintas.
Para evitar sesgos por histórico de compras en un test A/B es importante diseñar el experimento de forma que las diferencias observadas entre los grupos no se deban a características preexistentes en los usuarios sino exclusivamente a la variable que se está probando.
Asegura que tanto los usuarios con un historial de compras grande como aquellos con un historial limitado estén en ambos grupos. Distribuye a los usuarios con muchos y pocos registros de compras en ambos grupos.
Mis sugerencias:
- Asegúrate de que la asignación de los usuarios a los grupos de prueba (A y B) sea completamente aleatoria, evitando que los usuarios con comportamientos de compra similar se concentren en un solo grupo.
Si tienes segmentos con diferentes patrones de compras (Por ejemplo, clientes recurrentes vs. clientes nuevos), puedes usar una aleatorización estratificada asegurando que cada estrato (Grupo de comportamiento) esté representado equitativamente en los dos grupos.
- Revisa las métricas clave como el valor promedio de las compras, la frecuencia de compra o el tipo de productos comprados por los usuarios de forma que ambos grupos (A y B) tengan distribuciones similares.
Si los usuarios de tu base de datos tienen características muy diferentes en cuanto al histórico de compras siempre podrás emparejar usuarios con perfiles similares en cada grupo y asegurar que las comparaciones entre grupos sean más lógicas.
- Elige siempre muestras suficientemente grandes. Tamaños de muestra pequeños pueden hacer que las diferencias entre los grupos estén más influenciadas por el azar o características de análisis previas como el histórico de compras.
- Si tienes clientes con un comportamiento de compra exageradamente diferente (como compradores que hacen compras de muy alto valor o que compran con una frecuencia muy alta), considera excluirlos del experimento o segmentarlos en un grupo aparte y analizar sus resultados por separado.
- Podrías implementar un período de enfriamiento en el que los usuarios no sean considerados hasta que se haya estabilizado su comportamiento de compra. Sería una acción útil para evitar que un comportamiento reciente sesgue los resultados.
En conclusión...
Evitar sesgos en los test A/B es esencial para obtener resultados precisos y realmente representativos…
Los sesgos, ya sean intencionados o no, pueden distorsionar los resultados y generar conclusiones engañosas y decisiones erróneas. Afectar negativamente la validez del test A/B impidiendo que se comprenda de manera objetiva qué variantes funcionan mejor y por qué.
La clave está en ofrecer insights claros y medibles sobre el comportamiento de los usuarios y las preferencias de tu público.