[Méthode] Attention au Biais du Survivant !

July 23, 2018
bias datascience data

Ce petit article ne porte pas sur la technique mais sur la méthode. L’objectif est de pointer du doigt un écueil assez fréquent, pas toujours facile à éviter mais pourtant simple à comprendre. Il est orienté data science, mais vaut pour n’importe quel projet où il est question de choisir et appliquer des mesures permettant de corriger un problème. Il est illustré par un exemple très parlant, permettant de saisir le sujet sans complications.

Le biais du quoi ? 😱

Lors des projets data comme dans la vraie vie, différents biais cognitifs nous guettent, attendant la moindre occasion de se manifester. Un des biais les plus fréquents au moment de collecter des données et de les “observer” est le biais du survivant. Il est pourtant plutôt intuitif dans le principe, mais bien moins simple à identifier. Vous en avez probablement déjà été victime (voir exemples ci-dessous)

“Un biais cognitif est un mécanisme de la pensée, qui cause une déviation du jugement. Le terme biais fait référence à une déviation systématique de la pensée logique et rationnelle par rapport à la réalité. Les biais cognitifs conduisent le sujet à accorder des importances différentes à des faits de même nature et peuvent être repérés lorsque des paradoxes apparaissent dans un raisonnement.” - Source

Pour la petite histoire … 👴

Il existe à ce propos une histoire (vraie ?) très parlante. C’est la 2nde Guerre Mondiale, la Royal Air Force souhaite améliorer le taux de retour de ses bombardiers partis frapper les positions Allemandes. Pour ne pas trop alourdir les avions et conserver ainsi leur capacité de transport de bombes, les ingénieurs de la RAF décident alors d’observer les impacts de balles sous les avions (nombre et localisation) à leur retour de mission, puis de renforcer le blindage des zones les plus atteintes.

impacts on planes

C’est donc les ailes et l’arrière du fuselage qui reçoivent une couche supplémentaire de protection contre les canons anti-aériens Allemands !

Simplement, et après une courte période d’observation les premiers résultats sont surprenants : non seulement le taux de survie des avions n’a pas augmenté, il a même légèrement baissé. Moins d’avions rentrent à la base qu’avant !

Décryptons ! 😌

Vous l’avez compris, la démarche statistique déployée par la RAF comporte un biais, notamment au niveau du processus de collecte des données. En effet, l’échantillon utilisé pour prendre la décision du renforcement de blindage n’est pas le bon, car il ne contient pas les individus d’intérêt que sont les avions abattus. Le Mathématicien Abraham Wald, spécialiste de la Théorie de La Décision Statistique explique en effet que si les avions avec des impacts aux ailes et sur le fuselage reviennent, c’est parce que ce sont des zones finalement peu sensibles, capables d’encaisser les dégâts. Les avions abattus sont ceux qui ont été touchés ailleurs : sur les réservoirs (ils explosent), le cockpit (il contient le pilote) ou les moteurs (ils rendent possible le vol).

Ce qu’il fallait faire dans ce cas-là, c’est plutôt renforcer les zones des avions survivants comportant le moins de trous !

Lors de l’étude d’un phénomène ou d’une épreuve, le biais du survivant consiste donc à tirer des conclusions sur la base d’une population incomplète, comportant uniquement les individus ayant réussi. Ces individus sont en fait des exceptions, plutôt que des cas représentatifs.

Autre exemple de la vie de tous les jours, on entend parfois dire que “tout était plus solide avant, aujourd’hui les industriels se moquent de nous, mon écran LCD acheté il y a 3 ans est déjà en panne alors que ma grand-mère a la même TV depuis 35 ans et qui marche toujours super bien !”. Cette affirmation se base évidemment sur les objets (la TV de mamie) qui ont survécu et ne tient absolument pas compte de tous ceux qui sont à la poubelle depuis longtemps.

Bien-sûr que l’obsolescence programmée et la pression croissante sur les coûts de fabrication industriels sont réels. Cependant, le biais du survivant contribue tout de même à mettre en lumière les seuls produits ayant survécu aux décennies tandis que la masse d’objets de qualité médiocre ayant disparu est occultée.

Le même phénomène se produit en architecture: qui ne s’est jamais fait la remarque que les bâtiments très anciens étaient quand même drôlement plus robustes que ceux que l’on fait aujourd’hui ? Si autant de monuments de plusieurs centaines d’années existent encore, c’est sûrement parce que les “anciens” détenaient le secret de constructions ultra solides … seulement, les bâtiments ayant traversé les temps ne représentent qu’une part infime de ce qui a été construit depuis l’invention de la construction, tout le reste ayant péri.

Un exemple plus actuel, une erreur classique au sein des services marketing

Autre exemple plus actuel, vu récemment chez une enseigne de mode mythique qui subit de plein fouet l’arrivée de nouveaux acteurs sur son marché et perd beaucoup de clientes.

La marque, soucieuses de plaire davantage à ses clientes et d’augmenter ses volumes de ventes procède à la diffusion d’un questionnaire.

Dans ce questionnaires, on pose diverses questions relatives à l’appréciation (positive ou négative) de différents aspects de l’enseigne : service client, design & style des articles, organisation des magasins, etc. et on demande des suggestions d’améliorations à apporter.

L’objectif est clair : recueillir des données permettant de mieux comprendre les besoins de sa clientèle, pour ensuite adapter sa stratégie de manière à y répondre.

Le questionnaire est ensuite diffusé par e-mail aux clientes selon le procédé de ciblage habituel. Les réponses recueillies sont compilées, analysées puis utilisées pour monter un plan d’action avec comme but de relancer la dynamique commerciale.

Bien-sûr, cela ne marche pas, pour la raison suivante : Le questionnaire s’adresse aux clientes actuelles, donc encore plutôt satisfaites de la marque. De plus, l’usage du canal e-mail opère une sélection supplémentaire : les clientes en cours ayant perdu intérêt dans la marque (en cours d’attrition) n’ouvrent pas l’e-mail et ne répondent pas au questionnaire, et celles qui l’ont déjà quitté sont sûrement déjà opt-out. Ainsi, les réponses proviennent de clientes régulières qui présentent chacune leur vision personnelle de la marque et ce qu’elles attendraient en plus pour que la marque soit parfaite à leurs yeux.

On n’est pas sur le bon échantillon !

Résultat, les données récoltées sont ce que l’on appelle du bruit : elles sont non seulement inutiles et chronophages à analyser, elles créent de la dispersion et mènent en plus les équipes sur de fausses pistes.

Le travail entrepris sur la base de ces données est plus nuisible qu’autre chose, tout cela à cause d’une démarche entachée d’un biais cognitif.

Voici par contre quelques exemples de démarches valables dans ce cas de figure :

  • Contacter directement par téléphone une dizaine d’anciennes bonnes clientes ayant décroché, et leur demander un entretien de 10min (en échange d’un bon d’achat ?). Creuser alors en profondeur la question de leur départ avec elles. Essayer de repérer des motifs qui se répètent dans les discours des clientes, voire d’identifier sans orienter le discours les principaux pain points (irritants client) à traiter.

  • Monter un focus group (groupe d’entretien et d’expression dirigée) externe constitué de consommatrices non clientes, mais appartenant au cœur de cible de la marque. Creuser ensuite avec elles le sujet de ce qu’elles attendent d’une enseigne de mode en général, toujours en posant des questions concrètes (vous avez besoin d’une nouvelle tenue pour les vacances, que commencez vous par faire ?), puis orienter la discussion vers des points qui concernent votre marque, sans jamais la nommer. Ainsi, vous récolterez des insights forts et correspondant à votre cœur de cible, voir même des certitudes sur les goûts et usages de consommation de votre cible immédiatement actionnables.

Le biais du survivant n’a rien d’une exception ou d’une anomalie rare de fonctionnement de notre cerveau. Inhérents à l’esprit humain, il existe une grande diversité de biais cognitifs (Cartographie) qui expliquent beaucoup de comportements irrationnels et permettent de mieux comprendre certains raisonnements paradoxaux. Ces mécanismes inconscients ne sont pas un “défaut de fabrication”, mais plutôt un héritage ancien de l’évolution humaine. Ils ont permis à un moment donné une évaluation ou une action plus performante, mais se révèlent inadaptés à un milieu artificiel moderne. Voici un article décrivant les 25 biais les plus fréquents.

Un avis ? une question ? c’est juste en-dessous 😄

Merci !!

[Tuto] Boost ton ML : XGBoost facile & efficace avec R !

September 2, 2018
datascience data machinelearning R tools tutorial

[Tuto] Un moteur d'OCR ultra-performant & gratuit en quelques lignes de code R

August 11, 2018
R datascience machinelearning tutorial computerVision tesseract OCR LAD RAD

[Tuto] Fabrique & comprends ton premier réseau de neurones en partant de zéro !

August 9, 2018
datascience machinelearning R tools DeepLearning AI NeuralNetwork
comments powered by Disqus