Analyse de survie correspond à un ensemble d’approches statistiques utilisées pour étudier le temps qu’il faut pour qu’un événement d’intérêt se produise.

L’analyse de survie est une méthode statistique pour analyser la durée d’un certain processus jusqu’à sa fin. Un processus est compris comme la durée d’un phénomène dans le temps. Par exemple, analyse de l’espérance de vie du patient après la chirurgie avant le décès ; évaluation de la durée de l’effet de la campagne publicitaire ; évaluation de la durée de vie de la pièce ; évaluation de l’expérience de travail dans l’entreprise; évaluation de la durée de la coopération avec les clients.

L’analyse de survie examine la répartition du temps entre deux événements. L’événement qui marque le début du processus n’est pas aléatoire. L’événement qui marque la fin du processus est un événement aléatoire. Le temps entre deux événements (le début et la fin du processus) est considéré comme une variable aléatoire.

Les méthodes d’analyse de survie sont largement utilisées en pratique dans les domaines suivants :

  • En médecine et biologie; par exemple, analyse comparative des méthodes de traitement, prévision de l’espérance de vie des patients: Études sur le cancer pour les analyses de temps de survie des patients,
  • Sociologie pour « l’analyse de l’histoire des événements »,
  • en ingénierie pour « l’analyse du temps de défaillance ».
  • en assurance; le calcul des tarifs et l’évaluation des réserves en assurance-vie sont basés sur des données de mortalité de la population (estimation de la probabilité de vivre un certain nombre d’années).
  • dans l’administration publique; analyse de la durée du chômage pour évaluer l’efficacité des programmes gouvernementaux, identification des facteurs les plus significatifs affectant la durée du chômage.
  • dans le marketing et la publicité ; modéliser la période de travail avec les clients jusqu’à leur départ.
  • en gestion; évaluation de la durée de vie des pièces dans la gestion et le contrôle de la qualité des produits.

Dans les études sur le cancer, les questions de recherche typiques sont les suivantes :

  • Quel est l’impact de certaines caractéristiques cliniques sur la survie du patient
  • Quelle est la probabilité qu’un individu survive 3 ans ?
  • Existe-t-il des différences de survie entre les groupes de patients ?

Une caractéristique de l’analyse de survie est l’utilisation de données censurées. Les observations censurées sont des observations qui contiennent des informations incomplètes sur le processus à l’étude.

Considérons l’exemple d’une étude sur le chômage dû à la crise du coronavirus.

On s’intéresse à tous ceux qui étaient en recherche active d’emploi entre mars et juin; seuls ceux qui étaient au chômage durant cette période seront considérés. Certaines personnes seront déjà au chômage en avril et donc leur durée de chômage sera plus longue (troncature à gauche). Lors de notre suivi, d’autre mentionneront avoir trouvé un emploi lors de notre appel, mais ne pourront nous renseigner sur la date exacte de leur embauche (censure à gauche); cette dernière précèdera notre prise de contact, mais nous est inconnue. D’autres personnes seront toujours au chômage en juin à la fin de l’étude et on ignorera le nombre réel de mois passés au chômage (censure à droite). Enfin, certaines personnes cesseront de chercher activement un emploi et donc quitteront l’étude. Tous ces méchanismes (complexes) peuvent être dictés par certaines covariables (employabilité, découragement) et être aléatoires ou pas. Pour estimer le taux de chômage, il faudra prendre en compte les méchanismes de survie dans notre modèle. On se concentrera sur le cas simple des données censurées à droite de façon aléatoire.

Deux probabilités liées sont utilisées pour décrire les données de survie : la fonction de survie et la fonction de risque.

Fonctions de survie et de risque

Un des éléments de base d’une analyse de survie (survival analysis) est la fonction (ou courbe) de survie.

Soit F(t)=P(T≤t)F(t)=P(T≤t) la fonction de répartition du temps de survie t et 

f(t)=d/dtF(t)f(t)=d/dtF(t), la densité.

La fonction de survie est

S(t)=P(T>t)=1−F(t)S(t)=P(T>t)=1−F(t)

Cette fonction donne la probabilité que le temps de survie soit supérieur à t.

La fonction de risque (en anglais, hazard) est:

h(t)=f(t)/S(t)

où f(t)f(t) est la fonction de densité (pour T continu) ou de masse pour T discret. Dans le cas discret où le temps peut seulement prendre les valeurs 0,1,2,…0,1,2,…, la fonction de risque est donc simplement la probabilité que l’événement survienne au temps t, étant donné qu’il n’était pas survenu avant: P(T=t∣T>t)=P(T=t)/P(T>t)=f(t)/S(t)P(T=t∣T>t)=P(T=t)/P(T>t)=f(t)/S(t); c’est une probabilité conditionnelle.

 Dans le cas général, la fonction de risque est nécessairement positive mais peut prendre des valeurs supérieures à un. On ne peut donc pas, à strictement parler, la voir comme une probabilité et c’est pourquoi on parle plutôt de risque. En fait, cette fonction mesure le risque instantané que l’événement survienne au temps t, étant donné qu’il n’était pas survenu avant.

Cette fonction est importante car il s’agit de celle que nous allons modéliser avec le modèle de régression de Cox. Si, en régression logistique, on modélise le logarithme des cotes, on modélise plutôt la fonction de risque en analyse de survie. Les fonctions de survie et de risque sont intimement reliées et

h(t)=−dln{S(t)}dt, S(t)=exp{−∫h(u)du}

Ainsi, si on connaît la fonction de survie, on peut retrouver la fonction de risque et vice-versa. Par conséquent, un modèle pour la fonction de survie spécifie une fonction de risque (et vice-versa).

Une analyse de survie comporte généralement deux étapes principales :

  1. évaluation de la période d’occurrence avant l’événement analysé ( estimation de la survie de Kaplan-Meier)
  2. modélisation le risque d’occurrence de l’événement analysé ( regression de cox)
Faites appel à un consultant

Vous pouvez commander la visite d’un consultant à votre bureau pour des informations détaillées. Le service est gratuit !

Envoyez votre demande par e-mail: info@labo-siber.com
.