Download as pdf or txt
Download as pdf or txt
You are on page 1of 3

Ecole

Nationale Supérieure des Mines de Rabat


ème
3 année Management Industriel

Atelier : Tarification

Vérifier l’installation de RStudio.

La base des données « basetarrification » contient 19 variables dont la description de


chaque variable est la suivante :

1 Age du conducteur agecond 11 date de fin d'image fin_imag


2 ancienneté de permis permis 12 nombre d'années-police nap
3 sexe du conducteur sex 13 nombre de sinistres responsables dans les 4 sinap1
années précédant l'image
4 statut matrimonial statut 14 nombre de sinistres non responsables dans les sinap2
4 années précédant l'image
5 catégorie socio-professionnelle csp 15 nombre de sinistre parking dans les 4 années sinap3
précédant l'image
6 usage du véhicule usage 16 Nombre de sinistres incendie/vol dans les 4 sinap4
années précédant l'image
7 option kilométrage limité k8000 17 nombre de sinistres bris de glace dans les 4 sinap5
années précédant l'image
8 zone géographique zone 18 nombre de mises en demeure dans les 4 sinap6
années précédant l'image
9 coefficient de réduction RM 19 charge de sinistres charge
majoration (bonus/malus)
10 date de début d'image deb_imag

Lecture le fichier basetarrification.xls sous RStudio à partir de file -->Import Dataset --


>From Excel en utilisant les commandes suivantes :

read.table %lire le fichier


View %affichage des données
Attach % pour avoir accès aux données

Statistiques Descriptive

Analyse univarié : caractéristiques des variables

Pour afficher l’effectif en utilise la fonction table () ; pour diagramme circulaire pie() ;
histogramme hist(), diagramme en bâtons barplot()

1. Déterminer les variables qui caractérise le conducteur


1.1. Afficher les effectifs des modalités de chaque variable
1.2. Afficher les graphiques associés
1.3. Déterminer les indicateurs de tendance et de dispersion
2. Déterminer les variables qui caractérise Véhicule
2.1. Afficher les effectifs des modalités de chaque variable

I.MEDARHRI
Ecole Nationale Supérieure des Mines de Rabat


2.2. Afficher les graphiques associés
2.3. Déterminer les indicateurs de tendance et de dispersion

Analyse bivarié : corrélation entre les variables

3. Déterminer les variables qui ont une forte corrélation


Cor() %permet d’afficher la matrice de corrélation
Rbind() %fusionne des vecteurs en respectant même nombre des colonne
cbind() %fusionne des vecteurs en respectant même nombre des ligne
Installer le package pour utiliser ACP
install.packages(c("FactoMineR", "factoextra"))
Télécharger les librairies library("FactoMineR") et library("factoextra")
PCA()
get_pca_var()
head()

Modélisation du nombre de sinistre

On le nombre de sinistre dépend des variables Usage,âge, ZONE, SEX, STATUT

NombreDeSinistre=f(Usage,âge,ZONE,SEX,STATUT)

Pour la variable SINAP1, en utilisera

Ø Loi poisson

Ø Binomial négative glm.nb()

install.packages("MASS")
require(foreign)
> require(ggplot2)
> require(MASS)

4. Discrétiser la variable âge conducteur par classes


Ø Breaksage = c(min(AGECOND),29, 39, 49,70, max(AGECOND))
Ø age.d = cut(AGECOND, breaks = Breaksage, include.lowest =
TRUE)
Ø summary(age.d)
Ø cbin(sinistre ,age.d)

5. Construire le modèle pour modéliser le nombre de sinistre


Modèle 1 : avec la loi de poisson :

model1=glm(SINAP1~SEX+as.factor(ZONE)+STATUT+sinistre$AGECON
D+as.factor(USAGE),family = poisson)
> AIC(model1)

Modèle 2 : avec la loi de poisson et la variable âge conducteur discrétisé


Et après avec binomiale négative

I.MEDARHRI
Ecole Nationale Supérieure des Mines de Rabat


model3=glm.nb(SINAP1~SEX+as.factor(ZONE)+STATUT+as.factor(AGEC
OND)+as.factor(USAGE),data=sinistre)

6. Comparer les modèles en calculant AIC


Le critère d'information d'Akaike,) est une mesure de la qualité d'un modèle
statistique.
Lorsque l'on estime un modèle statistique, il est possible d'augmenter
la vraisemblance du modèle en ajoutant un paramètre. Le critère d'information
d'Akaike, tout comme le critère d'information bayésien, permet de pénaliser
les modèles en fonction du nombre de paramètres afin de satisfaire le critère
de parcimonie. On choisit alors le modèle avec le critère d'information
d'Akaike le plus faible1.

Modélisation du coût de sinistre

Les deux modèles les plus classiques permettant de modéliser les coûts individuels de
sinistre sont :
Ø le modèle Gamma sur les coûts individuels Yi
Ø le modèle log-normal sur les coûts individuels Yi, ou plutôt un modèle Gaussien sur le
logarithme des coûts, log(Yi), la loi logNormale n'appartenant pas à la famille
exponentielle.
7. Comparer des modèles
- Modèle Gamma

- Modèle Gamma avec Age discrétiser

- Modèle log-normal

- Modèle log-normal avec Age discrétiser

8. Conclure

I.MEDARHRI

You might also like