Objectifs : Apprendre à utiliser le logiciel R pour analyser des données.
Mettre en oeuvre dans R les méthodes de statistique descriptive et décisionnelle (faire les tests statistiques).
Public : Toute personne souhaitant analyser des données avec R
Modalité : formation présentielle
Logiciels : R et RStudio
Validation : évaluation du stagiaire, attestation de suivi de stage
Pré-requis : Pour suivre ce stage dans de bonnes conditions, il est recommandé d'avoir suivi en amont la formation R-statistiques basiques
Méthode : Pédagogie active mêlant exposés, exercices et applications pratiques dans le logiciel R.
Durée: 3-6 jours
Niveau: Intermediaire
Moyens: Un ordinateur par stagiaire, des travaux pratiques proposés pendant la formation
Pédagogie: 15% de théorie, 85% de pratique
Programme
- Statistiques descriptives
- Gestion d’un jeu de données - dataframe
Importation, caractérisation, sélection, sous-ensembles
- Premières analyses d’un jeu de données
Premières vérifications, valeurs manquantes, recodage
- Résumé d’une variable quantitative – numeric
Indicateurs numériques, représentations graphiques
- Résumé d’une variable qualitative – factor
Indicateurs numériques, représentations graphiques
- Intervalle de confiance
- Le raisonnement à partir d’un échantillon
Généralités, échantillonnage, estimation d’un paramètre
- Intervalle de confiance d’une moyenne
- Intervalle de confiance d’une proportion
- Intervalle de confiance d’une variance
- Tests d’hypothèses
- Qu’est-ce qu’un test d’hypothèse ?
Généralités, règle de décision, risques d’erreur, puissance
- Les tests de conformité ou de comparaison à une norme
Conformité d’une moyenne, d’une proportion
- Les tests de comparaison de deux populations
Comparaison de deux moyennes, de deux proportions
- Test d’ajustement à une loi de probabilité normale
Le test de Shapiro-Wilk
- Introduction aux tests non paramétriques
Test de Wilcoxon, Mann et Whitney, Kruskal Wallis, Friedman
- Liaisons entre deux variables
- Liaison entre deux variables quantitatives
Nuage de points, intensité de la liaison, significativité
- Liaison entre deux variables qualitatives
Tableau de contingence, intensité et significativité du lien de dépendance : test du khi2
- Liaison entre une variable qualitative et quantitative
Comparaison de plusieurs populations, le rapport de corrélation
- Liaisons entre plusieurs variables
Approches graphiques : matrice de nuages de points, treillis
Caractériser des sous-populations par plusieurs variables
- L’analyse de la variance – Anova
- Analyse de la variance à un facteur
Variabilité inter, intra, totale – Rapport de corrélation - Le test de Fisher
- Comparaisons multiples de moyennes
Analyses post hoc, la procédure de Tukey
- Analyse de la variance à deux facteurs et interaction
- Extensions de l’Anova
Modèle à effet fixe ou aléatoire, modèle hiérarchisé
- Régression linéaire simple
- De la corrélation à la régression
L’intérêt d’un modèle - Variables à expliquer, explicatives, erreur
- La régression linéaire simple