Exercice R débutant
Analyse de données avec dplyr et ggplot2
Ces exercices R débutant avec dplyr et ggplot2 sont conçus pour vous apprendre à manipuler et analyser des données de manière simple et efficace. Vous allez découvrir comment utiliser des librairies essentielles du langage R pour transformer des données, effectuer des calculs et créer des graphiques clairs et professionnels.
Grâce à ces exercices progressifs, vous apprendrez à utiliser dplyr pour manipuler des données et ggplot2 pour les visualiser à partir d’exemples concrets issus du monde professionnel.
Ces exercices R avec corrigé vous permettent de vérifier votre compréhension et de progresser rapidement en analyse de données.
Ces exercices sont idéaux pour les débutants souhaitant apprendre à utiliser les librairies R et développer leurs compétences en data science.
⚠️ Il est fortement conseillé de ne pas consulter la solution avant d’avoir tenté sérieusement de résoudre les exercices par vous-même. Cet effort personnel est essentiel pour renforcer votre compréhension.
Télécharger le script R des exercices débutants (exercices dplyr et ggplot2) ICI.Ouvrez-le dans RStudio afin de reproduire les manipulations et vérifier vos résultats.
Commencez les exercices
Exercice 1
Une petite entreprise souhaite analyser ses ventes sur 25 transactions afin de mieux comprendre ses revenus.
Vous disposez de ce fichier de données R (exercices dplyr et ggplot2) contenant toutes les informations.
- Importez le fichier de données dans R
- Affichez les premières lignes du tableau
- Chargez la librairie dplyr
- Calculez le chiffre d’affaires pour chaque ligne (prix * quantite)
- Ajoutez cette information dans une nouvelle colonne chiffre_affaires
- Calculez le chiffre d’affaires total
- Identifiez les ventes réalisées dans la région « Nord »
- Réalisez un graphique simple montrant le chiffre d’affaires par produit
Réponse 1
1) importer les données
On attribue le nom ventes au fichier pour faciliter la lecture du code.
Vous pouvez utiliser un autre nom si vous le souhaitez.
ventes <- read.csv(« chemin/vers/le/fichier/donnees-ventes-exercice-r-debutant.csv »)
2) Affichez les premières lignes du tableau
head(ventes)
3) charger dplyr
Il faut que dplyr soit déjà installer, ensuite :
library(dplyr)
4) calculer le chiffre d’affaires
On crée une nouvelle variable :
chiffre_affaires <- ventes$prix * ventes$quantite
chiffre_affaires
5) Ajouter chiffre d’affaires dans une nouvelle colonne
On crée une nouvelle variable :
ventes$chiffre_affaires <- ventes$prix * ventes$quantite
head(ventes)
6) calculer le chiffre d’affaires total
On obtient le total des ventes :
sum(ventes$chiffre_affaires)
7) filtrer la région Nord
On sélectionne uniquement les ventes du Nord.
ventes %>% filter(region == « Nord »)
8) graphique du chiffre d’affaires par produit
ggplot(ventes, aes(x = produit, y = chiffre_affaires)) +
geom_bar(stat = « identity ») +
labs(title = « Chiffre d’affaires par produit »,
x = « Produit »,
y = « Chiffre d’affaires »)

Exercice 2
Une entreprise analyse ses ventes sur 30 transactions afin de comparer ses performances selon les régions et les produits.
Toutes les informations sont dans ce fichier de données R (exercices dplyr et ggplot2) .
- Créez une variable chiffre_affaires
- Calculez le chiffre d’affaires total par région
- Calculez le chiffre d’affaires moyen par produit
- Identifiez la région avec le chiffre d’affaires le plus élevé
- Filtrez les transactions dont le chiffre d’affaires est supérieur à 100
- Réalisez un graphique comparant le chiffre d’affaires par région
- Interprétez les résultats obtenus
Réponse 2
On attribue le nom ventes.region au fichier pour faciliter la lecture du code.
Vous pouvez utiliser un autre nom si vous le souhaitez.
1)créer le chiffre d’affaires
La fonction mutate() permet d’ajouter une nouvelle colonne.
ventes.region <- ventes.region %>%
mutate(chiffre_affaires = prix * quantite)
2) chiffre d’affaires total par région
On regroupe les données par région avec la fonction group_by ()
ventes.region %>%
group_by(region) %>%
summarise(total_CA = sum(chiffre_affaires))
3)chiffre d’affaires moyen par produit
On regroupe les données par produit avec la fonction group_by ()
ventes.region %>%
group_by(produit) %>%
summarise(moyenne_CA = mean(chiffre_affaires))
4)région avec le CA le plus élevé
On regroupe les données par région avec la fonction group_by ()
On calcule la somme du CA et on trie par ordre décroissant avec la fonction arrange()
La première ligne = meilleure région.
ventes.region %>%
group_by(region) %>%
summarise(total_CA = sum(chiffre_affaires)) %>%
arrange(desc(total_CA))
Sud 720← meilleure région.
Ouest 565
Nord 525
Est 445
5) filtrer les ventes > 100
On utilise la fonction filter()
ventes.region %>%
filter(chiffre_affaires > 100)
Voici le résultat
| id | produit | prix | quantite | region | categorie | chiffre_affaires |
| 10 | A | 20 | 6 | Sud | Standard | 120 |
| 14 | B | 15 | 7 | Sud | Promo | 105 |
| 22 | A | 20 | 6 | Sud | Standard | 120 |
| 30 | C | 30 | 4 | Sud | Premium | 120 |
6) Graphique CA par région

7)Interprétation
La région Sud est la plus performante en termes de chiffre d’affaires, tandis que la région Est est la moins performante.
L’analyse par région permet de mieux comprendre les différences de ventes.
Ces différences peuvent s’expliquer par :
- une demande plus forte dans certaines régions
- une meilleure stratégie commerciale
- ou une concentration des ventes
Il est donc important d’analyser les données par région plutôt que de se limiter à un total global.
À retenir
Dans R, les librairies permettent de manipuler et d’analyser des données plus facilement.
Les fonctions de dplyr simplifient les transformations de données, tandis que ggplot2 permet de créer des graphiques clairs et lisibles.