Exercice R débutant
Analyse de données avec dplyr et ggplot2

Ces exercices R débutant avec dplyr et ggplot2 sont conçus pour vous apprendre à manipuler et analyser des données de manière simple et efficace. Vous allez découvrir comment utiliser des librairies essentielles du langage R pour transformer des données, effectuer des calculs et créer des graphiques clairs et professionnels.

Grâce à ces exercices progressifs, vous apprendrez à utiliser dplyr pour manipuler des données et ggplot2 pour les visualiser à partir d’exemples concrets issus du monde professionnel.

Ces exercices R avec corrigé vous permettent de vérifier votre compréhension et de progresser rapidement en analyse de données.

Ces exercices sont idéaux pour les débutants souhaitant apprendre à utiliser les librairies R et développer leurs compétences en data science.

⚠️ Il est fortement conseillé de ne pas consulter la solution avant d’avoir tenté sérieusement de résoudre les exercices par vous-même. Cet effort personnel est essentiel pour renforcer votre compréhension.
Télécharger le script R des exercices débutants (exercices dplyr et ggplot2) ICI.Ouvrez-le dans RStudio afin de reproduire les manipulations et vérifier vos résultats.

Commencez les exercices

Exercice 1

Une petite entreprise souhaite analyser ses ventes sur 25 transactions afin de mieux comprendre ses revenus.

Vous disposez de ce fichier de données R (exercices dplyr et ggplot2) contenant toutes les informations.

  1. Importez le fichier de données dans R
  2. Affichez les premières lignes du tableau
  3. Chargez la librairie dplyr
  4. Calculez le chiffre d’affaires pour chaque ligne (prix * quantite)
  5. Ajoutez cette information dans une nouvelle colonne chiffre_affaires
  6. Calculez le chiffre d’affaires total
  7. Identifiez les ventes réalisées dans la région « Nord »
  8. Réalisez un graphique simple montrant le chiffre d’affaires par produit
Réponse 1

1) importer les données

On attribue le nom ventes au fichier pour faciliter la lecture du code.
Vous pouvez utiliser un autre nom si vous le souhaitez.

ventes <- read.csv(« chemin/vers/le/fichier/donnees-ventes-exercice-r-debutant.csv »)

 2) Affichez les premières lignes du tableau

head(ventes)

3) charger dplyr

Il faut que dplyr soit déjà installer, ensuite :

library(dplyr)

4) calculer le chiffre d’affaires

On crée une nouvelle variable :

chiffre_affaires <- ventes$prix * ventes$quantite

chiffre_affaires

5) Ajouter chiffre d’affaires dans une nouvelle colonne

On crée une nouvelle variable :

ventes$chiffre_affaires <- ventes$prix * ventes$quantite

head(ventes)

6) calculer le chiffre d’affaires total

On obtient le total des ventes :

sum(ventes$chiffre_affaires)

7) filtrer la région Nord

On sélectionne uniquement les ventes du Nord.

ventes %>% filter(region == « Nord »)

8) graphique du chiffre d’affaires par produit

ggplot(ventes, aes(x = produit, y = chiffre_affaires)) +
  geom_bar(stat = « identity ») +
  labs(title = « Chiffre d’affaires par produit »,
       x = « Produit »,
       y = « Chiffre d’affaires »)

Graphique du chiffre d’affaires par produit réalisé avec R et ggplot2
Ce graphique du chiffre d’affaires par produit permet d’identifier rapidement les produits les plus performants à l’aide de ggplot2 dans R.

Exercice 2

Une entreprise analyse ses ventes sur 30 transactions afin de comparer ses performances selon les régions et les produits.

Toutes les informations sont dans ce fichier de données R (exercices dplyr et ggplot2) .

  1. Créez une variable chiffre_affaires
  2. Calculez le chiffre d’affaires total par région
  3. Calculez le chiffre d’affaires moyen par produit
  4. Identifiez la région avec le chiffre d’affaires le plus élevé
  5. Filtrez les transactions dont le chiffre d’affaires est supérieur à 100
  6. Réalisez un graphique comparant le chiffre d’affaires par région
  7. Interprétez les résultats obtenus
Réponse 2

On attribue le nom ventes.region au fichier pour faciliter la lecture du code.
Vous pouvez utiliser un autre nom si vous le souhaitez.

1)créer le chiffre d’affaires

La fonction mutate() permet d’ajouter une nouvelle colonne.

ventes.region <- ventes.region %>%

mutate(chiffre_affaires = prix * quantite)

2) chiffre d’affaires total par région

On regroupe les données par région avec la fonction  group_by ()

ventes.region %>%

group_by(region) %>%

summarise(total_CA = sum(chiffre_affaires))

3)chiffre d’affaires moyen par produit

On regroupe les données par produit avec la fonction group_by ()

ventes.region %>%

group_by(produit) %>%

summarise(moyenne_CA = mean(chiffre_affaires))

4)région avec le CA le plus élevé

On regroupe les données par région avec la fonction  group_by ()

On calcule la somme du CA et on  trie par ordre décroissant avec la fonction arrange()

La première ligne = meilleure région.

ventes.region %>%

group_by(region) %>%

summarise(total_CA = sum(chiffre_affaires)) %>%

arrange(desc(total_CA))

Sud             720← meilleure région.

Ouest        565

Nord          525

Est             445

5) filtrer les ventes > 100

On utilise la fonction filter()

ventes.region %>%

filter(chiffre_affaires > 100)

Voici le résultat

idproduitprixquantiteregioncategoriechiffre_affaires
10A206SudStandard120
14B157SudPromo105
22A206SudStandard120
30C304SudPremium120

6) Graphique CA par région

Graphique du chiffre d’affaires par région réalisé avec R et ggplot2
Ce graphique du chiffre d’affaires par région permet d’identifier les zones les plus performantes et d’analyser les différences de ventes avec ggplot2 dans R.

7)Interprétation

La région Sud est la plus performante en termes de chiffre d’affaires, tandis que la région Est est la moins performante.

L’analyse par région permet de mieux comprendre les différences de ventes.

Ces différences peuvent s’expliquer par :

  • une demande plus forte dans certaines régions
  • une meilleure stratégie commerciale
  • ou une concentration des ventes

 Il est donc important d’analyser les données par région plutôt que de se limiter à un total global.

À retenir 

Dans R, les librairies permettent de manipuler et d’analyser des données plus facilement.

Les fonctions de dplyr simplifient les transformations de données, tandis que ggplot2 permet de créer des graphiques clairs et lisibles.

Gagnez du temps et apprenez mieux !

Des méthodes simples et efficaces, directement dans votre boîte mail.

Nous ne spammons pas ! Consultez notre politique de confidentialité pour plus d’informations.