-
Notifications
You must be signed in to change notification settings - Fork 3
/
Copy pathA gentle introduction to exploring and understanding your data
373 lines (216 loc) · 28.9 KB
/
A gentle introduction to exploring and understanding your data
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
Ce cours a été créé pour l'École des Données par le collectif Tactical Technology. Tactical Tech est une ONG internationale travaillant là où la défense des droits rencontre l'information et la technologie. Ce cours repose sur le cours précédent de Tactical Tech pour l'École des Données, A Gentle Introduction to Cleaning Data.
Table des matières
Introduction
Section 1: Commencer
Section 2: Rendre un tableau croisé dynamique plus utile en ajoutant des «champs de données»
Section 3: Ajouter des colonnes aux tableaux croisés dynamiques
Section 4: Ajouter des graphiques aux tableaux croisés dynamiques
Introduction
2 + 2 = ___
Votre résistance à répondre à cette question est futile: vous y avez probablement répondu sans même y penser.
Nous doutons qu'il soit sujet à controverse de dire que beaucoup des personnes suivant ce cours ont l'instinct et le besoin de connaître la somme d'une colonne de nombres, ou comment les nombres sont répartis dans les différentes catégories dans le jeu de données que vous étudiez. Les feuilles de calcul simplifient ce genre d'analyse descriptive en vous donnant un kit de fonctions mathématiques pour additionner, soustraire, multiplier, diviser et créer des moyennes et des pourcentages à partir de nombres. Nous pensons que vous savez comment utiliser certaines de ces fonctions, mais si vous souhaitez remettre vos connaissances à niveau, parcourez le cours fondamental sur l'analyse de données.
Néanmoins, les feuilles de calcul ont un autre puissant outil d'analyse descriptive appelé les tableaux croisés dynamiques. Pour résumer, voici ce qu'ils font:
http://farm9.staticflickr.com/8114/8651881402_8622b4d4a1_o_d.png
Image: “Plus de chatons”, fourni par Hitchster. Certains droits réservés: CC-BY 2.0. Adapté par Tactical Tech.
Les tableaux croisés dynamiques résument des jeux de données complets sans vous demander d'écrire des formules, créer de nouvelles colonnes, ou arranger vos données d'une façon particulière. Ils vous permettent de combiner des données de façons qui révèlent les relations existant dans les données et vous les montrent sous un nouveau jour. Ils ne changent pas vos données, mais ont un tas de fonctions intégrées utiles dont l'utilisation efficace vous épargnera beaucoup de tâches répétitives et vous feront gagner du temps.
Une combinaison de fonctions de tableur − comme trier et filtrer et quelques formules − fonctionne comme les tableaux croisés dynamiques dans le sens où elles vous permettent de réarranger et sortir de petits morceaux de données plus facilement. Les tableaux croisés dynamiques font ces choses pour les jeux de données complets et vous les présentent pour que vous voyiez tout.
En suivant ce cours, vous aller:
- comprendre les bases des tableaux croisés dynamiques et leur fonctionnement;
- créer environt 20 exemples différents de tableaux croisés dynamiques;
- être capable de construire et adapter la disposition des tableaux croisés dynamiques;
- être capable d'utiliser les tableaux croisés dynamiques pour examiner et explorer un jeu de données.
Prérequis pour le cours
La gentille introduction à l'exploration et à la compréhension de vos données se base sur deux autres cours de l'école des données:
1. Fondamentaux sur les données, qui couvre les bases des données et comment travailler avec un tableur;
2. Une gentille introduction au nettoyage de données, qui observe les quatre façons les plus courantes pour les données de devenir désorganisées et sales, et aborde leur résolution pratique grâce à un tableur.
Pour suivre ce cours, vous aurez besoin des choses suivantes:
1. Une version à jour du logiciel libre et ouvert LibreOffice installé sur votre ordinateur. Nous supposons que vous savez comment faire cela. Nous avons choisi d'utiliser LibreOffice parce qu'il ne coûte rien (contrairement à Microsoft Excel), n'envahit pas systématiquement votre vie privée et ne nécessite pas une connexion permanente et rapide à internet (contrairement à Google Spreadsheet).
2. une copie de l'exemple de jeu de données pour ce cours, qui est un petit jeu de données concernant les étagères de la cuisine de l'auteur. Durant le cours, nous l'utiliserons pour montrer les bases des tableaux croisés dynamiques.
3. une copie des données GRAIN sur l'appropriation de terrain. Ce jeu de données est typique de ceux que les organisations non gouvernementales (ONG) peuvent créer et utiliser. Nous l'avons utilisé précédemment comme exemple dans notre cours sur le nettoyage des données. Deux feuilles de calcul composent le document: les données «sales» d'origine et la version «nettoyée». Nous travaillerons avec la version nettoyée.
Contenu du cours
Ce cours est composé de quatre sections.
- La section 1 couvre les premières étapes de la création d'un tableau croisé dynamique, montrant ce qu'il arrive à vos données lorsqu'elles sont ajoutées à un champ colonne dans un tableau croisé dynamique.
- Dans la section 2, nous regardons comment rendre un tableau croisé dynamique encore plus efficace en ajoutant des «champs de données».
- L'ajout de champs de colonne est abordé dans la section 3.
- Pour terminer le cours, la section 4 montre comment créer des graphiques à partir des données des tableaux croisés dynamiques pour ajouter un aspect visuel à votre compréhension des données.
Chaque section contient trois parties:
- Un exercice rapide qui utilise un jeu de données concernant une étagère de cuisine pour illustrer le concept des tableaux croisés dynamiques.
- Un exercice plus long utilisant un jeu de données sur la vente massive de terres agricoles dans les pays en développement. Cette partie va plus profondément dans la création de tableaux croisés dynamiques, avec d'autres problèmes qui vous aideront à mettre vos nouvelles compétences en pratique.
- Un bonus qui explique comment les tableaux croisés dynamiques peuvent être liés aux autres fonctionnalités utiles d'un tableur.
Comment suivre ce cours.
Ce cours est relativement court. Nous vous suggérons de travailler sur les sections 1 à 4 d'une traite, car les dernières sections n'auront pas beaucoup de sens traitées séparément.
Section 1: Commencer
Assurez-vous d'avoir une copie des exemples de jeux de données et ouvrez jeu de données GRAIN sur l'appropriation de terrain dans LibreOffice.
Une tâche rapide
Regardez l'exemple de jeu de données sur la sélection de snacks dans les étagères de la cuisine de l'auteur. Il y a des données sur leurs ingrédients principaux, la quantité et les risques qu'ils posent à la santé de l'auteur:
http://farm9.staticflickr.com/8528/8650783189_8c39e83f5a_o_d.png
Commencez par construire un tableau croisé dynamique à partir des données des feuilles de calcul:
1. Sélectionnez toutes les données. Vous pouvez le faire en sélectionnant la cellule A1 et en glissant la souris jusqu'à la cellule D9, ou en pressant Ctrl-A (Cmd-A sur les ordinateurs Apple).
2. Avec les données sélectionnées, choisissez Données → Tableau croisé dynamique → Créer à partir de la feuille de calcul dans me menu du haut. Une fenêtre apparaîtra pour demander si vous souhaitez utiliser la «sélection courante». Choisissez OK.
3. Comme illustré ci-dessous, vous verrez quelques zones grises dont les en-têtes correspondent à vos données brutes.
4. Pivotons-les, c'est-à-dire, changeons une colonne en ligne. Sélectionnez et maintenez la zone étiquettée Snack et glissez-la dans la zone blanche appelée Row Field, tel qu'illustré ci-dessous:
http://farm9.staticflickr.com/8259/8650783239_013f6acaf3_b_d.jpg
5. Cliquez sur OK. Une nouvelle feuille de calcul sera créée et que vous verrez dans les onglets en bas du tableur. Ci-dessous, les données qu'il contiendra:
http://farm9.staticflickr.com/8404/8651881512_d5de55d642_o_d.png
Alors, qu'est-il arrivé aux données?
Dans les données d'origines, «Biscuit» est mentionné trois fois: le tableau croisé dynamique ne le montre qu'une seule fois. «Sandwich» est mentionné deux fois: le tableau croisé dynamique ne le montre qu'une seule fois. Et ainsi de suite. Le tableau croisé dynamique a regroupé et résumé les données de la colonne Snack de vos données brutes. Il répond à la question du nombre de types de snacks différents présents dans les données.
Les tableaux croisés dynamiques peuvent être créés avec plus d'un champ ligne. À partir du jeu de données d'exemple, choisissons une autre ligne de données à ajouter:
1. Dans le tableau croisé que vous avez créé se trouve un menu secondaire. Il peut être activé avec un clic droit de votre souris (ou un coup à deux doigts sur le keypad des ordinateurs Apple) n'importe où sur le tableau. Cela ressemblera à ceci:
http://farm9.staticflickr.com/8254/8651881506_4358fa812e_o_d.png
2. Choisissez Modifier le layout. Cela ouvrira à nouveau l'éditeur de tableau croisé. Cette fois-ci, glisser Ingredient dans la zone de champs ligne puis cliquez sur OK. Les données produites par le tableau sont maintenant différentes:
http://farm9.staticflickr.com/8405/8651881524_aca9fa03a0_o_d.png
Que s'est-il produit? Comme précédemment, le tableau croisé dynamique a également groupé et résumé les données concernant les 'Ingredients'. Ce qu'il y a de bien est qu'il a groupé les données sur les ingrédients pour les montrer pour chaque type de snack. Nous pouvons retourner cela pour avoir une autre vue, de la perspective des ingrédients et non depuis celle des friandises.
Pour cela, modifiez à nouveau le layout de tableau croisé (clic droit sur le tableau), réordonnez les tuiles apparaissant en tant que champs de ligne (comme montré ci-dessous) pour placer 'Ingredients' en haut.
http://farm9.staticflickr.com/8546/8650783267_cda9dc955d_o_d.png
Choisissez OK pour recréer le tableau croisé avec la nouvelle organisation. Voici à quoi les données vont ressembler:
http://farm9.staticflickr.com/8249/8650783409_2779f16f42_o_d.png
Dans ce tableau croisé, les groupes de valeurs sont arrangés différemment. Plutôt que montrer les ingrédients présents dans chaque friandise, il montre les types de snack contenant un ingrédient particulier.
Vous avez compris? Essayons d'appliquer cela sur un jeu de données plus grand où nous pouvons voir les valeurs d'un tableau croisé de façon plus flagrante.
Une tâche plus longue
Essayons la même technique sur le plus grand jeu de données GRAIN sur l'appropriation commerciale de terrain, une version nettoyée que vous pouvez télécharger depuis le Datahub.
Prenez le temps de vous familiariser avec ce jeu de données. Un bonne (mais plus longue) façon de faire est de suivre le cours de l'école des données appelé A Gentle Introduction to Cleaning Data, qui utilise également ce jeu de données comme base.
Si vous n'en avez pas le temps, les bases de ce jeu de données sont les suivantes:
- le jeu de données a été produit par GRAIN, une organisation de recherche et de promotion (advocacy) qui travaille pour soutenir la biodiversité et les systèmes de nourriture durables et contrôlés par la communauté;
- chaque ligne du jeu de données contient des détails concernant la vente d'un très grand nombse de terres agricoles dans un pays, souvent dans un pays du sud;
- les colonnes contiennent des données concernant les noms des investisseurs et les pays où ils sont basés, le pays où la vente des terres a eu lieu, la taille des terres, la quantité d'argent investie pour acheter la parcelle et si la vente s'est faite.
Pour créer un tableau croisé du jeu de données GRAIN, les étapes sont les mêmes:
1. Sélectionnez le jeu de données complet (de la cellule A1 à la I417). N'oubliez pas que les données non sélectionnées ne seront pas incluses dans le tableau.
2. Dans le menu du haut, sélectionnez Données → Tableau croisé dynamique → Créer.
3. Dans le fenêtre qui apparaît, choisissez "Sélection courante" et cliquez sur "OK".
4. Choisissez le layout de votre tableau croisé en déplaçant les "tuiles" représentant les différentes colonnes de données dans différentes parties du layout du tableau.
5. Lorsque vous êtes satisfait, sélectionnez "OK" pour créer le tableau.
6. Si vous voulez changer l'organisation du tableau croisé, faites un clic droit sur le tableau pour afficher un menu secondaire et sélectionnez "Modifier l'organisation".
Le jeu de données GRAIN a neuf colonnes de données. Dans cette leçon, nous allons juste ajouter différentes combinaisons de champs dans les champs de lignes du tableau croisé pour répondre à des questions spécifiques.
Nous allons traverser une des questions pour vous faire commencer: "Dans quels pays des terres ont-elles été acquises?"
1. Les données qu'il vous faut pour répondre à cela sont dans la colonne A, appelée "Landgrabbed"
2. Sélectionnez tout le jeu de données. Allez dans Données → Tableau croisé dynamiques → Créer.
3. Choisissez "Sélection actuelle" et la fenêtre de structure vide va apparaître, telle que ci-dessous:
http://farm9.staticflickr.com/8264/8651881598_507370689f_b_d.jpg
4. Ah ah! Comme vous pouvez le voir, deux tuiles portent le même nom. Cela vient du fait que deux colonnes sont très similaires − "LandgrabbeD" et "LandgrabbeR" − et la structure du tableau croisé dynamique tronque les noms. Faites passer votre souris sur les tuiles pour révéler le nom complet de la colonne de données que vous souhaitez ajouter, comme ci-dessous:
http://farm9.staticflickr.com/8262/8650783349_4a70be6197_o_d.png
5. Maintenant que vous savez quelle tuile contient les bonnes données, glissez "Landgrabbed" dans la zone des champs de colonne et cliquez sur OK pour créer le tableau:
http://farm9.staticflickr.com/8528/8650783423_9e1dc2f9a0_b_d.jpg
6. Les données dans ce tableau croisé dynamique comme ci-dessous, une liste de pays:
http://farm9.staticflickr.com/8264/8651881642_5b064291ed_o_d.png
Nous pouvons maintenant travailler sur cette liste pour améliorer notre compréhension de ce qui se trouve dans le jeu de données. Par exemple, en modifiant la structure et en déplaçant la tuile appelée "Landgrabber" dans la zone des champs colonnes, nous pouvons répondre à cette question: "Quelles sociétés ont acquis des terres dans quels pays?"
1. Voici à quoi la structure du tableau devrait ressembler:
http://farm9.staticflickr.com/8252/8651881694_ab1b3b1853_b_d.jpg
2. Après avoir cliqué sur "OK", voici les quelques premières colonnes de données que vous aurez dans le tableau croisé dynamique:
http://farm9.staticflickr.com/8109/8651881792_32af36febd_o_d.png
3. Pour plus de points, essayez d'inverser l'ordre des tuiles et de créer un tableau à partir de cette organisation. Ce tableau vous montrera les mêmes données, mais arrangées autour de l'investisseur (le "Landgrabber") plutôt que du pays où un terrain a été acquis. Voici un morceau des données que vous obtiendrez de cette organisation:
http://farm9.staticflickr.com/8543/8650783527_d90b0bb1e6_o_d.png
Maintenant que vous êtes un expert, voici quelques autres questions auxquelles vous pouvez répondre en ajoutant des données dans le champ Colonne d'un tableau croisé dynamique. Essayez celles-ci:
1. Dans quels pays les investisseurs sont-ils basés (leur base)?
2. Dans quels pays les investisseurs sont-ils basés et où ont-ils acquis des terrains?
3. Quels investisseurs travaillent dans quels secteurs?
4. Quels investisseurs travaillent dans quels secteurs et comment ont-ils utilisé les terrains qu'ils ont acquis? Indice: les données sur l'utilisation d'un terrain sont dans la colonne appelée "Production".
5. Quelles sociétés travaillent dans quels secteurs, décomposé par pays où elles sont basées?
6. Quels sont les noms des investisseurs ayant fait des acquisitions de terrain de taille similaire et dans quels pays ont-ils fait ces acquisitions?
7. À quoi ont été utilisés les terrains de taille similaire, dans quel pays et quel était le statut de la transaction?
Fonctionnalité bonus: tri et filtre automatique
Là où vous voyez un triangle orienté vers le bas dans la ligne du haut d'un tableau croisé, cliquez pour activer les fonctionnalités de tri et de filtre automatique du tableur. Cliquez dessus pour faire apparaître l'interface et jouez avec pour voir comment cela affecte les données dans le tableau.
Section 2: Make a pivot table even more useful by adding ‘data fields’
In Section 1 we tried out building sorted and grouped lists that can use your data to answer questions. But what else can a pivot table do? In this section we’ll look at how the ‘Data Field’ part of the pivot table works.
A quick task
Build a pivot table of the different types of snack again, as outlined in Section 1 above. This time however, we’ll add in a “Data Field” that will calculate how many of each type of snack there are:
1. Your pivot table layout should look like the image below:
http://farm9.staticflickr.com/8522/8650783577_b64b706933_b_d.jpg
2. After creating this pivot table, the data you get will look like this:
http://farm9.staticflickr.com/8263/8650783579_7b37cd0f45_o_d.png
So, what’s happened?
The pivot table has grouped and summarised the data on the types of snacks, which you put into a Row Field. The data on the quantity of snacks – which you put in the Data Field – has been added up to create a total for each type of snack. Neat, huh? Let’s add in another Row Field, just as we did in Section 1, and see what it tells us:
1. Bring up the secondary menu by right clicking on the pivot table, and select ‘edit layout’.
2. Change the pivot table layout so it looks like the screenshot below:
http://farm9.staticflickr.com/8263/8650783605_68b4b3af7c_b_d.jpg
3. The data shown will change again. This time, the types of snack are sub-grouped by the sort of ingredient, along with the quantities:
http://farm9.staticflickr.com/8393/8650783633_8cd805bc48_o_d.png
A longer task
We can apply the same steps to the GRAIN dataset on landgrabbing to create more useful summary views of the data. For example, let’s find out how much land was reported as being acquired in each country:
1.We won’t repeat in full the steps required to create a pivot table, but will show you the layout:
http://farm9.staticflickr.com/8100/8651881912_e6857dcf86_b_d.jpg
Note: in the image above, the tile in Row Fields is ‘Landgrabbed’. As noted above, the layout editor shortens it in an annoying manner. Hover your mouse over it to show the full fieldname.
2. The effect is the same as with the example above in the short task. The data in the Row Field is summarised and grouped to show a list of countries, without duplicates. The data in the Data Field has been added up to give a total figure for each country. Here are some sample rows of what this pivot table will produce:
http://farm9.staticflickr.com/8111/8651881924_f5f2fe488a_o_d.png
As before, we can continue to ask questions of the data by adding in different Row Fields. The data above shows the amount of land acquired in each country. Add in ‘Status of deal’ as a row field to refine this picture even further and show which deals are done, in process, proposed and so on.
1. Again, here’s the layout of the pivot table:
http://farm9.staticflickr.com/8537/8651882012_9688445f9f_b_d.jpg
2. After creating the pivot table from the layout above, here are a few rows of the data it will generate for you:
http://farm9.staticflickr.com/8520/8651881972_0094e4665e_o_d.png
Using your knowledge of choosing Row Fields, and now adding Data Fields, try creating pivot tables which show the following:
1. a little profile for each investor, showing the countries where they have acquired land, and the size of the land area they have acquired e.g. a pivot table that shows Adecoagro reportedly made deals in Argentina for 242000 ha, Brazil for 165000 ha and Uruguay for 8600 ha.
2. The total amount that that each investor has invested to acquire land e.g. this pivot table should show that Saxonian Estates reportedly made investments totalling USD 7.7 million.
3. The amount of land that has been acquired, organised by investment sector e.g. this pivot table will show that 160,000 ha have been acquired by investors that work in the telecommunications sector.
4. The amount of investment made, organised by the size of the land acquired, showing the country where the land was acquired e.g. the pivot table you make here should be able to quickly show us that land deals of 6000 ha were made in Australia for USD 335 million, in Russia for USD 39 million and in Nigeria where there is no record of the amount invested.
Bonus features: change which aspects of data are shown
The fields that you add to pivot tables have two useful features you should know about. We’ll provide a workthrough below, but here’s an overview:
1. The data that we have positioned in the Data Field of the pivot table is often just added up – that is, where there are multiple values they are added together to show the “sum”. However, the pivot table can show this data differently by:
picking out the highest (the “max”) or lowest (the “min”) values from a list.
giving a total of the number of values (the “count”).
calculating the data as a percentage or running total.
This feature is activated by double-clicking on any tile that you’ve dragged into any area of the pivot table layout editor.
2. As with the Row Fields, you can have more than one data field in a pivot table. This means you can display different aspects of the same data next to each other. To use it, just drag another fieldname into the Data Fields area.
Here’s an example pivot table layout that demonstrates both these features.
1. This is the layout you’re aiming for:
http://farm9.staticflickr.com/8519/8650783759_25799b909b_b_d.jpg
2. To get there, build your pivot table as usual. This time drag ‘Hectares’ into the Data Fields four times. You’ll see this:
http://farm9.staticflickr.com/8120/8650783763_950020dd67_o_d.png
3. Next, change the way that the data are displayed. To do this, double click on one of the tiles you’ve dragged into Data Fields . A pop-up window will appear, like the one below:
http://farm9.staticflickr.com/8105/8651882022_4def49f6ca_o_d.png
4. Choose an option from the list, then select OK.
5. When you’ve done all four, the tiles in the Data Fields part of the layout will look like this below:
http://farm9.staticflickr.com/8105/8650783783_b21f9dea9b_o_d.png
6. After you’ve completed your layout, create the pivot table.
7. This pivot table will show four pieces of data for each country where land has been acquired: the number (or ‘count’) of deals where the amount of land is recorded, the largest acquisition (‘max’), the smallest acquisition (‘min’) and the total amount of land (‘sum’). Here’s a clipping from the pivot table which shows the entry for Argentina:
http://farm9.staticflickr.com/8536/8650783799_e5f073b57f_o_d.png
Section 3: Adding columns to pivot tables
In the previous sections, we looked at how to add row fields and data fields to your pivot tables. We also looked at how to sort and filter data in pivot tables, and how to adapt the display of data to pick out the largest and smallest values in a list. In this section, we’ll add the final basic component: Column Fields.
A quick task
After building nearly 30 pivot tables in this course, we’re sure you’re now getting the hang of this. The next step is to choose the data that can be a Column Field in your pivot table.
1. Take as a starting point the pivot table you made about snacks in Section 2. Edit the layout. This time, drag the tile labelled ‘Risk to Health’ into the Column Fields area. It will look like this:
http://farm9.staticflickr.com/8240/8650783997_2349e16a88_b_d.jpg
2. After creating the pivot table, below is how the data in it will look with the new columns added:
http://farm9.staticflickr.com/8258/8651882116_19373fb432_o_d.png
The effect of adding the Column Field is to further sub-group the data. Here’s the original pivot table from Section 2, so you can see the difference:
http://farm9.staticflickr.com/8249/8650783891_95e27f9b02_o_d.png
The version that includes columns enables you to see at a glance which the high risk snacks are, what they are made of, and how many of them there are. Better avoid chocolate biscuits and cream cake!
A longer task
Returning to the GRAIN dataset, we can see how adding this final dimension affects how the data is shown.
1. Create a basic pivot table which shows how much land (‘Hectares’) has been acquired in each country (‘Landgrabbed’).
2. This time include the ‘Status of deal’ field in the Column Fields area of the pivot table layout editor:
http://farm9.staticflickr.com/8249/8650783917_025a6c59e8_b_d.jpg
The effect should be quite predictable for you by now. The pivot table will give an overview of the total amounts of land acquired for each country, broken down by the status of the deal:
http://farm9.staticflickr.com/8241/8651882184_aa92a7a4ce_b_d.jpg
The ‘Status of deal’ field is a fairly convenient field to add to the Column Fields area. When summarised by the pivot table it has only five distinct categories. This means it fits easily into the screen area! Something like ‘Production’, which has over 100 categories, would not be as easy to view.
Have a go at changing the layout of the pivot table whilst keeping ‘Status of deal’ as a column:
1. Replace the tile in the Row Fields with ‘Landgrabber’ (ie. the investor) and change the tile in Data Fields to ‘Projected Investment’ (ie. the amount paid for land). This shows how much money investors have tied up in done deals, deals that are signed, proposed and so on.
2. Replace the Row Fields with ‘Sector’ and the Data Fields with a count of the number of investors. We covered how to do this in Section 2’s Bonus Feature section. This pivot table will show the number and status of deals by the sector that the investor is most associated with.
Bonus features: standard filters
As we noted in Section 1, the sort and filter features of the spreadsheet work in pivot tables. Another useful feature that operates in pivot table data is the standard filter. We can use this to exercise far more control over what data is displayed in a worksheet, and in pivot tables. Let’s see how it works.
1. Create this pivot table from the GRAIN data. It has ‘Landgrabbed’ and ‘Landgrabber’ as the Row Fields, ‘Status of deal’ as a Column Field, and a sum of the total size of deals (‘Hectares’) as the Data Fields:
http://farm9.staticflickr.com/8531/8650783981_1a48a58842_b_d.jpg
2. Click OK. The data it produces will be like this:
http://farm9.staticflickr.com/8246/8650784015_fd8e793109_b_d.jpg
3. In the resulting pivot table click on the tile called ‘Filter’ in cell A1. The Filter Criteria window will pop-up.
4. Change the fields to make them look the same as the below. Then click ‘OK’ to apply this filter to the pivot table:
http://farm9.staticflickr.com/8117/8651882252_5eebe5a07a_b_d.jpg
5. This will filter the data to show only those deals that are equal to or larger than (>= in mathematical notation) 100,000 ha.
6. The filter can be removed by opening the Filter Criteria window and selecting ‘none’ in the field name drop-down menu.
Section 4: Adding charts to pivot tables
You can chart data that is produced from a pivot table. Having both a summary of the data, and a chart is a way of further exploring and coming to an understanding of the data you have. Using the GRAIN data, here’s a simple example of how it works.
Once again, create a basic pivot table which shows the amount of land purchased in each country: drag ‘Landgrabbed’ into the Row Fields and ‘Hectares’ into the Data Fields. Here’s a sample of how the data will appear:
http://farm9.staticflickr.com/8525/8650784073_49f0d4076d_o_d.png
First, sort the data so the largest land deal is at the top of the list:
1. Select cells B4 to A69 (in that order).
2. Click the “Sort Descending” button in the spreadsheet toolbar (it’s a little ‘up’ arrow).
Second, add a chart:
1. The data should still be selected from when you filtered it.
2. In the top menu, go to Insert → Chart
3. The Chart Wizard window will pop-up. The chart it will choose is a Vertical Bar Graph. Don’t change a thing, just select Finish and you’ll get this dense chart:
http://farm9.staticflickr.com/8099/8650784079_73eab1974a_o_d.png
Third, refine the chart to show only the 10 countries where the most land has been acquired:
1. By hiding rows in the pivot table, we can change what data is shown in the chart.
2. Select rows 14 to 70. In the top menu, go to Format → Row → Hide. The chart will change to the below, which is far easier to grasp:
http://farm9.staticflickr.com/8380/8650784069_9383c79099_o_d.png
A quick task
Try to create a pivot table with a chart showing which investors have acquired the most land.
- See more at: http://schoolofdata.org/handbook/courses/gentle-introduction-exploring-and-understanding-data/#sthash.Zj2anwnM.dpuf