1.3.1 : Configuration d'indices
La commande suivante permet d'établir le mapping (schéma) pour l'ensemble de données Shakespeare : <br></br>curl -XPUT http://serveur01:9200/shakespeare -d '<br></br>{<br></br> "mappings" : {<br></br> "_default_" : {<br></br> "properties" : {<br></br> "acteur" : {"type": "string", "index" : "not_analyzed" },<br></br> "nom_piece" : {"type": "string", "index" : "not_analyzed" },<br></br> "id_ligne" : { "type" : "integer" },<br></br> "num_dialogue" : { "type" : "integer" }<br></br> }<br></br> }<br></br> }<br></br>}<br></br>';<br></br><br></br>
Paramètre d'index
Ce paramètre contrôle la manière dont un champ doit être indexé et interrogé. Il présente trois valeurs possibles :
· no: Le champ n'est pas ajouté à l'index, ce qui le rend non recherchable <br></br>· not_analyzed: La valeur originale du champ est insérée dans l'index comme un terme unique, c'est la valeur par défaut pour tous les champs sauf les champs de type string. <br></br>· analyzed: Valeur par défaut pour les champs de type string, le contenu est d'abord analysé avant que les termes résultants soient stockés dans l'index<br></br> Ce mapping (schéma) spécifie les caractéristiques suivantes pour l'ensemble de données :<br></br>
Explication des champs :
1. Le champ acteur est une chaîne de caractères non analysée. Les chaînes dans ce champ sont traitées comme une seule unité, même lorsqu'elles contiennent plusieurs mots.<br></br>2. La même logique s'applique au champ nom_piece.<br></br>3. Les champs id_ligne et num_dialogue sont de type entier.<br></br>
Pour l'ensemble de données de journaux, un mapping est nécessaire. En appliquant le type geo_point à ces champs, les paires de latitude/longitude présentes dans les journaux peuvent être identifiées comme des emplacements géographiques.
Utilisez la commande suivante pour établir le mapping geo_point pour les journaux :
curl -XPUT http://serveur01:9200/journaux-2015.05.18 -d '<br></br>{<br></br> "mappings": {<br></br> "entree": {<br></br> "properties": {<br></br> "geo": {<br></br> "properties": {<br></br> "coordonnees": {<br></br> "type": "geo_point"<br></br> }<br></br> }<br></br> }<br></br> }<br></br> }<br></br> }<br></br>}<br></br>';<br></br>curl -XPUT http://serveur01:9200/journaux-2015.05.19 -d '<br></br>{<br></br> "mappings": {<br></br> "entree": {<br></br> "properties": {<br></br> "geo": {<br></br> "properties": {<br></br> "coordonnees": {<br></br> "type": "geo_point"<br></br> }<br></br> }<br></br> }<br></br> }<br></br> }<br></br> }<br></br>}<br></br>';<br></br>curl -XPUT http://serveur01:9200/journaux-2015.05.20 -d '<br></br>{<br></br> "mappings": {<br></br> "entree": {<br></br> "properties": {<br></br> "geo": {<br></br> "properties": {<br></br> "coordonnees": {<br></br> "type": "geo_point"<br></br> }<br></br> }<br></br> }<br></br> }<br></br> }<br></br> }<br></br>}<br></br>';<br></br>
1.3.2 : Importation des données
L'ensemble de données comptes n'exige aucun mapping, donc nous pouvons utiliser l'API bulk d'Elasticsearch pour charger les ensembles de données avec les commandes suivantes :
curl -XPOST 'serveur01:9200/banque/compte/_bulk?pretty' --data-binary @comptes.json<br></br>curl -XPOST 'serveur01:9200/shakespeare/_bulk?pretty' --data-binary @shakespeare.json<br></br>curl -XPOST 'serveur01:9200/_bulk?pretty' --data-binary @journaux.jsonl
1.3.3 : Définition de modèles d'index
Créez les modèles d'index suivants à l'aide de l'option créer un modèle d'index :
Journaux-, ba, banque, shakes*, shakespeare
1.3.4 : Exploration des données
1.3.5 : Opérations de visualisation
1.3.5.1 : Création d'un diagramme circulaire
- Étapes : Visualiser--»créer une visualisation
- Sélectionnez le diagramme circulaire
Choisissez banque :
Divisez les données en fonction du solde des comptes
1.3.5.2 : Construction d'un diagramme à barres
- Sélectionnez l'index pièces*
- Affichez le nombre de dialogues par acteur
1.3.5.3 : Construction d'une carte
Affichez les emplacements géographiques des utilisateurs dans les fichiers de journaux logstash
(les coordonnées.geo représentent la latitude et la longitude de l'adresse IP)