Accès aux données brutes
La dernière version complète du dump Wikidata est accessible au format compressé (BZ2) via l'adresse officielle des dumps Wikimedia. L'outil en ligne de commande curl est recommandé pour le téléchargement de fichiers volumineux :
curl -C - -O https://dumps.wikimedia.org/wikidatawiki/entities/latest-all.json.bz2
Configuration de l'environnement Neo4j
Installation à partir des dépôts système
Une installation via le gestionnaire de paquets d'Ubuntu (APT) est possible, mais nécessite généralement des privilèges administrateur.
Assurez-vous que le JRE et le JDK OpenJDK sont présents sur le système :
sudo apt update && sudo apt install default-jre default-jdk
Ajoutez ensuite le dépôt Neo4j et installez la version Community :
curl -fsSL https://debian.neo4j.org/neotechnology.gpg.key | sudo apt-key add -
echo 'deb https://debian.neo4j.org/repo stable/' | sudo tee /etc/apt/sources.list.d/neo4j.list
sudo apt update
sudo apt install neo4j
Installation manuelle (utiilsateur)
Après avoir téléchargé l'archive Unix de la version 3.5.8, extrayez-la dans un répertoire utilisateur :
tar xzf neo4j-community-3.5.8-unix.tar.gz
Ajoutez le chemin vers le répertoire d'installation à votre environnement en modifiant votre fichier de configuration shell (~/.bashrc ou équivalent) :
export NEO4J_HOME="$HOME/neo4j-community-3.5.8"
export PATH="$NEO4J_HOME/bin:$PATH"
Pour autoriser les connexions réseau entrantes, modifiez le fichier conf/neo4j.conf situé dans le répertoire d'installation :
# Remplacer les lignes commentées par :
dbms.connector.http.listen_address=0.0.0.0:7474
dbms.connector.bolt.listen_address=0.0.0.0:7687
Le service peut ensuite être lancé en mode console depuis le répertoire racine de l'installation :
./bin/neo4j console
Préparation de l'environnement Node.js
L'importation des données requiert Node.js. Installez la version 12.x via le script d'installation officiel :
curl -sL https://deb.nodesource.com/setup_12.x | sudo -E bash -
sudo apt install -y nodejs
Importation des données WikiData dans Neo4j
Le script wikidata-neo4j-importer permet de parser le fichier JSON et de peupler la base de données Neo4j. Commencez par installer les dépendances npm requises :
npm install neo4j-driver async n-readlines cli-color slugify
L'exécution du script d'importation se lance alors simplement avec la commande suivante :
node index.js