Opération de nettoyage, curation de mes données Toggl

Journal du dimanche 12 mai 2024 à 08:55

Je souhaite nettoyer ( #data-cleaning, #data-curation ) une année de données que j'ai collectées avec l'application Toggl.

Chaque ligne de données ressemble à ceci :

start: "2024-05-12 09:00"
stop: "2024-05-12 09:23"
duration: 1380
description: "Rédaction d'une note éphémères au sujet du netoyage de données"
tags:
  - écriture
  - clean-data

Voici les opérations de nettoyage que j'aimerais réaliser :

  • homogénéifier le contenu du champ "description" ;
  • ajouter ou supprimer des tags sur une liste de lignes sélectionnées par l'application d'un filtre.

Jusqu'à présent, j'effectue ce nettoyage via l'application web Toggl. Cela n'est pas très agréable pour les raisons suivantes :

  • Je trouve l'application très lente, ce qui m'insupporte !
    • La saisie au clavier dans un champ input est lente.
    • La recherche d'un tag est lente.
    • ...
  • Je ne peux pas sélectionner rapidement plusieurs lignes avec le clavier, je dois cliquer sur une case à cocher sur chaque ligne.

#JaimeraisUnJour trouver une méthode efficace et agréable pour réaliser mes tâches que #data-curation.


Journaux liées à cette note :

Journal du lundi 13 mai 2024 à 20:05 #data, #JeMeDemande

Note en lien avec Opération de nettoyage, curation de mes données Toggl et Fonctionnalité cluster and edit de OpenRefine.

Je pensais que Datasette pouvait être utilisé comme un outil de #data-curation mais je comprends que non, ce n'est pas dans "l'adn" du projet.

Voici ce que dit ici le développeur de Datasette :

For some developers, this is an odd choice - SQLite is an OLTP database, so why not support a few INSERT INTO or UPDATE statements?

The reasons, as laid out in that original blog post, are short and simple. For one, only handling read-only connections greatly reduces security risks. Datasette has SQL code execution as a first-class feature, so limiting any potential risk is important.

Plus, Datasette is a tool for publishing and exploring data. If you're investigating a government data dump or analyzing your city's annual budget, you don't want to edit data anyway!


J'ai trouvé ici une mention de OpenRefine par Simon Willison. J'y ai découvert datasette-reconcile mais pour le moment #JeMeDemande comment l'utiliser et à quoi cela pourrait me servir 🤔.

Fonctionnalité cluster and edit de OpenRefine #JaimeraisUnJour, #JaiDécouvert, #logiciel, #data

Il y a quelques semaines, #JaiDécouvert le #logiciel OpenRefine, qui permet de réaliser des tâches de #data-curation , plus précisément de #data-cleaning — mais pas seulement.

#JaimeraisUnJour prendre le temps d'essayer de nettoyer mes données Toggl avec OpenRefine.

Je lis ici que je peux manipuler plusieurs type de format de données :

From these sources, you can load any of the following file formats:

  • comma-separated values (CSV) or text-separated values (TSV)
  • Fixed-width columns
  • JSON

et

OpenRefine can connect to PostgreSQL, MySQL, MariaDB, and SQLite database systems


Je souhaite particulièrement tester la fonctionnalité cluster and edit de OpenRefine et surtout les différentes méthode de clustering.