Nettoyer un texte brut - les REGEX

Nettoyer et éditer un texte brut, récupéré sur gutenberg.org

Outils : Firefox, OpenOffice

  • Aller sur Gutenberg et chercher Victor Hugo, L’homme qui rit et recopier à partir du lien Texte brut UTF-8 deux passages :

1) Victor Hugo
L’homme qui rit
De l’Angleterre…
…Hauteville-House, 1869.

PREMIERE PARTIE
LA MER ET LA NUIT
DEUX CHAPITRES PRELIMINAIRES
I — URSUS
I
Ursus et Homo etaient…
…lettres : URSUS, PHILOSOPHE.

Collez les deux textes via Collage spécial - texte non formaté [1] l’un après l’autre dans un nouveau document texte d’OpenOffice

Première étape

Premère étape :

Effacer le hardwrap [2] et enlever les lignes vides.

  • Placez votre curseur au début du texte.
  • Ouvrez le menu Edition "rechercher-remplacer" [3] - cochez dans options "
    expressions régulières" [4]
  • Entrez dans le champ rechercher le signe $ [5]
  • Entrez dans le champ remplacer le signe § [6]
  • Cliquez Tout rechercher, puis Tout remplacer
  • Entrez dans le champ rechercher la chaîne §$ [7]
  • Laisser le champ remplacer vide ou videz-le
  • Cochez Tout rechercher, puis Tout remplacer
  • Entrez dans le champ rechercher le signe § [8]
  • Entrez dans le champ remplacer un espace [9]
  • Cliquez Tout rechercher, puis Tout remplacer
  • Entrez dans le champ rechercher la chaîne de caractères : ^$ [10]
  • Laisser le champ remplacer vide ou videz-le [11]
  • Cliquez Tout rechercher, puis Tout remplacer

Deuxième étape

Deuxième étape :

Nettoyage et correction orthographique/typographique du document

  • Effacez les espaces doubles/inutiles en utilisant le menu Edition - rechercher&remplacer
  • Recommencez autant de fois jusqu’à ce qu’apparaisse : terme recherché introuvable
  • Pour effacer un espace inutile en début de ligne :
    Entrez dans le champ rechercher la chaîne de caractères : ^  [12]
  • Laisser le champ remplacer vide ou videz-le
  • Cliquez Tout rechercher, puis Tout remplacer

Correction orthographique :

  • Utilisez le correcteur intégré en définissant d’abord la langue du texte à corriger
  • Si vous ne trouvez pas votre langue dans le menu outils - langue, sélectionnez autre… , si la langue n’est pas installée, il faut aller la chercher ici et suivre les instructions

Correction typographique :

  • Par exemple : des signes de ponctuation française peuvent être précédés d’un espace insécable [13]
  • Dans le texte ici-présent, il faut rétablir les espaces insécables.
  • La procédure est toujours la même, ici présenté pour le  ;
  • Entrez dans le champ rechercher le signe  ; et cherchez la première occurrence
  • Etablissez à la main un espace insécable [14], puis copiez l’espace insécable + le signe  ; dans le champ remplacer
  • Effacez l’espace insécable, que vous venez mettre manuellement dans le texte [15]
  • Cliquez Tout rechercher, puis Tout remplacer
  • Recommencez l’opération pour  ?,  !, :
  • Remplacez le " qui ouvrent une ligne [16] par un tiret long + espace insécable [17].
  • Pour les trouver, l’expression régulière ^ [18]
  • Remplacez les vrais " ouvrants par «  et les " fermants par  », n’oubliez pas l’espaces insécables.
  • Pour les retrouver : chaîne "[a-zA-Z] et [a-zA-Z]" - cela vous amène sur "+la première/la dernière lettre du mot [19].

Troisième étape :

Troisième étape :

Stylage :

  • Commencer par modifier le style de paragraphe standard : alignement : justifié.
  • Appliquez aux passages correspondants les styles de paragraphe :
  • corps de texte pour le texte entier, puis modifiez : retrait première ligne : 0,3 cm.
  • Titre (Hugo l’homme qui rit), Titre 1, 2, 3, 4, 5 pour le reste
  • Toutes les occurrences précédées et suivies d’un _ sont à mettre en caractères italiques
  • Utilisez rechercher & remplacer pour trouver les endroits [20]
  • Entrez dans le champ rechercher le signe _ et cherchez la première occurrence
  • Sélectionnez l’occurrence entière, par exemple _J’ai trouve mon tome second_ et collez-la dans le champrechercher, puis dans le champ remplacer
  • Effacez _ dans le champ remplacer et sélectionnez "format", choississez "italique" et cliquez sur remplacer
  • Quand vous aurez fini, cherchez quand même _ (pour l’effacer) au cas où il aurait eu un oubli.

Dernière étape

Dernière étape

Notez vos observations dans un annexe du fichier :

  • Par exemple les problèmes rencontrés, les limites de la correction et de son automatisation (limites des expressions régulières et de leur usage, adaptation possible au traitement de texte, aussi si vous travaillez avec word par exemple.
  • Voici votre première expérience d’éditeur provisoirement terminée.

[1fait partie des réflexes utiles

[2tous les retours à ligne intempestifs

[3ctrl-F

[4par la suite, si vous rencontrez un message d’erreur : terme introuvable, cela peut venir du fait que l’option "expressions régulières/regex" est décochée, le lien ci-contre vous donne des exemples d’emploi de regex

[5fin d’une chaîne de caractères, qui vous indique aussi les paragraphes qu’on voudrait conserver - il faut donc une étape intermédiaire

[6paragraphe

[7qui vous permet de retrouver les paragraphes à conserver

[8paragraphe

[9vous allez remplacer tous les § restant à l’intérieur du corps de texte par un espace

[10expression qui permet de trouver toutes les lignes vides
^ : début d’une chaîne de caractères et
$ : fin d’une chaîne de caractères

[11Vous allez remplacer les lignes/paragraphes vides, nous définirons les espaces dans la feuille de style - bien sûr, l’utilité de ce geste est plus frappant dans un document long, difficile, voire impossible à gérer avec une mise à page à la main. Mais le réflexe de travailler avec une feuille de style est essentiel pour votre travail futur, donc à expérimenter dès le début, comme se créer des modèles pour ne pas recommencer à chaque fois.

[12^+ un espace

[13ce qui n’est pas le cas en anglais, ni en allemand

[14menu insertion, marque de formatage espace insécable ou CTRL+majuscule+espace

[15sinon il sera double après l’opération suivante, mais vous pouvez l’effacer aussi à la fin.

[16une erreur dans le formatage Gutenberg, plus tard dans le texte ils mettent — à la place

[17indication d’un dialogue

[18début d’une chaîne de caractères

[20OpenOffice remplace la chaîne d’expressions regulières par la chaîne d’expression, donc ne conserve pas le terme trouvé. Mais grâce à un commentaire ci-dessous, il existe une solution plus élégante que celle que je propose.

Documents joints

  • Corrigé

    - OpenDocument Text - 30.2 ko

Messages

Un message, un commentaire ?

modération a priori

Ce forum est modéré a priori : votre contribution n’apparaîtra qu’après avoir été validée par un administrateur du site.

Qui êtes-vous ?
Votre message

Pour créer des paragraphes, laissez simplement des lignes vides.

Lien hypertexte

(Si votre message se réfère à un article publié sur le Web, ou à une page fournissant plus d’informations, vous pouvez indiquer ci-après le titre de la page et son adresse.)