apsed

Un blog utilisant WordPress

De la page lisible à une structure XML : solutions industrielles chez CPI et Exegenix

Daniel Garcia signale sur son blog la discrète annonce fait par CPI du lancement de son service BookBank.

Le groupe Chevrillon Philippe (CPI) propose aux éditeurs un ensemble de solutions intégrées pour passer de leur production “traditionnelle” à l’édition et la diffusion numériques, en XML et divers formats de livrels.

  • BookBank gives each publisher complete control over their content read more>>
  • BookBank converts your files from PDF to XML and e-book formats automatically, it also converts many other file types read more>>
  • BookBank provides users with secure access to your content, and allows you to distribute it to anyone, anywhere you choose read more>>
  • BookBank powers Print-on-Demand and helps you make the most of your backlist read more>>
  • BookBank has sub-rights, e-rights, and digital rights management tools built in read more>>
  • BookBank allows you to re-purpose content with purpose read more>>
  • BookBank image library organises your images as well as their rights read more>>
  • BookBank integrates with the key systems currently used in the publishing industry so you never have to re-key information read more>>
  • BookBank is built on a common online platform that requires no IT investment on your part so getting up and running is easy read more>>
  • BookBank was built from the ground up specifically to be a system for publishers and their suppliers which ensures it fits your business needs

L’expérience industrielle de CPI, la prise en compte des pratiques Internet actuelles, le recours à des partenaires innovants autant qu’héritiers des années d’élaboration de solutions SGML puis XML pour le livre (Exegenix est dirigé par des anciens de SoftQuad, fondée par Yuri Rubinsky en 1984), la prise en compte de la géométrie des pages font de l’offre de BookBank une annonce à prendre très au sérieux dans le paysage de la numérisation du patrimoine imprimé.

Portrait de Yuri Rubinsky, fondateur de SoftQuad et initiateur de l'édition structurée

Yuri Rubinsky (1952-1996) est à l’origine des premiers éditeurs structurés (SGML) qui ont véritablement lancé la prise en main de ces techniques dans le monde de l’édition et de la recherche sur les textes (TEI), aux côtés de gens comme Lou Burnard, Michael Sperberg-McQueen, Tim Bray

Le principe proposé à BookBank par Exegenix repose sur la reprise visuelle des pages (PDF), leur segmentation et ensuite leur structuration en XML, avec le recours à des automates et des phases d’édition assistée par l’analyse automatisée…

Exegenix ne passe pas par une phase de reconnaissance optique des caractères (OCR), mais extrait l’information d’une version PostScript des fichiers PDF. Astucieux, mais à valider sur des exemples concrets pour évaluer la qualité de l’indexation des textes en fonction du processus d’édition qui a abouti au PDF source!

Processus de création des fichiers XML à partir de PDF/PostScript

ECS inspector d'Exegenix segmente les pages et identifie les blocs Diagramme du processus Exegenix

Ergonomie de lecture sur petits écrans

Le centre de recherche Fuji Xerox de Palo Alto (FXPAL) poursuit d’intéressantes recherches sur l’accessibilité de documents initialement mis en page dans un format excédant les possibilités d’affichage lisible sur les dispositifs mobiles.

Une courte vidéo démontre quelques fonctionnalités permettant de naviguer sur les pages à partir d’une vignette juxtaposée à une fenêtre où le texte est recomposé à une échelle lisible :

  • segmentation de la page scannée
  • navigation par mots clés attachés aux segments
  • “pannings” variés (que diable signifie l’acronyme CBAZ [merci Jean-Marc], et maintenant GLIZ ?)
  • zooms sur zones

Transparent FXPAL sur Content based automatic zooming (CBAZ)

Plus de détails dans un article de Technology Review [MAJ: et surtout dans la présentation signalée par Jean-Marc].

Bien intéressant pour les réflexions sur la lecture à l’écran, le développement de cahiers des charges pour liseuses et la redocumentarisation automatique à partir d’originaux mis en page, puisqu’il semble que la technique n’implique pas de préparation spéciale du document initial.

Enjeux techniques et économiques autour de la lecture et du “livre” (numérique, seulement ?)

Le billet d’Adam Hodgkin intitulé “The Web is the format, but will books be in HTML?”, [qu’on pourrait traduire par Certes le Web est le bon format, mais les livres seront-ils codés en HTML ?] en réponse à celui d’Aaron Miller sur TeleRead, “The Web is the format, like it or not” [Le Web est le bon format, que cela vous plaise ou pas] engage une discussion qui pourrait éclairer les multiples débats sur le “futur du livre”, étant donné l’expérience des deux protagonistes tant dans l’édition imprimée (édition, design, typographie, écriture, …) qu’en “Electronic publishing”.

Aaron Miller, sur un ton assez polémique, part de considérations économiques (fort réalistes, à mon avis) :

1. Major players are dictating that books must be read on the Web, and
2. Major players are dictating the experience of reading books on the Web

[1. De grands acteurs imposent de lire les livres sur le Web, et
2. De grands acteurs imposent la le mode de lecture des livres sur le Web
]

Vu la puissance économique des acteurs, leur maîtrise de développements techniques coûteux et complexes dès qu’ils doivent atteindre un marché suffisamment large en restant compatibles avec l’ensemble des outils de visualisation et de diffusion/distribution des produits numériques, Aaron Miller s’inquiète que soit trop laissée à ces acteurs la responsabilité de nos pratiques d’accès à la lecture.

Il propose une définition succincte pour l’offre de lecture numérique, qui peut être une bonne base de discussion :

read paginated text, annotate, communicate with other readers, bookmark and share, all in a browser

[lire du texte paginé, l’annoter, communiquer avec d’autres lecteurs, marquer des passages et les partager, le tout dans un navigateur]

Sur ce principe, Aaron Miller s’insurge donc contre certains partis pris par le consortium IDPF, qui met au point le format OEBPS (Open EBook Publication Structure) plus connu comme “ePub” proposé pour la lecture de livrels.

N.B. : voir le commentaire de Jon Noring, autre expert bien informé, ainsi que ses réflexions sur les différents sites où il intervient. Voir aussi l’approche très concrète et pédagogique du type de problèmes techniques qui engagent la lisibilité sur le blog d’Hadrien Gardeur : “Formats numériques : un exemple”.

Implicitement donc, on glisse de fonctionnalités à des solutions techniques (le navigateur), comme le met en évidence Adam Hodgkin, explicitant le recours à la technique “historique” des éditeurs de navigateurs, HTML, ce qui rejoint les discussions souvent vives à propos de l’usage du format .pdf d’Adobe, qui sera bientôt à compléter par une réflexion sur les implications des évolutions de Macromedia Flash et d’AIR

Adam Hodgkin, outre quelques mises au point pertinentes sur les possibilités techniques actuellement disponibles pour la prise en main des destinées des publications électroniques, argumente pour la bonne évaluation de l’héritage culturel du codex : double page, recto, verso, on pourrait ajouter tout ce que maquettistes et metteurs en page, maîtres en “arts de la lisibilité” ont inventé pour rendre la lecture efficace, utile, agréable.

La discussion me paraît partir sur de bonnes bases à ce stade dans la mesure où elle articule les enjeux techniques et économiques avec des implications sur des pratiques précises et concrètes de la lecture.

De plus, Aaron Miller poursuit le débat en rappelant l’aspect connexe et incontournable de la “trouvabilité” des livres numériques, selon lui trop liée à une approche “ISBN-centric” (fondée sur l’ISBN). Il a certes raison de s’en plaindre (qu’en sera-t-il des ouvrages publiés avant la généralisation du système identifiant des éditions ? [l’ISBN n’est passé norme ISO qu’en 1972!)] et Adam Hodgkin de défendre les services rendus par cet identifiant, de plus en plus habilement utilisé sur le Web pour amener des informations.
Cela dit, un détour par l’expertise des bibliothécaires avec la distinction entre œuvre, expression, manifestation, et exemplaire physique pourrait faire avancer la réflexion :

[…] le terme “œuvre” s’entend d’une création intellectuelle (immatérielle) dans le domaine littéraire ou artistique, protégée par le droit d’auteur. Cette œuvre peut se présenter sous diverses formes (par exemple exécution d’une œuvre musicale). La manifestation d’une œuvre peut elle-même être incorporée dans un objet matériel (par exemple un disque compact) ou un objet numérique [qui en est l’] expression […] (Document OMPI de 1998, Word 208Ko)

Une réflexion à lier à l’intéressante problématique posée par Jon Noring sur la création et l’identification de “digital text masters“, reliant différents formats et dérivés de textes classiques (modernisés, corrigés, composites, expurgés, parodiés, …).

Économie de l’édition numérique scientifique

Geneviève Le Blanc dresse un utile tableau des études publiques concernant l’édition numérique scientifique, STM et sciences sociales.

Plein de liens utiles pour suivre un domaine où les initiatives se multiplient.

J’en profite pour signaler un site intéressant à examiner sur l’alliance entre mission de service public (“not for profit”) et pratiques commerciales : celui de CABI, une organisation spécialisée dans l’édition scientifique, la recherche et la communication qui « améliore mondialement la vie des gens en fournissant de l’information et en mettant l’expertise scientifique au service de la résolution de problèmes concernant l’agriculture et l’environnement ».

Sophie 1.0 : le livre augmenté invite ses lecteurs à écrire

Bob Stein amorce une série de billets sur le logiciel Sophie, dont la première version stable est disponible depuis un mois.

L’« environnement de lecture/écriture » Sophie se distingue principalement des logiciels de présentation et des traitements de texte par quatre aspects :

  1. La gestion de flux de textes dépassant le cadre du transparent ou de la page [ce qui rapproche des logiciels de PAO].
  2. La gestion du temps, permettant de synchroniser des événements de lecture et médias.
  3. L’intégration d’objets externes par liens [tout en conservant un contrôle sur leur mise en forme et leur utilisation dans le document Sophie].
  4. L’ouverture aux lecteurs de champs de commentaires dynamiques, en réseau.

Plusieurs exemples téléchargeables sont commentés , dont un cours sur Macbeth [.zip, 2,7 Mo], qu’on pourra comparer utilement avec la présentation qui était faite du titre correspondant au temps de l’Expanded Book, ancêtre de Sophie.
Annotations texte et vidéo

Matière à penser et discuter pour les participants au BookCamp organisé à la Cantine le 14 juin 2008.

Comment, en tant qu’auteur, intervenir dans le rythme et la chronologie de lecture/visualisation de ses lecteurs ?

Comment animer une communauté autour d’un document “autorisé” ?

Poids économique de la littérature et industries de création

S’il faut en croire les chiffres cités par FLO (Friendly Literature Organisations), la contribution économique de la littérature (Literary Arts) aurait représenté en 2006 2,6 milliards de £, soit 0,3% du produit intérieur brut (GDV) au Royaume-uni, face à un marché intérieur du livre de 3,3 milliards de £.

Une estimation étonnante, quand on considère en général que la littérature au sens large représente moins du quart de l’industrie du livre en France…

En tout cas, quand on consulte en regard de ces chiffres l’implication des britanniques dans le développement des industries de création, dans le cadre d’une économie du savoir, au travers des rapports annuels du Programme d’économie de la création, (CEP, Creative Economy Programme), cela ne peut que faire regretter l’indécision quant à une politique du livre et de la lecture en France lors de la création de la Direction des patrimoines annoncée par Christine Albanel le 17 avril 2008.

Par ailleurs, le rattachement des missions de la direction du livre et de la lecture, qui touchent à la fois au patrimoine, à la lecture publique et à l’économie du livre, fera l’objet d’une réflexion complémentaire.

Lire un livre en diagonale

Brian Dettmer, autopsie de livre 6

Liminaire (Pierre Ménard) réfléchissait en octobre 2007 sur les « autopsies de livres » de Brian Dettmer. (19 exemples à voir sur Centripetal Notions.)

Belle illustration de plusieurs traits importants du livre et de la lecture.

Le livre, trop vite assimilé au texte, à la narration d’une fiction, à une linéarité, est un objet qui a une épaisseur à creuser. Il y a déjà trois dimensions à l’objet, et la pagination, la reliure en cahiers pourraient définir autant d’espaces à explorer distinctement, par des chemins imprévus ou suggérés, comme les onglets.

La lecture, appropriation par le détenteur du livre — ou du document, plus précisément à ce moment, peut se faire selon une multitude de manières, qu’on peut inscrire dans le document : Brian Dettmer use de cette faculté pour inscrire sa liberté de lecteur et faire du document initial son propre document, individuel, original.

Introduire des signets dans la reliure d’un livre est déjà une incitation au lecteur pour qu’il exerce sa liberté de parcours, à son rythme, dans l’ouvrage. Les techniques numériques offrent encore plus de possibilités. Les auteurs et éditeurs qui s’interrogent actuellement sur le livrel et l’édition multi-support devraient s’allier avec les développeurs de programmes de lectures et de liseuses pour définir les multiples pistes qui s’ouvrent pour inscrire dans les nouveaux ouvrages numériques la complexe relation entre auteur, éditeur, fabricant et lecteur : invitez les lecteurs dans vos livrels!

Un resserrement de la communauté autour d’une “chaîne de l’œuvre” ou plus prosaïquement, de la vie du document ?

 

Programme de numérisation d’un livre en deux images

Comment sacrifier un exemplaire de livre pour obtenir liseuse et livrel…

Création de Kyle Bean (via if:book)

laptop1.jpg

© Kyle Bean, 2008

Le résultat, et ci-dessous l’aperçu du programme de création.

Création de laptop

© Kyle Bean, 2008

De l’effacement prématuré des derniers pixels d’un poème numérique d’Alexandre Gherban

La table ronde “Écrire en 4D, le nouveau champ numérique de création poétique et littéraire” animée par Philippe Boisnard à la Société des Gens de Lettres (SGDL) le mardi 15 février questionna poétiquement l’écheveau de quelques interrogations induites par les techniques de numérisation.

Lecture performance ou trace éditoriale ?
Table ronde, démonstrations retransmises en direct sur Libr-critique et caméscopes numériques en action… Comme quoi les techniques de communication démultiplient les effets de réception et favorisent l’appropriation individuelle des œuvres, abolissant distance et synchronicité du temps vécu! Prolongation d’interrogations mallarméennes sur le thème de la glace.

La poésie numérique a-t-elle affaire au livre ?
Jacques Donguy répond à l’obsolescence aléatoire des outils numériques par l’édition imprimée de vestiges de ses créations, à côté de la survie d’un Atari ou d’un vieux Macintosh encore doté de la version de système d’exploitation nécessaire à l’exploitation d’un cédérom multimédia. Sans mélancolie, le changement de média perçu comme re-création…

La médiation technique est-elle création ?

Philippe Bootz juxtapose le programme générateur de l’expérience du lecteur (?), spectateur (?), destinataire ou visiteur (?) et la fenêtre de cette expérience. Démultiplication en abîme de ce qui est donné à voir sans pour autant épuiser les invisibles couches de médiation de la machine. Esthétique de la programmation aussi illustrée par la beauté des outils de Philippe Boisnard. Comment garder les (des) traces de l’expérience créatrice numérique ?

Langage ou écriture ?

La présence de la voix, du cri à la modulation, dans les travaux de Philippe Castellin et ceux de Philippe Boisnard s’entrelace à l’expérience de la vision des lettres autant que des mots.

[Si la poésie numérique ou pas excède la littérature dans sa capacité à montrerfaireentendredire l’indicible ou le non-dit, romanciers et nouvellistes numériques comme François Bon narreront-ils la vérité littéraire (Interview de Jacques Bouveresse le 15 avril 2008) de l’inénarrable comédie des relations humaines ?]

La lettre abolit-elle le flux du temps ?

Emblématique du heurt d’horizons temporels décalés, l’effacement des deux derniers pixels du beau poème d’Alexandre Gherban emporta — prématurément ? — la griffure persistante de la dernière lettre.

Je lui laisserais volontiers programmer la disparition apaisée des vestiges de nos passages et l’oubli de nos traces.

Mutations induites par la numérisation : changements de métiers, changements d’objets

Le Groupement de Recherche Technologies de l’Information et de la Communication et Société a organisé vendredi 11 avril 2008 un très riche et intéressant séminaire intitulé « Production numérique éditoriale et évolution des métiers » bien venu pour clarifier les enjeux du “numérique” et bousculer un bon nombre d’idées reçues sur le “virtuel”.

[MAJ 14 avril 2008Résumé des communications [.pdf 164 Ko] envoyé aux participants avant la conférence, avec l’aimable autorisation des organisateurs, merci!

 

L’impact des techniques numériques affecte autant — et de manière convergente — la définition et la position du métier de documentaliste en entreprise que ceux de bibliothécaire ou archiviste : formation technique, outils, enjeux de l’information numérique et de sa communication impliquent de reconsidérer les référentiels de compétence et les rapports de pouvoir entre fonctions et métiers (communications de Christiane Volant, Claudine Masse et Arlette Boulogne) et mettent en question la notion de “Gestion [informatisée] des Connaissances (Knowledge Management)” (communication de Dominique Cotte — pertinentes remarques sur les savoirs qui ne peuvent être numérisés ou efficacement transmis numériquement).

S’il ressort de ces communications, comme on pouvait s’y attendre, que les différents métiers convergent vers de fonctions de médiation et impliquent une formation et une culture en techniques informatiques, elles démontrent aussi l’importance et la nécessité de l’intervention de compétences professionnelles spécifiques à la gestion de documents et d’informations.

Les communications de Patrick Dugué (APROGED), Catherine Teillou Scharf et Bruno Bachimont (INA [dossier que je recommande fortement]) insistent sur le changement de nature des objets quand ils sont numérisés et sur les nouvelles contraintes que cela implique (traitement, sélection, édition, préservation, …).

Un document numérique n’est pas l’équivalent virtuel d’un document matériel : le processus de numérisation fragmente l’objet, qui est inaccessible tant qu’il n’est pas rematérialisé (utile rappel que les “données informatiques” ne sont utiles que re-publiées matériellement, selon des protocoles éventuellement automatisables mais en tout cas objets de décisions d’ordre éditorial, pour des usages donnés, que la copie numérique “à l’identique” pose problème et qu’un enregistrement [record] n’est pas la même chose qu’un document).

Une journée qui montre de manière évidente les opportunités de la numérisation de masse et de la généralisation des TIC — et la nécessité de continuer à examiner les concepts de document, document numérique, donnée en s’appuyant sur les savoirs et savoir faire de notre culture pour que les innovations fassent sens et ajoutent de la valeur.

Les hommes ont besoin de savoirs leur donnant accès à ces saveurs que sont les objets d’une culture, ils souffrent quand ils sont environnés d’objets vides et insipides. Tel est le véritable enjeu de la numérisation. Bernard Stiegler, Numérisation : les hommes ont besoin de savoirs et de saveurs