apsed

Un blog utilisant WordPress

Caractères mobiles, formes d’imprimerie sur bois gravé et économie du texte

Exemple d'impression en gravure sur bois <em>Bencao</em> de Li Shizhen (1518-1593)

Exemple d'impression en gravure sur bois Bencao de Li Shizhen (1518-1593)

Boudewijn Walraven, professeur d’études coréennes à l’université de Leyde (Pays-Bas), en réponse au billet de Robert Darnton “The Library in the New Age“, analyse la persistance de l’usage des formes en bois gravé pour l’impression de livres jusqu’au XIXe siècle, face aux caractères mobiles.

[...] the Princeton librarian Martin Heijdra has calculated that movable type as it was used in Asia was less economical than woodblock printing [...]

Woodblock printing had the added advantage that it also lent itself to printing on demand. An eighteenth-century Korean gentleman who wanted a particular book would consult a printed catalog that stated where the blocks for that title were kept (in special, well-aired storage facilities in local government offices, private academies, temples, etc.), and send a servant to have a single copy made. This meant that these titles never ran out of stock.

[...] Martin Heijdra, bibliothécaire à Princeton a calculé que la typographie à caractères mobiles telle qu’elle était utilisée en Asie était moins économique que la gravure sur bois [...]

La gravure sur bois avait aussi l’avantage de se prêter à l’impression à la demande. Un gentilhomme coréen du XVIIIe siècle qui voulait un livre donné pouvait consulter un catalogue imprimé qui établissait où les formes d’impression de ce titre étaient conservées (dans des entrepôts spéciaux, bien aérés [?], d’administrations locales, d’académies privées, de temples, etc.), et envoyer un serviteur pour faire faire un exemplaire. Ainsi ces titres n’étaient jamais épuisés.

Une discussion intéressante sur l’opportunité de conserver et diffuser économiquement des documents en fonction du coût de recomposition (fortement lié évidemment à la complexité du système d’écriture : une casse d’alphabet romain est bien plus simple qu’une casse chinoise…) et de l’accessibilité à des originaux.

Cela évoque bien sûr les discussions à propos des fonctionnalités des liseuses et du texte fluide : est-il économique aujourd’hui d’embarquer

  • une typothèque riche (UTF-8 ou 16),
  • un moteur de composition,
  • les feuilles de style appropriées pour composer à la volée des exemplaires d’ouvrages adaptés aux écrans de tout type,
  • la puissance de calcul,
  • la batterie

qui permettent d’exploiter rapidement ces outils de base ?

C’est le fond de la discussion et du projet de Bill Hill d’obtenir des standards autorisant un accès respectueux des acquis typographiques et des projets éditoriaux. Cela ne pose guère de problème dans le monde des ordinateurs (ultra-)portables, mais c’est encore un souci pour les liseuses.

Alors, .epub amélioré ? ou .pdf pour Acrobat Reader en attendant que la technologie des batteries fasse de nouveaux progrès et que capacité mémoire et systèmes d’exploitation du “web des objets” aient rejoint la sophistication des ordinateurs ?

Une réflexion que François Bon mène méthodiquement avec ses expérimentations concrètes pour publie.net autant que pour sa vie de lecteur.

[MAJ 1er août 2008] Les lecteurs curieux de l’impact économique et social induit par la révolution de la typographie à caractères mobiles en plomb pourront meubler leurs loisirs pendant le relatif calme du mois d’août en consultant

  • la monumentale étude de Pratchett, Terry The Truth, [DiscWorld annals t. XXV], Black Swan, 444p., ISBN 9780552147682
    (traduit en français sous le titre La Vérité, Paris, Atalante, 2005, 416p., ISBN 2841722996)
  • ou dans un genre plus léger le roman de Bruno Rives autour d’Aldus Manutius, Aldo Manuzio, passions et secrets d’un Vénitien de génie, Paris, Librii, 2008, 324p. ISBN 9782953164503

De la nécessité des bibliothèques de recherche et de l’utilité de Google Book Search (suite)

Dans la prochaine livraison de la New York Review of Books (Volume 55, Number 13 · August 14, 2008), Jean-Claude Guédon (et Boudewijn Walraven, à propos d’un point d’histoire de l’imprimerie sur lequel je reviendrai dans un billet séparé) engagent un dialogue avec Robert Darnton à propos de son billet The Library in the New Age.
Jean-Claude Guédon s’inquiète des limites apportées par Google au “potentiel de calcul” [computational potential] des livres numérisés pour le “text mining”, l’extraction d’information, de schémas, d’éléments sémantiques utilisables par exemple pour l’amélioration de la traduction automatique.
Le principal reproche de Jean-Claude Guédon tient au fait que Google se réserverait par contrat la possibilité d’agréger ces données en les consolidant sur l’ensemble des fonds numérisés, alors que chaque bibliothèque serait limitée à l’usage des ses propres ouvrages, restreignant ainsi les possibilités offertes aux chercheurs.
En conséquence, Jean-Claude Guédon appelle à la création de “clubs de numérisation” massive selon les principes de l’Open Content Alliance en cherchant des ressources à la manière de Wikipedia et du Projet Gutenberg.

In short, mass digitization projects should be designed in ways that are not dependent on market-based corporations or on government subsidies, but can nevertheless profit from forms of support from either kind of institution.
[Pour faire court, des projets de numérisation massive devraient être conçus selon des modalités indépendantes des entreprises commerciales ou des subventions publiques, tout en gardant la possiblité de profiter de formes de soutien de l'un et l'autre type d'institution.]

Il souligne le rôle crucial des bibliothèques pour promouvoir ces opérations et déterminer les standards de qualité et d’accessibilité nécessaires à leur bonne fin :

[Libraries] would be acting as institutional citizens of the digital document age [...]
[Les bibliothèques] se comporteraient comme des citoyens institutionnels de l’âge du document numérique [...].

Joli programme d’intérêt général, en prise directe avec les réalités de la “société de la connaissance“, économie de marché, régulations étatiques et initiatives citoyennes.

Principes de mise en écran dynamique

Bill Hill expose sur son blog The Future of Reading les principes à respecter pour préparer une mise en écran dynamique.

Bill Hill, un des inventeurs de la technique de lissage (antialiasing) ClearType des fontes à l’écran, expert et évangéliste chez Microsoft pour tout ce qui est typographie, lecture numérique et liseuses est une colossale référence pour la prise en main de l’avenir de la lecture et un orateur plein d’humour et de pédagogie.

There’s a new First Law of Design: “When creating content for the Web, you have no clue what size of screen the reader will be using”.

[...] We need a new and robust Adaptive Layout technology to take Web design forward.

[Il y a une nouvelle Première Loi de mise en forme: “Quand vous créez pour le Web, vous n'avez aucune idée de la taille d'écran utilisée par le lecteur. [...] Nous avons besoin d’une technique nouvelle et efficace de Mise en forme Adaptative pour promouvoir la mise en forme sur le Web.”]

Lire ou naviguer, il faut choisir!

Le passage à l’écran implique selon Bill Hill de prendre en compte en premier lieu la différence entre la navigation (browsing) et la lecture du document (content) trouvé :

When I’m browsing, I want easy access to all the tools of the browser – menus, buttons, toolbars etc. But when I’m reading, everything on the screen which isn’t content is just a distraction and a waste of space. I want it to all go away.
When I’ve browsed to a piece of content I want to read, I should be able to hit a “Reading” button, and only content, and perhaps some basic navigation buttons like “Next page”, “Previous page”, and a button to get me back to Browsing mode, should be visible. [...]

Next page, Previous page? Well, yes, the content should be paginated. Research has shown consistently that paging is much better for reading than scrolling.

[Quand je navigue, je veux un accès facile à tous les outils du navigateur — menus, boutons, barres d'outils, etc. Mais quand je lis, tout ce qui n'est pas information à l'écran vient distraire l'attention et perdre de l'espace. Je veux que cela disparaisse entièrement.
Quand j'ai navigué jusqu'à un document que je veux lire, je devrais pouvoir appuyer sur un bouton "Lecture", et seul le document, peut-être avec des boutons élémentaires de navigation comme "Page suivante", "Page précédente", et un bouton pour revenir au mode de navigation, devrait être visible. [...] Page suivante, Page précédente ? Eh bien! oui, le document devrait être paginé. Les études ont montré régulièrement que la pagination est bien meilleure que le défilement.
]

Paginer et repecter les empans de lecture : des colonnes!

What should a “page” look like? It should look like the full size of whatever screen I’m using. If the browser knows the text size the reader wants to use, then it knows the width of a column. If it knows the size of the display, then it can calculate how many columns to display.
[À quoi devrait ressembler une "page" ? Elle devrait ressembler à l'affichage plein écran que j'utilise, quel qu'il soit. Si le navigateur connaît la taille de caractères que le lecteur veut utiliser, alors il connaît la largeur de colonne. S'il connaît la taille de l'écran, alors il peut calculer combien de colonnes afficher.]

S’appuyer sur 550 ans de typographie

If you then throw in all the typographic techniques we’ve learned over 550 years like kerning, ligatures, great word- and letter-spacing, etc. you get text that’s as readable as text on paper. Since you know how many columns are in use, you have a grid for placement of graphics.
[Si vous ajoutez ensuite toutes les techniques typographiques que nous avons apprises en 550 ans, comme le crénage, les ligatures, un bon espacement des mots, un bon interlettrage, etc., vous obtenez un texte qui est aussi lisible que l'imprimé. Comme vous savez combien de colonnes sont utilisées, vous disposez d'une grille pour le placement des éléments graphiques.]

Construire l’avenir

Instead of trying to hold on to the past, the design community and software developers should be working together to develop this technology and make it mainstream for the Web.
[Au lieu d'essayer de se cramponner au passé, la communauté des maquettistes et des développeurs de logiciels devraient travailler ensemble pour construire cette technique et en faire un standard du Web.]

[MAJ 23 juillet 2008 : le billet de Dirk Jesse recommandé par Bill Hill précise comment utiliser efficacement une série de fonctions CSS3 dans le sens de ses préconisations. Clair et utile]

Numérisation de 500 000 volumes à la bibliothèque municipale de Lyon

Un communiqué de l’AFP a confirmé vendredi 11 juillet 2008 la signature d’un accord entre Google et la municipalité de Lyon pour mettre en œuvre la numérisation de 500 000 ouvrages du domaine public conservés à la bibliothèque municipale de Lyon.

La nouvelle est loin d’être une surprise, dans la mesure où la bibliothèque municipale de Lyon avait annoncé de longue date son intention de se doter des moyens d’engager l’opération, dès novembre 2006 (appel d’offre initial du 30 janvier 2007, déclaré infructueux le 12 juin 2007, avec pour seule réponse celle déposée par Google). La négociation engagée ensuite, implicitement approuvée par Bruno Racine (cf. l’interview par Frédérique Roussel dans Libération du 2 février 2008) a trouvé son aboutissement le 11 juillet.

Au vu des informations disponibles à cette date — parcellaires —, l’opération montre une évolution notable de la politique de numérisation de Google :

  • Le choix des ouvrages à numériser est le fait de la bibliothèque, apparemment indépendamment des critères de “facilité”, avec une obligation de résultat. [À Lausanne, les ouvrages précieux et fragiles de la réserve ont été exclus de la campagne de numérisation.]
  • La numérisation se fera à proximité de la Part-Dieu, ce qui implique la création d’un nouveau centre de traitement, ou l’utilisation de ressources existantes dans la région (?).
  • Les œuvres seront téléchargeables « ouvrage par ouvrage » par « l’utilisateur final ». [Deux questions, là : S'agira-t-il du mode image ou du mode "plein texte" ? L'utilisateur final sera-t-il un lecteur au sein de la bibliothèque ou tout visiteur du moteur de recherche ? Rien ne permet à ce jour de le déterminer, ce qui pose clairement problème quand on parle de droits exclusifs de commercialisation concédés à Google.]

Une nouvelle cependant dont on doit se réjouir dans la mesure où elle revient à doubler l’effort de numérisation du fonds libre de droits des bibliothèques françaises (100 000 ouvrages par an dans Gallica 2 et approximativement la même quantité à Lyon, avec l’accès à des fonds précieux pour l’histoire des religions comme celui de l’ex-bibliothèque des Fontaines mentionné par Philippe Colombet, Google); elle présage de la création d’une nouvelle infrastructure et d’un nouveau pôle de compétence en numérisation patrimoniale.

Elle ne doit pourtant pas faire oublier les difficultés et le coût de ces opérations, si l’on veut obtenir un niveau minimum de qualité et maintenir un accès libre, au moins pour la recherche et la formation, au patrimoine et à la production culturelle contemporaine.

Le contrôle de la qualité de la numérisation dans des projets de cette ampleur reste problématique, ainsi qu’en témoignent des exemples de reconnaissance optique lourdement défectueux, qui n’ont pas été filtrés avant publication.

Un exemple sur Gallica 2 :

Image du texte de Geffroy
Reconnaissance optique de Geffroy

Un exemple sur Myrlin, la bibliothèque numérique d’uMich réalisée en collaboration avec Google :

Image du texte de Diderot numérisé pour la bibliothèque numérique d'uMich


Texte de Diderot numérisé pour la bibliothèque numérique d'uMich

Ce type d’exemples, certes incontestablement délicats à traiter, suscite des remarques extrêmement critiques d’experts, comme par exemple Lotfi Belkhir, CEO de Kirtas Technologies :

Google is doing a very, very poor job…. Their OCR is very inaccurate, the image quality is very poor. You find cutoff text…. You find dirty text. You find incomplete pages.

Google fait du très, très mauvais travail… Leur reconnaissance optique de caractères est très imprécise, la qualité d’image est très mauvaise. On trouve du texte tronqué… On trouve du texte maculé. On trouve des pages incomplètes.

Organisation, cadencement et financement du contrôle et de la finalisation de pareils programmes sont encore à trouver, comme pouvaient en témoigner mardi 8 juillet 2008 Marc-André Wagner et Ronald Schild aux Assises du livre numérique :

  • Relative lenteur du programme allemand Libreka de numérisation des nouveautés — 45 000 titres, en majorité scannés et convertis par OCR (Ronald Schild, Börsenverein),
  • Petit nombre de titres sous droits ajoutés à l’expérience Gallica 2 depuis le mois de mars (Marc-André Wagner, CNL).

Tout cela progresse, mais combien de questions encore ouvertes, comme celle de l’interopérabilité…


Microfilm et/ou numérisation

enluminureLa campagne de reproduction des manuscrits médiévaux en Aquitaine menée par l’IRHT donne lieu à un intéressant billet de l’ARPEL d’Aquitaine sur les problèmes de conservation et de choix technique de reproduction; même si la durée de vie des microfilms est limitée, elle inspire plus confiance que le numérique…










Démonstrations de robots tourne-pages

Robot tourne-pages Qidenus

Le Centre de numérisation de la Bibliothèque de Bavière a publié les communications présentées aux Journées de démonstration de robots tourne-pages du 18 au 20 juin à Munich.

Une bonne occasion pour les bibliothécaires qui songent à offrir aux lecteurs des possibilités de “scan to mail” de s’informer des offres de numérisation automatisée :

  • 4digitalbooks [PDF] - Ivo Iossiger (ivo.iossiger/at/4digitalbooks.com)

  • Kirtas [PDF] - Marcel Aldewereld (maldewereld/at/kirtas.com)

  • Qidenus [PDF] - Vitus Bösch (vboesch/at/qidenus.com)

  • Treventus [PDF] - Stephan Tratter (tratter/at/treventus.com)

[MàJ 4 juillet 08] Annonce du nouveau scanner ‘manuel’ Kirtas SkyView pour grand format

Patrimoine numérique et web des objets

Cabinet des antiques

Petit musée des Arts et métiers sur Flicker @ Kiberpipa computer museum

Problème de la pérennisation des objets numériques, pris en main sérieusement par la BnF avec son système SPAR.

Dimensions constitutives de la lecture de documents

Pintini [blog de Fabrizio Tinti, fr] reprend et commente un billet d’Eric L. Morgan sur les premiers tendances [en] de la conférence d’été de l’ALA (American Library Association), Anaheim, 26 juin—2 juillet.

J’extrais arbitrairement de son billet [qu'il faut lire en entier ] un point intéressant pour la prise en considération des éléments visuels qu’il est utile ou nécessaire de prendre en compte dans l’encodage numérique des documents textuels.

Le contenu est roi, certes. Mais ne dédaignons pas la structure (visuelle et graphique) de l’information que nous proposons. Pas pour le plaisir des yeux, mais pour améliorer et “simplifier” l’accès à l’information. Evitons de perdre les utilisateurs dans les méandres d’une structure trop lourde.

Eric L. Morgan et Fabrizio Tinti revendiquent là une responsabilité des bibliothèques à assurer productivité et efficacité de la communication des “contenus” avec des outils visuels [on pourrait aussi songer aux mal-voyants, avec des standards comme DTbook/DAISY (Digital Accessible Information SYstem)] au moment de la “redocumentarisation” de l’information.

Il me semble qu’au delà de l’aspect esthétique (qui est le point d’Eric L. Morgan) et de l’efficacité de la communication, qu’on peut raccrocher aux fonctions phatiques et pragmatiques du langage, il y a aussi lieu de préserver une sémantique du document visuel, à la manière des transcriptions diplomatiques.

Numérisation par Arkhenum du ms d'<em>Illusions</em> perdues (Institut de France) sur scanner i2S

Manuscrit d’Illusions perdues, Fonds Lovenjoul, Institut de France, LOV A107 f°1r°,
numérisation effectuée par Arkhenum pour la Fondation Empreinte


Transcription du folio 1 d'Illusions perdues par Takayuki Kamada
Transcription diplomatique du f°1r° par Takayuki Kamada,
La Stratégie de la composition chez Balzac, Surugadai-Shuppansha, 2006, ISBN4-411-02221-4

Comment dissocier le “texte” de la transcription de son rendu graphique ? Transcodé en TEI, interprété en XHTML, cela exigerait que les indications de mise en page soient réparties entre le “contenu” et des classes prédéfinies d’une feuille de style (XSL-FO ou CSS 3) préservant les relations graphiques, et que l’on indique à un quelconque “médiateur”, ré-éditeur ou automate de mise en écran, qu’il a à respecter ces indications dans le cas précis, alors qu’un texte plus linéaire, des “données”, lui laissent usuellement la responsabilité du rendu.
Comment séparer mise en page et texte sans détruire le sens de documents comme la page suivante du Talmud de Babylone ?

Page du Talmud de Babylone
Une page interactive du site d’Eliezer Segal, Université de Calgary

(merci à Jean-Marc Destabeaux et Patrick Altman pour l’identification de ces exemples).

On manque encore de règles et d’expertise pour déterminer les frontières mouvantes entre le “contenu” et la “structure (visuelle ou graphique) de l’information”. [Je note au passage une nouvelle occurrence du glissement entre le sens de "content" document et "content" texte sans dimension visuelle ou graphique...]. En attendant que se constituent des règles de description et des pratiques généralisées, reconnues par tous les automates de composition à l’écran, le format .pdf, la description XML des géométries de pages qu’est ALTO et la TEI pour la catégorisation sémantique des structures de documents paraissent les seuls lieux où les dimensions non-linéaires du document trouvent un début d’écho efficace et respectueux de l’apport des “arts de la lisibilité” du texte imprimé.

Espaces et moments de lecture

Via booktwo.org

Via Booktwo.org, sélection dans texts de STML

Se rappeler que les supports de textes peuvent soumettre la lecture à des conditions variées.

Point de Peter Brantley sur le dépôt légal numérique [à compléter]

Billet clair et suggestif à propos du dépôt légal numérique à la Bibliothèque du Congrès, avec une proposition de classement des formats numériques existants.

  • E-books : IDPF EPUB, or other “packaged” formats
  • H-books : books formatted in X/HTML
  • J-books : books from a journals publishing platform
  • D-books : books digitized from print editions
  • E-books : format .epub de l’IDPF, ou autres formats “empaquetés” [reconstituant un volume]
  • H-books : livres formatés en XHTML [livres Web]
  • J-books : livres provenant d’une plate-forme d’édition de revues et journaux scientifiques [journaux numériques]
  • D-books : livres numérisés à partir d’éditions imprimées [imprimés numérisés]

N.B. : Je me propose de compléter peu à peu ces premières indications…