Daniel Garcia signale sur son blog la discrète annonce fait par CPI du lancement de son service BookBank.
Le groupe Chevrillon Philippe (CPI) propose aux éditeurs un ensemble de solutions intégrées pour passer de leur production “traditionnelle” à l’édition et la diffusion numériques, en XML et divers formats de livrels.
- BookBank gives each publisher complete control over their content read more>>
- BookBank converts your files from PDF to XML and e-book formats automatically, it also converts many other file types read more>>
- BookBank provides users with secure access to your content, and allows you to distribute it to anyone, anywhere you choose read more>>
- BookBank powers Print-on-Demand and helps you make the most of your backlist read more>>
- BookBank has sub-rights, e-rights, and digital rights management tools built in read more>>
- BookBank allows you to re-purpose content with purpose read more>>
- BookBank image library organises your images as well as their rights read more>>
- BookBank integrates with the key systems currently used in the publishing industry so you never have to re-key information read more>>
- BookBank is built on a common online platform that requires no IT investment on your part so getting up and running is easy read more>>
- BookBank was built from the ground up specifically to be a system for publishers and their suppliers which ensures it fits your business needs
L’expérience industrielle de CPI, la prise en compte des pratiques Internet actuelles, le recours à des partenaires innovants autant qu’héritiers des années d’élaboration de solutions SGML puis XML pour le livre (Exegenix est dirigé par des anciens de SoftQuad, fondée par Yuri Rubinsky en 1984), la prise en compte de la géométrie des pages font de l’offre de BookBank une annonce à prendre très au sérieux dans le paysage de la numérisation du patrimoine imprimé.
![]()
Yuri Rubinsky (1952-1996) est à l’origine des premiers éditeurs structurés (SGML) qui ont véritablement lancé la prise en main de ces techniques dans le monde de l’édition et de la recherche sur les textes (TEI), aux côtés de gens comme Lou Burnard, Michael Sperberg-McQueen, Tim Bray…
Le principe proposé à BookBank par Exegenix repose sur la reprise visuelle des pages (PDF), leur segmentation et ensuite leur structuration en XML, avec le recours à des automates et des phases d’édition assistée par l’analyse automatisée…
Exegenix ne passe pas par une phase de reconnaissance optique des caractères (OCR), mais extrait l’information d’une version PostScript des fichiers PDF. Astucieux, mais à valider sur des exemples concrets pour évaluer la qualité de l’indexation des textes en fonction du processus d’édition qui a abouti au PDF source!

![]()





