#19/ 2019
8/9

freies XML-datenformat für publikumsverlage vorgestellt

Fast jede Branche – vom Automobilbau bis zum Onlinebanking – hat sich auf einheitliche Datenformate verständigt. Für Publikumsverlage gab bisher es eine solche Arbeitsgrundlage nicht, was die digitale Transformation der Branche erschwert. Das soll sich jetzt ändern: Mit dem neuen parsX-Schema liegt ab sofort eine neue, frei zugängliche XML-Grammatik vor. 

Dr. Stefan Rieß, Verlagsberater und Spezialist für die Repositionierung von Verlagen und für die Digitale Transformation, befragte dazu Tobias Ott, den Geschäftsführer der pagina GmbH Publikationstechnologien, die das parsX-Schema zusammen mit zahlreichen Verlagen entwickelt hat. 

Sie machen sich schon lange für einen Datenstandard für Verlage stark. Die wichtigste Frage zuerst: Warum brauchen denn Publikumsverlage überhaupt einen einheitlichen Datenstandard

Das ganze Prinzip der digitalen Transformation, jedes Geschäftsmodell in der digitalen Welt basiert auf der Grundlage einer reibungslosen Datenübermittlung zwischen Sender und Empfänger. Fast jede Branche, vom Automobilbau bis zum Onlinebanking hat sich daher auf einheitliche Datenformate verständigt. Nicht zu vergessen HTML, den Datenstandard für Webseiten – ohne diese verbindliche Regelung, wie Websites codiert sein müssen, gäbe es das Web in der heutigen Form nicht. Auch für unsere Branche gibt es Standards: ONIX für bibliographische Metadaten, BPMN für die Abbildung von Prozessen oder JDF für Auftragsdaten.

Aber ausgerechnet für unsere Inhalte, das wertvollste, was Verlage besitzen, gibt es kein einheitliches Datenformat. Andere Verlagssparten sind da weiter: im Bereich Jura oder Medizin/Naturwissenschaften haben sich Standards etabliert, und die Verlage profitieren sehr davon.

Wie profitieren denn die Verlage davon konkret? 

Viele digitale Geschäftsmodelle werden überhaupt erst denkbar, wenn einheitliche Daten vorliegen – zumindest innerhalb eines Verlages, idealerweise aber verlagsübergreifend. Lassen wir das Bild einmal zu: Wäre es nicht fantastisch, wenn die gesamte deutschsprachige Literatur in einem einheitlichen Datenformat vorläge? Es wäre ganz sicher der Ursprung zahlreicher neuer Geschäftsmodelle – nicht nur für Verlage, sondern auch für den Buchhandel! Das ist unsere Vision. Zur Klarstellung: Es geht nicht um den kostenlosen Zugang zu Verlagsinhalten, sondern lediglich um eine technische Grundlage für neue Geschäftsmodelle.

Es gibt aber noch einen weiteren, wirtschaftlichen Aspekt: Der Einsatz eines offenen Formats reduziert massiv die Kosten. Vor allem deshalb, weil es fertige Softwarelösungen gibt, die das Format unterstützen. Wir haben mit vielen Softwareherstellern gesprochen, sei es im Bereich Redaktionssysteme, Content Management oder Prozessautomation. Die Reaktion war überall gleich: „Endlich gibt es einen de Facto-Standard, dann lohnt es sich für uns, Lösungen zu entwickeln.“ Die ersten Produkte sind schon am Markt – natürlich auch unsere eigenen Publishinglösungen, aber eben nicht nur.

Welche Vorteile hat dieser Standard denn im Einzelnen? 

Das Wichtigste ist: Es ist ein XML-Datenformat von Verlagen für Verlage, der komplett an der täglichen Lektorats- und Herstellungspraxis entwickelt wurde. Das heißt, er enthält eine Menge spezifische Bausteine, die speziell für Verlage relevant sind – so etwas findet man sonst nirgends. Es gibt z.B. Bausteine für die Kennzeichnung von Leseproben-Grenzen, Module für Lyrik oder Bühnenstücke, Module für Multimedia-Elemente, Register und vieles mehr. Wir stellen sicher, dass barrierefreie Produktionen nach neuesten Standards möglich sind, was für Verlage immer wichtiger wird – die Umsetzung der Marrakesch-Richtlinie steht ja nun an. Außerdem sind alle Elemente auf Deutsch, was den Einstieg intuitiv macht. 

Wie kam es eigentlich zur Entwicklung dieses Datenformats? 

Wir entwickeln parsX ja schon seit fast 10 Jahren. Zuerst war es eine Auftragsarbeit für die Holtzbrinck-Verlage, die ihre gesamte Buchproduktion darüber abbilden und schon seit Jahren von den Vorteilen schlanker Produktionen und einer einheitlichen digitalen Backlist profitieren. Dann sind im Laufe der Zeit etwa 15 weitere Verlage und ca. 30 Satzdienstleister hinzugekommen, deren Wünsche an das Datenformat ebenfalls mit eingeflossen sind. Wir können also mit Fug und Recht sagen: Das Datenformat war bereits zigtausendfach bewährt, als wir uns entschlossen haben, es neu zu designen und frei zugänglich zu veröffentlichen.

Im Zuge der Entwicklung haben wir Workshops mit allen teilnehmenden Verlagen abgehalten, um auch künftige Anforderungen an digitalen Verlagscontent abbilden zu können. Zu guter Letzt haben wir von den teilnehmenden Verlagen dankenswerterweise sämtliche bereits publizierten Titel in XML zur Verfügung gestellt bekommen, haben diese in eine Datenbank einfließen lassen und analysiert, welche Datenstrukturen denn wie häufig – und welche gar nicht – in der Praxis zum Einsatz kamen. Daraus konnten wir ein Ergonomie-Design ableiten.

Warum die Entwicklung eines neuen Formats, während es doch bereits bewährte Standards gibt? 

In der Tat gibt es bereits Standards zur Abbildung von Inhalten: HTML, docbook, TEI und andere mehr. Doch sie erfüllen nicht die Ansprüche eines Verlages an seine Datenhaltung – sonst würden sie ja auch eingesetzt werden! TEI ist beispielsweise ist ein fantastischer Standard, wenn Sie wissenschaftlich an Texten arbeiten wollen. Fürs Publishing ist der Standard eine Katastrophe – viel zu kompliziert, viel zu offen – und viele Bausteine fehlen. Es wird höchste Zeit, dass die Verlage auf ein Datenformat zurückgreifen können, das speziell für unsere Branche designt wurde. Aber selbstverständlich haben wir auf Kompatibilität zu den anderen Standards geachtet. 

Wie lange hat die Entwicklung gedauert? Welche Kosten sind entstanden? 

Obwohl wir auf die lange Erfahrung mit parsX aufsetzen konnten, sind in die Umsetzung, Dokumentation etc. mehrere Mannjahre Arbeitszeit eingeflossen. Konkret arbeiten wir seit Mai letzten Jahres an dem Standard, parallel aber auch an den neuen Publishing-Modulen, die auf den Standard aufsetzen.

Ohne die Fördermittel vom Bund hätten wir das Projekt nicht realisieren können – trotzdem haben wir den Aufwand unterschätzt und deutlich mehr eigene Mittel in das Projekt investiert, als wir geplant hatten. Nun hoffen wir, dass das neue XML-Format von der Branche gut angenommen wird.

Wie schätzen Sie die Zukunftschancen der Belletristik- und Sachbuchverlage ein? 

Unsere Wahrnehmung ist, dass viele Verlage sich lange der Frage verweigert haben, was die gesellschaftliche Rolle von Verlagen in einer digitalen Gesellschaft ist. Das ändert sich gerade, und ein neues Selbstbewusstsein tut den Verlagen gut. Wir werden wohl nicht mehr die Blütezeiten des gedruckten Buches sehen, die es vor der digitalen Revolution gab – aber ich bin der Überzeugung, dass es im Informationszeitalter ein extrem gutes Geschäftsmodell sein kann, kostenpflichtige Information anzubieten – gedruckt oder digital.
Hat das Geschäftsmodell der Verlage in Ihren Augen noch eine Zukunft? 

Selbstverständlich! Es hängt davon ab, wie wir das Geschäftsmodell definieren. Kuratierte, verlässliche Information anzubieten ist extrem zukunftsfähig – und das ist genau das, was Verlage gut können. Was wir noch nicht so gut können, ist, sie personalisiert, individualisiert, zu jedem Zeitpunkt und an jedem Ort der Welt abrufbar anzubieten. 

Die frei zugängliche und kostenlos nutzbare neue parsX-XML-Grammatik ist ab sofort unter www.parsx.de downloadbar. 

Tobias Ott ist Geschäftsführer der pagina GmbH in Tübingen, die sich als Technologieberater mit eigener XML-Vorstufe darauf spezialisiert hat, Verlage durch die digitale Transformation zu begleiten. Er hat viele Jahre die XML-Ausbildung an der Hochschule der Me- dien verantwortet; heute unter- richtet er dort „digital Publishing“. Er ist Autor zahlreicher Fachpublikationen.