
Demo des Workflows: Mirko Lorenz erklärt mir per Screensharing die Arbeitsschritte bei plain X
Global operierende Rundfunkunternehmen wie die Deutsche Welle oder die BBC stehen vor einem Dilemma: Sie wollen ihre Inhalte in möglichst vielen Sprachen anbieten, aber die manuelle Adaption von Content verschlingt Zeit und Budget. Gleichzeitig können sie die Qualitätskontrolle nicht aus der Hand geben. Die Lösung liegt nicht in vollautomatischer KI, sondern in intelligenter Unterstützung mit "humans in the loop". Die Deutsche Welle hat zusammen mit Priberam, einem portugiesischen Spezialisten für Natural Language Processing (NLP), genau dafür eine Plattform entwickelt: plain X.
Was die Plattform leistet und für welche Anwender sie den meisten Nutzen bringt, darüber habe ich mit Mirko Lorenz gesprochen. Er ist Innovations Manager im Research and Cooperation Team (ReCo) der Deutschen Welle in Bonn - eine Art Satellitenabteilung der DW, die nicht wie das Hauptunternehmen aus dem Bundeshaushalt finanziert wird, sondern vor allem durch Fördermittel aus EU- und deutschen Forschungsprojekten.
Mirko Lorenz ist auch der Gründer von Datawrapper. Das 2012 gestartete datenjournalistische Tool wird mittlerweile von rund 600 großen Redaktionen weltweit genutzt wird, hat eine Million registrierte Nutzer und produziert täglich 10.000 Diagramme. Disclaimer: Mirko Lorenz und ich kennen uns seit unseren journalistischen Anfangstagen. Vor mehr als 30 Jahren waren wir beide freie Mitarbeiter des bundesweit erscheinenden Uni-Magazins Unicum.
Nun aber zu plain X:

Eine 4-in-1-Plattform für Content-Adaption
plain X kombiniert vier Funktionen in einer kollaborativen Arbeitsumgebung:
Transkription von Audio und Video in Text
Übersetzung in über 100 Sprachen
Untertitelung mit anpassbaren Templates für verschiedene Plattformen
Voice-over mit verschiedenen Stimmen und Akzenten
Das Besondere: Die Plattform wurde aus der Forschung für die Praxis entwickelt. "Das ist ein seltenes Beispiel für ein echtes Produkt, das aus wissenschaftlicher Forschung kommt", erklärt Mirko Lorenz. Seit zehn Jahren arbeitet das Research and Cooperation Team der Deutschen Welle im Bereich "Human Language Technologies" – diese Erfahrung floss in die Entwicklung von plain X mit ein.
Die Deutsche Welle hält einen Anteil an dem Projekt und nutzt plain X selbst seit knapp zwei Jahren als Standardtool, mit voller Integration in die Produktionsumgebung und Anbindung an die Cloudservices. Betrieben und entwickelt wird plain X durch das Unternehmen Priberam mit Sitz in Lissabon. Die beiden Partner lernten sich in gemeinsamen Forschungsprojekten kennen. Das Team aus Portugal bringt Jahrzehnte an Sprachexpertise mit – das Unternehmen betreibt seit 1996 das größte Online-Wörterbuch für Portugiesisch.
Nicht Automatisierung, sondern Kollaboration
Der entscheidende Unterschied zu vielen KI-Tools: plain X ist auf journalistische Qualitätssicherung ausgelegt. Was Content Creators bei der schnellen automatisierten Untertitelung von YouTube-Videos verziehen wird, wäre für die DW indiskutabel. “Wir können nicht plötzlich jede Menge Tippfehler akzeptieren. Da geben wir unsere Kompetenz und Glaubwürdigkeit weg", sagt Lorenz.
Die Plattform ermöglicht es, Transkripte zu kommentieren, die Schreibweise von Namen zu checken oder auch Muttersprachler zur Prüfung einzuladen und Glossare anzulegen. Diese Glossare sorgen dafür, dass Namen und Fachbegriffe konsistent geschrieben werden. Der britische Ex-Premier Rishi Sunak beispielsweise wird von den meisten Transkriptionssystemen mit Z geschrieben. “Mit Glossaren können wir verhindern, dass wir uns beim Regierungswechsel zu Keir Starmer eine Woche lang damit befassen, Zunak in Sunak zu ändern”, sagt Lorenz.
Multi-Engine-Ansatz für beste Qualität
plain X ist "engine-agnostic" – die Plattform bindet derzeit 15 Transkriptions-Services und acht Übersetzungs-Engines an, darunter Azure, Google, Whisper, DeepL und ElevenLabs Scribe. Der Vorteil: Man kann für jede Aufgabe die beste verfügbare Engine wählen.
Die Qualität der Sprachengines variiert stark nach Sprache und vor allem Sprachpaaren. Für etwa 70 Prozent aller Fälle wird DeepL genutzt, aber bei "Low-Resource Languages" – Sprachen mit weniger Trainingsmaterial – können spezialisierte Engines besser sein. ElevenLabs Scribe funktioniert beispielsweise gut für Kiswahili, wichtig für das WDR-Studio in Nairobi.
Der Ansatz unterstützt bewusst auch kleine, spezialisierte Anbieter wie OpenTrad (Galizisch, Katalanisch) oder Lesan AI (Amharisch). "Wir erwarten, dass durch eine sprachliche Hinwendung eine kleine Engine auf Dauer besser werden kann als eine große generische. Bei Google läuft Galizisch so mit, das interessiert die nicht wirklich. OpenTrad dagegen macht nichts anderes als Galizisch", erklärt Lorenz.
plain X ermöglicht auch den Einsatz synthetischer Stimmen. Doch diese Funktion wird bisher nur für ganz bestimmte Anwendungsfälle benutzt. "Die aktuell verfügbaren Stimmen sind schon sehr gut. Aber unser Gehörsinn ist noch feiner entwickelt als unser Sehsinn. Eine Kunststimme, die isoliert wirklich gut klingt, trägt dann doch nicht für eine längere Dokumentation", so Lorenz. Gut einsetzen lässt sich die aktuelle Generation der Sprachtechnologie bei kurzen News-Videos. Bei längeren Dokumentationen fehlen aber noch entscheidende Feinheiten - Nuancen, Sprachpausen, wechselnde Emotionen, die wir bei echter Sprache sofort raushören.
Konkrete Nutzung: Von Lusa bis Doha Institute
Neben der Deutschen Welle nutzen unter anderem der öffentlich-rechtliche Sender WDR, Lusa (Portugals Nachrichtenagentur), CNN Portugal und ChatEurope (AFP, dpa, El País) die Plattform im Regelbetrieb.
Lusa setzt plain X mit 80 Redakteuren täglich ein – allerdings nicht für Video-Adaption, sondern für Transkripte. "Die Redakteure brauchen die Original-Zitate von den Politikern, die morgens über die Medien gelaufen sind, und übertragen sie in einen Text-Stream", erklärt Lorenz.
Das Doha Institute in Katar nutzt plain X pro bono: Journalismus-Studenten arbeiten damit für Transkription, Übersetzung und Untertitelung. „Das hilft uns, die Qualität der Transkription und Übersetzung im Umgang mit Hocharabisch und den regionalen Dialekten besser zu verstehen“, so Lorenz.
Werbung
Zeitersparnis und Workflow-Integration
plain X verspricht bis zu 85 Prozent Zeitersparnis bei Transkription, bis zu 80 Prozent bei Übersetzung und bis zu 95 Prozent bei Untertitelung und Voice-over. Diese Effizienzgewinne basieren auf Templating-Optionen und der Anwendung von Regeln für Untertitel.
Entscheidend für professionelle Nutzung: Die Integration in bestehende Workflows. Bei der Deutschen Welle ist plain X an interne Systeme angebunden. So können Texte, Audios und vor allem Videos in plain X bearbeitet und die Ergebnisse zum Beispiel an Adobe Premiere für die finale Bearbeitung geschickt werden.

plain X Flyer bei der International Broadcasting Convention (IBC) in Amsterdam im September 2025, Credit: plain X
Nicht nur für globale Medienhäuser
Auch kleinere Redaktionen können profitieren. Das Preismodell ist volumenbasiert ohne monatliche Fixkosten, mit siebentägiger kostenloser Testphase.
Lorenz sieht vor allem Potenzial für Netzwerke: "Stell dir vor, wir würden Netzwerke von investigativen Journalisten mit diesem Tool in die Lage versetzen, auf relativ einfache Art ihren Content in 30 Sprachen zu übersetzen – das wäre kein Problem. Die hätten vielleicht gar nicht so häufig Bedarf, könnten aber, wenn es darauf ankommt, eine schnell skalierte 30-Sprachen-Übersetzung anbieten, die in einer Nacht durch ist."
Um solche Nutzungsmodelle zu ermöglichen, setzt plain X auf volumenbasierte Abrechnung – die Zahl der Redakteure ist kein Faktor für die Berechnung. „Sonst würden wir temporäres Teamwork ja fast unmöglich machen, gerade diese Form der Kollaboration ist aber wichtig. “, ergänzt Mirko Lorenz.
Auch öffentlich-rechtliche Sender in Deutschland könnten ihre Communities besser erreichen: "Warum haben wir kein ukrainisches Programm, wo unser Programm, das wir produziert haben, noch mal auf Ukrainisch übersetzt wird? Die Flüchtlinge wären dankbar, und es reicht ja ein zehn-Minuten-Update am Tag.”
Die größere Mission: Mit faktenbasiertem Journalismus neue Zielgruppen erreichen
Für Lorenz geht es um mehr als Effizienz: "Das Internet bietet ein gewaltiges Informationsangebot, gerade deshalb ist Einordnung wichtig. Was wahr ist, darüber gibt es gerade jetzt bitteren Streit. Das Infragestellen des Klimawandels ist da nur ein Beispiel. Hier Wissen zu vermitteln, immer wieder Fakten zu liefern, das ist wichtig. Und das gelingt leichter, wenn man die jeweilige Sprache spricht."
Die Deutsche Welle verfolgt seit Jahren die Strategie, Nutzer über die jeweils populären Plattformen des Landes zu erreichen – über Facebook, Instagram, YouTube oder TikTok. Als Folge erreicht die DW mittlerweile wöchentlich 337 Millionen Nutzende pro Woche und berichtet als Auslandssender in 32 Sprachen weltweit. “Wenn man mit Menschen aus Südamerika, Afrika oder Asien zusammenkommt, trifft man oft Zuschauer der Deutschen Welle. Die Menschen erkennen an, dass die DW darauf achtet, ausgewogene Berichterstattung anzubieten. Das wird in Zeiten mit teils sehr extremen Politikstilen und Sichtweisen nachgefragt”, betont Lorenz.
plain X ist ein Werkzeug, um diese Strategie voranzutreiben – nicht durch blinde Automatisierung, sondern durch intelligente Unterstützung journalistischer Arbeit mit klarer Qualitätskontrolle.
Meine 5 Learnings für Journalisten und Redaktionen
Für einzelne Journalisten:
KI-Tools sollten kollaboratives Arbeiten ermöglichen, nicht isolierte Einzellösungen sein. Die Möglichkeit, Kommentare zu hinterlassen und Glossare zu nutzen, verhindert, dass Fehler sich durch den gesamten Workflow ziehen.
Transkripte, Übersetzungen und Untertitel erweitern die Zahl der potenziellen Nutzer, die KI reduziert die Kosten für diese Adaption
Für kleine Redaktionen mit Minderheitensprachen:
Spezialisierte kleinere Engines können für weniger verbreitete Sprachen bessere Ergebnisse liefern als generische große Anbieter. Es lohnt sich, nach sprachspezifischen Lösungen zu suchen statt nur auf die großen Namen zu setzen.
Für mittelgroße Redaktionen:
Der modulare Einsatz ist entscheidend: Man muss nicht alle Features nutzen. Manche Redaktionen brauchen nur Transkription für Text-Output, andere nur Untertitelung für Social Media. Die Investition rechnet sich auch bei selektivem Einsatz.
Für globale Medienhäuser:
"Engine-agnostic" ist wichtiger als die Bindung an einen Anbieter. Die KI-Landschaft entwickelt sich schnell – wer flexibel zwischen verschiedenen Engines wechseln kann, bleibt wettbewerbsfähig und kann für jede Sprache die beste verfügbare Lösung wählen.
Für alle Redaktionen:
Der Einsatz von KI sollte von der journalistischen Mission getrieben sein, nicht von der Technologie. Die Frage ist nicht "Was können wir mit KI machen?", sondern "Welches Problem wollen wir lösen?" – dann kann KI das richtige Werkzeug sein.