Im January 2025 nahm der Philadelphia Inquirer an einem zweiwöchigen Hackathon teil im Rahmen einer KI-Initiative, die vom Lenfest Institute for Journalism, Microsoft und Open AI organisiert wurde. Dabei herausgekommen sind diverse KI-Tools, um den Workflow zu verbessern.
Das interessanteste Ergebnis des Hackathons ist ein KI-gepowertes Recherchetool, das der Tageszeitung hilft, die Schätze in ihrem Archiv zu heben und daraus potentielle neue Verticals und Produkte zu entwickeln. Das dürfte sich lohnen, denn der 1829 gegründete Philadelphia Inquirer ist eine der ältesten Tageszeitungen in den USA mit der drittlängsten ununterbrochenen Erscheinungsphase von 196 Jahren und einer Fülle von historischem Material im Archiv.
Das Ziel: Workflow bei der Archivrecherche optimieren
Das Tool soll vor allem den Zeitaufwand für die journalistische Recherche verringern. Bisher müssen Reporter und Redakteure beim Inquirer für Hintergrundmaterial mehrstufige Anfragen per Stichwortesuche an fragmentierte Teile des hauseigenen Archivs stellen (Printarchiv, digitales Archiv, Fotoarchiv), zusätzlich in externen Quellen recherchieren, sich durch die gesammelten Datenmengen durcharbeiten und die relevanten Daten dann ins Storytelling einfügen.
Die KI-gestützte semantische Suche soll:
Anfragen in natürlicher Sprache ermöglichen
den Sinn und Kontext von Anfragen erkennen
eine Vielzahl von Archiv-Quellen gleichzeitig anzapfen
automatisierte Zusammenfassungen erstellen
eigenständig sinnvolle Nachfragen vorschlagen
journalistische Integrität wahren, d.h. transparent Rechercheschritte und Quellen offenlegen und nicht fabulieren
nicht vom Prinzip “human in the loop” abweichen
Drei Monate nach dem Hackathon berichtete Matt Boggie, Chief Technology and Product Officer des Inquirer jetzt beim International Journalism Festival in Perugia vom aktuellen Stand und schilderte Details des Projekts: „Wir haben inzwischen vollen Archivzugriff auf alle Artikel seit 1978, und das schließt jetzt auch Bilder zu diesen Geschichten ein“, erklärte Boggie. “Wir müssen noch etwas an den Bildern arbeiten, aber wir hoffen, dass wir in Zukunft in der Lage sein werden, auf alle Assets in unserem Archiv zuzugreifen, indem wir einfach danach fragen.”
Der Inquirer setzt bei seinem neuen noch namenlosen Archivrecherche-System auf GPT-4 und nutzt die Funktionen von Azure Search und Azure OpenAI. Reporter und Redakteure wurden in die Entwicklung des Systems von vornherein mit einbezogen, damit die KI optimal auf reale Workflows abgestimmt ist. Mit internen Nutzerstudien und Beobachtungen, wie die Journalisten in der Praxis mit dem Tool interagieren, wird das System sukzessive optimiert.

Einfachere Suche mit Agenten und Personas
Das Archivtool verwendet mehrere KI-Agenten, um verschiedene Aspekte von Abfragen zu bearbeiten, einschließlich der Ableitung von Daten für den historischen Kontext. Agenten und Personas übernehmen verschiedene Aufgaben im Abfrage-Prozess. Agenten können eigenständig relevante Zeiträume definieren und Abfragen verfeinern.
Wenn beispielsweise ein Reporter nach der Reagan-Regierung fragt, versteht das System, dass sich dies auf den Zeitraum vom 20. Januar 1981 bis zum 20. Januar 1989 bezieht.
Ein Beispiel für eine Persona ist laut Boggie “ein Bibliothekar, der Akten über berühmte Persönlichkeiten und Unternehmen in der Region durchblättert und ein Recherchepartner für Reporter ist, die solche Themen bearbeiten.”
Ein Recherche-Tool für Journalisten, aber nicht für User
Der Inquirer will sich mit dem Tool auf die interne Nutzung konzentrieren. Eine Version, bei der Leser KI-gestützt das Inquirer-Archiv durchsuchen können, ist erst einmal nicht vorgesehen.
Dabei spielen laut Boggie mehrere Faktoren eine Rolle:
Risikominimierung: (Fehler und Fakes gelangen bei einem internen Tool weniger leicht an die Öffentlichkeit).
Historische Einordnung: Perspektiven verändern sich im Laufe der Geschichte und neue Fakten kommen ans Licht. Dies zu berücksichtigen wird dem eigenen Team mehr zugetraut als den Lesern.
Prädikat menschlicher Journalismus: Das Publikum schätzt laut Umfragen des Inquirer das menschliche Urteilsvermögen der Reporter und Redakteure.
Matt Boggie betont, dass die Nutzer vor allem das redaktionelle Urteilsvermögen schätzen: Jedes Mal, wenn wir Umfragen zu Themen wie Personalisierung durchgeführt haben, lautete die Antwort: „Alle meine anderen Feeds sind personalisiert. Was ich brauche, ist jemand, der mir sagt, was heute am wichtigsten ist.
Zukunftspläne für den Recherche-Assistenten:
automatisierte Chronologien und Timelines erstellen
automatisch historische relevante Ereignisse erkennen und hervorheben
weiter zurückliegende Zeiträume erschließen
Per Bilderkennung nicht digitalisierte historische Materialien (Schriften, Bücher, Fotos etc.) durchsuchbar machen
Warum ist das Archiv-Recherchetool des Inquirer relevant?
Im Grunde funktioniert das Recherchetool nicht viel anders als die Deep Research Versionen von Open AI, Perplexity etc.. Allerdings kann der Inquirer bei seiner Eigententwicklung das Risiko von Fakes und Fabulierungen sehr weit minimieren, da die KI-Agenten auf Basis des eigenen Archivmaterials trainiert werden. Externe Quellen werden gefiltert über Microsofts RAG-Modell (Retrieval-Augmented Generation) hinzugezogen, so dass bei den Antworten keine ungeprüften Informationen mit Daten aus dem Archiv gemischt werden.
Laut Lenfest Institute will das Team den Code und die technische Dokumentation für das Archiv-Recherchetools offenlegen, damit auch andere Medien davon profitieren können, und zwar global.
Künftige Updates und Erweiterungen sollen in Microsofts RAG-Datenspeicher festgehalten und ebenfalls allgemein zur Verfügung gestellt werden.