Project Description
Das MOSAIC-Projekt wurde durch die Deutsche Forschungsgemeinschaft (Fördernummer: HO 1937/2-1) gefördert und von 2012 bis 2015 am Institut für Community Medicine (Abteilung Versorgungsepidemiologie und Community Health) der Universitätsmedizin Greifswald durchgeführt.
Ziel des DFG-geförderten Einzelprojekts war es, die Realisierung eines Zentralen Datenmanagements mit Fokus auf die epidemiologische Forschung und den Datenschutz zu vereinfachen.
Im Jahr 2019 erfolgte die Integration von mosaic-greifswald.de in die neue Web-Präsenz ths-greifswald.de. Dabei wurden Inhalte in Einzelfällen in entsprechende Dokumente überführt. E-PIX, gPAS und gICS werden zentral über ths-greifswald.de zur Nutzung bereitgestellt. Die weiteren Werkzeuge finden Sie in der nachfolgenden Übersicht.
Der wissenschaftliche Beirat, bestehend aus Prof. Dr. Gefeller (FAU Erlangen), Prof. Dr. Dr. Leitzmann (UK Regensburg), Univ.-Prof. Dr. Neugebauer (Universität Witten/Herdecke) und Prof. Dr. Sax (UMG Göttingen), begleitete und beriet die Arbeit im MOSAIC-Projekt.
Publikationen und Vorträge
Die Treuhandstellenwerkzeuge
Die Werkzeuge wurden auch nach Projektende durch die Universitätsmedizin Greifswald weiterentwickelt und stehen mittlerweile über unterschiedliche Portale zur Nutzung durch die Community zur Verfügung. Die neueste Version der Software, Dokumentation und Demos sind auf den jeweiligen Produktseiten zu finden.
plan.Tau – eine interaktives Referenzportal für Lösungen im zentralen Datenmanagement
Das Frage-Antwort-System plan.Tau unterstützt als Wissensdatenbank die Planung und Konzeption eines Zentralen Datenmanagements für die epidemiologische Forschung. Ziel war es, Forschern und IT-Experten am Beispiel der Phasen von Kohortenstudien einen roten Faden für die Erstellung eines Zentralen Datenmanagements zu bieten. Gezielte Fragen sollten auf typische Probleme hinweisen. Die jeweiligen Antworten boten zeitgleich Lösungsansätze und Verweise auf gängige Literatur. Das entstandene Web-Portal stand bis Juni 2019 unter https://mosaic-greifswald.de/qa/ für die Community zur Nutzung bereit und wurde auf der DGEpi in Ulm 2014 vorgestellt.
Vorlage Datensicherung
Das Treffen von Datensicherungsvorkehrungen ist für jedwedes Forschungsvorhaben unerlässlich und sollte bereits in der Vorbereitungsphase (in jedem Fall vor Beginn der Datenerhebung) erfolgen. Der bereitgestellte Foliensatz dient einer kurzen Einführung und Sensibilisierung für das Thema Backup- und Recovery-Strategien. Er bietet eine einfache Übersicht von Einflussfaktoren und Entscheidungskriterien für die konkrete weitere Planung.
Im Rahmen des MOSAIC-Projektes wurde auf Basis von Erfahrungen und zusätzlicher Recherche eine Mustervorlage für die einfache Aufstellung eines Datensicherungs- und Wiederherstellungsplanes entwickelt. Dieses Dokument versteht sich sowohl als Werkzeug für Planung und Kommunikation Ihrer Sicherungsstrategie, indem es hilft gemeinsam mit Ihren IT-Ansprechpartnern entsprechende Anforderungen zu identifizieren und adäquate Maßnahmen festzulegen als auch als Handlungsunterstützung im Schadensfall, in dem es Ansprechpartner, Sicherungsartefakte und Wiederherstellungsschritte dokumentiert bereithält. Die ausgefüllte Vorlage sollte allen Beteiligten zur Verfügung gestellt werden und sicher (an verschiedenen Stellen) aufbewahrt werden.
Vorlage Datenschutzkonzept
Die Vorlage stellt eine vorbereitete Dokumentstruktur zum Verfassen eines Datenschutzkonzeptes für (multizentrische) Studien und Register zur Verfügung. Hinweise und Beispiele informieren den Verfasser über die Bedeutung der jeweiligen Abschnitte. Gezielte Fragen machen auf notwendige Überlegungen, Entscheidungen und potentielle Lösungen aufmerksam.
Ziel der Vorlage ist es, dem Autor des Datenschutzkonzeptes einen roten Faden für die Erstellung eines Datenschutzkonzeptes zu bieten und die dafür notwendige Form bereitzustellen.
Leitfaden zur Beschreibung eines Data Dictionary
Die Definition des Data Dictionary muss sorgfältig durchgeführt und abgestimmt werden, denn sie ist Grundlage und Ausgangspunkt für sämtliche Folgeschritte im Verlauf einer Studie bzw. eines Registers. Sollten nach Studien-/Registerstart Änderungen am Studiendatensatz oder am Data Dictionary erforderlich werden, hat dies erhebliche organisatorische und zeitliche Auswirkungen, deren Aufwand regelmäßig unterschätzt wird.
Ziel des Leitfadens ist es, Epidemiologen und Wissenschaftlern möglichst knapp und präzise bei der Erstellung eines Data Dictionary zu unterstützen. Dazu werden zu berücksichtigende Aspekte aufgeführt und gleichzeitig zahlreiche Empfehlungen zum Vorgehen aus Sicht der Praxis gegeben. Dieser Leitfaden wird in deutscher und englischer Sprache bereitgestellt. Themenfelder sind u.a.:
- Vorbedingungen
- Variablennamen und Ausprägungen
- Typische Datentypen und Wertebereiche
- Gültigkeitsbereiche und Abhängigkeiten
- Codierung gültiger Werte und Missings
- Empfehlungen aus der Praxis
- Abstimmungsbedarf
- Vorlagen und Beispiele
Leitfaden zur Erstellung von eCRF
Epidemiologische Forscher ohne umfassende IT-Kenntnisse greifen für die Datenerhebung in Studien und Registern mitunter auf die Werkzeuge des täglichen Büroalltags (z.B. MS-Excel) zurück. Technische Herausforderungen, wie der Einsatz eines zentralen Systems für die elektronische Datenerhebung (Electronic Data Capture (EDC)) und die Erstellung entsprechender Web-Formulare (electronic Case Report Form, kurz eCRF), stellen dabei reale Hürden dar.
Ziel des Leitfadens ist es, ausgehend von der Beschreibung des Data Dictionary, beim Entwurf eines eCRF zu unterstützen. Verweise auf entsprechende Literatur und Beispiele, sowie Empfehlungen aus der Praxis, sollen zum besseren Verständnis beitragen und helfen den Rechercheaufwand zu minimieren. Dieser Leitfaden wird in deutscher und englischer Sprache bereitgestellt. Themenfelder sind u.a.:
- Vorbedingungen
- Formulierung und Struktur von Fragen
- Tipps zur Bestimmung der Eingabeelemente
- Wahl der eCRF-Lösung
- Formulardefinition am Beispiel von OpenClinica
- Tipps zur Fragebogengenerierung
- Empfehlungen aus der Praxis
- Weiterführende Literatur
- Direkt nutzbare Beispiel- eCRFs
Bibliothek in R zur grundlegenden Prüfung der Datenqualität
Jedes epidemiologische Forschungsprojekt, das Datenerhebungen durchführt, steht vor der Herausforderung, die Qualität der Daten kontinuierlich zu prüfen.
Um grundlegende Verfahren zur Plausibilitätsprüfung von Daten, ohne Kenntnis von Einheiten, Wertebereichen und Codierungen der entsprechenden Variablen, anwenden zu können, liegt der Fokus der bereitgestellten R-Bibliothek auf der allgemeingültigen Generierung von Reports. Auf diese Weise können Aussagen zur Verteilung von Häufigkeiten, zur Vollzähligkeit und zur Vollständigkeit der Daten getroffen werden.
Ziel der MOQA-Bibliothek ist es, die Qualität der Daten möglichst generisch je Studienvariable mit R zu visualisieren. Dies geschieht vorwiegend über die Häufigkeitsanalyse gültiger Werte und Missings, die Verteilung der Daten sowie die Unterscheidung in kategoriale und metrische Daten. Dies erlaubt allgemeine Berichte zu generieren und entsprechende Aussagen abzuleiten. Für konkretere Aussagen sind Kenntnisse über Metadaten (z.B. Variablenbeschreibung, Einheit) und Codierungen (z.B. gültige Antworten, Missings) der Variablen erforderlich.
Mitgelieferte Beispielskripte für metrische und kategoriale Daten (im CSV-Format oder als Dataframe) geben die Möglichkeit, Reports für einzelne oder gleich mehrere Variablen zu generieren. Die 2017 erschienene Publikation (damals noch unter dem Namen mosaicQA) fasst Hintergrund und Umfang der Bibliothek abschließend zusammen.
Toolbox for Research
Limitierte Ressourcen bezüglich Budget, Personal und IT-Infrastrukturen gehören zu verbreiteten Kennzeichen der Epidemiologie und Versorgungsforschung. Insbesondere kleineren Registern und Kohortenstudien fehlt es oft an Personal mit Programmierkenntnissen. Daher behelfen sich derartige Studien häufig mit vermeintlich einfachen Erhebungs- und Studienteilnehmerverwaltungsverfahren anstelle eines IT-gestützten Datenmanagements inklusive Studiendatenbanken.
Im Rahmen des MOSAIC-Projektes wurde eine flexible Software-Lösung für das Datenmanagement in kleineren Forschungsvorhaben kostenfrei bereitgestellt. Diese „Toolbox for Research“ (kurz: Toolbox) ist für eine Vielzahl von Anwendungsszenarien geeignet und unterstützt bei der standortübergreifenden Erhebung, Verarbeitung und Speicherung von Forschungsdaten. Die automatische Installation der entstandenen Open Source Lösung wurde wesentlich durch den Einsatz von Docker und eine umfangreiche Begleitdokumentation vereinfacht. Da in kleineren Forschungsprojekten eine automatisierte Trennung von MDAT und IDAT ohne Treuhandstellenunterstützung schwer umzusetzen ist, sollen innerhalb der Toolbox keine personenidentifizierenden Daten gespeichert werden. Um die medizinischen Forschungsdaten innerhalb der Toolbox und die IDAT aus dem klinischen Kontext dennoch nachvollziehbar in Beziehung setzen zu können, setzt die Toolbox ein einheitliches und im Bedarfsfall transparentes Pseudonymisierungskonzept um.
In der Publikation „Toolbox for Research, or how to facilitate a central data management in small-scale research projects“ werden Hintergrund und technischer Ansatz der Toolbox beleuchtet. Darüber hinaus werden in dem Open Access erschienenen Artikel erste Erfahrungen und Ergebnisse vom Pilotbetrieb der Toolbox im Rahmen des Verbrennungsregisters vorgestellt. Hier gehts zum Artikel: http://rdcu.be/FynH
Für Fragen und Anregungen zum MOSAIC-Projekt können Sie uns hier kontaktieren.