banner
Nachrichtenzentrum
Integriertes Unternehmen

Vergleich Bayes'scher Netzwerke, G

Mar 06, 2024

BMC Medical Research Methodology Band 23, Artikelnummer: 191 (2023) Diesen Artikel zitieren

202 Zugriffe

6 Altmetrisch

Details zu den Metriken

Die Aggregation einer Reihe von N-of-1-Studien stellt ein innovatives und effizientes Studiendesign als Alternative zu herkömmlichen randomisierten klinischen Studien dar. Herausforderungen für die statistische Analyse ergeben sich, wenn es zu Verschleppungen oder komplexen Abhängigkeiten des interessierenden Behandlungseffekts kommt.

In dieser Studie bewerten und vergleichen wir Methoden zur Analyse aggregierter N-von-1-Studien in verschiedenen Szenarien mit Übertragungen und komplexen Abhängigkeiten der Behandlungseffekte von Kovariaten. Zu diesem Zweck simulieren wir Daten einer Reihe von N-of-1-Studien zu chronischen unspezifischen Schmerzen im unteren Rückenbereich basierend auf angenommenen Kausalzusammenhängen, die durch gerichtete azyklische Diagramme parametrisiert werden. Zusätzlich zu bestehenden statistischen Methoden wie Regressionsmodellen, Bayes'schen Netzwerken und G-Schätzung führen wir ein übertragsbereinigtes parametrisches Modell (COAPM) ein.

Die Ergebnisse zeigen, dass alle bewerteten bestehenden Modelle eine gute Leistung erbringen, wenn keine Verschleppung und keine Behandlungsabhängigkeit vorliegt. Bei einer Verschleppung liefert COAPM unvoreingenommene und effizientere Schätzungen, während alle anderen Methoden eine gewisse Verzerrung in der Schätzung aufweisen. Wenn eine Behandlungsabhängigkeit bekannt ist, liefern alle Ansätze, die diese modellieren können, unvoreingenommene Schätzungen. Schließlich nimmt die Effizienz aller Methoden leicht ab, wenn Werte fehlen, und auch die Verzerrung in den Schätzungen kann zunehmen.

Diese Studie präsentiert eine systematische Bewertung bestehender und neuer Ansätze für die statistische Analyse einer Reihe von N-of-1-Studien. Wir leiten praktische Empfehlungen ab, welche Methoden in welchen Szenarien am besten geeignet sein können.

Peer-Review-Berichte

Innerhalb des letzten Jahrzehnts ist die personalisierte Medizin auf dem Vormarsch. Die Behandlung von Patienten auf individueller Ebene wurde durch die zahlreichen Möglichkeiten zur Messung von Gesundheitsergebnissen mit intelligenten Geräten und der Anwendung neuartiger datenwissenschaftlicher Ansätze verbessert. Um die Wirksamkeit von Gesundheitsinterventionen auf individueller Ebene zu bewerten, haben sich N-of-1-Studien als Goldstandard etabliert [1, 2]. N-of-1-Studien sind kontrollierte Multi-Crossover-Studien, bei denen jeder Patient seine eigene Kontrollgruppe darstellt. Zusätzlich zu Analysen auf individueller Ebene für eine personalisierte Behandlung können Serien von N-of-1-Studien gemeinsam analysiert werden [3] oder auch mit Ergebnissen aus standardmäßigen randomisierten kontrollierten Studien (RCTs) kombiniert werden, um Schätzungen der Wirksamkeit auf Populationsebene zu erhalten Behandlungen mit gleicher oder höherer Effizienz im Vergleich zu Nicht-Crossover-RCTs [4, 5]. Zusätzlich zur Forschung zu geeigneten statistischen Modellen für die Analyse aggregierter und einzelner n-von-1-Versuche haben frühere Studien Ansätze zur Ableitung optimaler Designs hinsichtlich Stichprobengröße und Anzahl der Zyklen untersucht [6,7,8]. Für die aggregierte statistische Analyse von Serien von N-aus-1-Versuchen gehören zu den häufig verwendeten Methoden nichtparametrische Methoden wie der Wilcoxon-Signed-Rank-Test [9, 10], Zwei-Stichproben-Mittelwerttests [11] und Methoden, die Kovariaten zulassen Anpassungen wie lineare Modelle [12, 13], lineare gemischte Modelle [14] und Bayes'sche Ansätze [15, 16]. Für die Analyse wurden auch autoregressive Modelle zur Berücksichtigung von Zeitabhängigkeiten vorgeschlagen [17]. Daza führte einen kontrafaktischen Rahmen für zeitabhängige Behandlungen ein, um die durchschnittlichen Behandlungseffekte in N-von-1-Studien abzuschätzen [18]. Dieser Rahmen ist auch auf die Analyse von n-von-1-Beobachtungsstudien anwendbar, bei denen die Reihenfolge der Behandlungsphasen nicht randomisiert ist und durch Störfaktoren beeinflusst werden kann [19].

In einigen Studien wurden unterschiedliche Methoden zur Analyse evaluiert und verglichen. Stunnenberg et al. [3] wandten sowohl frequentistische lineare gemischte Modelle als auch Bayes'sche Modelle an und verglichen die Ansätze in einer Studie über die Wirkung von Mexiletin auf die Muskelsteifheit bei Patienten mit nichtdystrophischer Myotonie. Zucker et al. [20] verglichen Modelle mit wiederholten Messungen, hierarchische Bayes-Modelle und einfachere Crossover-Modelle mit Einzelperioden, Einzelpaaren und gemittelten Ergebnissen in der Analyse einer veröffentlichten Reihe von N-von-1-Studien zu rheumatischen Behandlungen. Ihre Ergebnisse zeigten, dass abhängig von den Annahmen verschiedene gemischte Modelle die beste Anpassung lieferten und dass Bayes'sche Modelle empfindlich auf die Spezifikation der Priors reagierten. Chen & Chen [15] verglichen t-Tests und gemischte Modelle in einer Simulationsstudie, als keine Verschleppung vorlag, und stellten fest, dass t-Tests unter dieser Annahme die höchste Aussagekraft lieferten. Schließlich haben Araujo et al. [21] erweiterten die Arbeit von Chen & Chen und betrachteten t-Tests und lineare gemischte Modelle unter verschiedenen Modellannahmen für das Studiendesign, wobei der Schwerpunkt darauf lag, wie das Studiendesign die Randomisierung berücksichtigte.

In dieser Studie konzentrieren wir uns auf zwei besondere Herausforderungen für die Analyse aggregierter N-von-1-Studien: (i) Übertragung und (ii) komplexe Abhängigkeiten und zeitlich variierende Wechselwirkungen des Behandlungseffekts mit Kovariaten. Erstens ist die Behandlung zeitlich unterschiedlich, da ein Patient nicht zwei Behandlungen gleichzeitig erhalten kann. Dies kann zu einer Verschleppung führen – das heißt, dass die Wirkung einer Behandlung immer noch aktiv ist, wenn die andere Behandlung angewendet wird – was die Analyse der Studien und die Interpretation der Ergebnisse erschwert. Als eine Lösung können Auswaschphasen in das Studiendesign eingeführt werden, in denen der Patient keine der Behandlungen erhält. Dies ist jedoch nicht immer möglich, sodass statistische Methoden auf ihre Robustheit gegenüber bekannten oder unbekannten Verschleppungen untersucht werden müssen. Zweitens können Behandlungseffekte bei der aggregierten Analyse von N-von-1-Studien oft von Kovariaten abhängen, ihre Wirkung könnte durch sie modifiziert werden, und dies könnte noch komplizierter werden, wenn zeitlich variierende Wechselwirkungen zwischen Behandlung und Wirkungsmodifikatoren bestehen. Übertragungen und solche komplexen Abhängigkeiten müssen berücksichtigt werden, um unvoreingenommene Schätzungen der kausalen Behandlungseffekte zu gewährleisten, es liegen jedoch keine Best-Practice-Empfehlungen vor [22].

Unsere Arbeit ist wie folgt aufgebaut. Im Abschnitt „Methoden“ beschreiben wir ein allgemeines Datengenerierungsmodell und wie wir es angewendet haben, um Daten für unsere Simulationsstudie zu generieren. Anschließend beschreiben wir die ausgewerteten statistischen Modelle, zu denen auch unser neu vorgeschlagenes verschleppungsbereinigtes parametrisches Modell (COAPM) gehört. Im Abschnitt „Ergebnisse“ beschreiben wir die Ergebnisse der Simulationsstudie, in der die Leistung dieser statistischen Methoden in vier Szenarien bewertet wurde. Wir schließen mit einer Diskussion im Abschnitt „Diskussion“.

Im Folgenden untersuchen wir verschiedene statistische Methoden zur Analyse aggregierter N-von-1-Studien an simulierten Datensätzen, die unterschiedliche Grade an Übertragungen und Abhängigkeiten zwischen Behandlung und Kovariate enthalten. Darüber hinaus vergleichen wir die Methoden an Datensätzen mit und ohne fehlende Daten aufgrund des Abbruchs der Teilnehmer. Als traditionelle Methoden beziehen wir einen Stichprobenmittelwertvergleich und ein lineares Regressionsmodell in die Analyse ein [1, 11]. Darüber hinaus führen wir ein parametrisches Modell ein, das speziell modelliert, wie die Verschleppung den Behandlungseffekt verändert. Abschließend betrachten wir Bayesianische Netzwerke [23] und die G-Schätzung [18, 24].

Um die verschiedenen statistischen Methoden zu bewerten und zu vergleichen, führen wir eine Monte-Carlo-Simulationsstudie durch. Im Folgenden beschreiben wir den Aufbau der Simulationsstudie einschließlich des Datengenerierungsmodells, eine spezifische Anwendung des Datengenerierungsmodells zur Generierung synthetischer Daten einer Reihe von N-of-1-Studien zu chronischen unspezifischen Schmerzen im unteren Rückenbereich und die verschiedenen evaluierte statistische Methoden. Das Datengenerierungsmodell ist über das Python-Paket sinot (https://github.com/HIAlab/sinot) verfügbar und die statistischen Methoden sind im R-Paket cinof1 (https://github.com/HIAlab/cinof1) implementiert.

Im Simulationsmodell kombinieren wir die Datengenerierung auf Basis stochastischer Prozesse, zeitvariabler und kovariatenabhängiger Behandlungseffekte sowie Effekte auf die Ergebnisvariable eingebettet in einen Kausalgraphen. Für die Notation im Folgenden bezeichne Z eine beliebige Variable in unserem Modell, einschließlich des Ergebnisses O, der Behandlung T oder anderer Variablen C.

Zuerst betten wir die Ergebnisvariable O und die Behandlungsvariable T in einen gerichteten azyklischen Graphen (DAG) mit weiteren Variablen C ein, die konstant oder zeitvariabel sein können und aus mehreren gängigen Verteilungen wie Bernoulli, Gauß, Poisson oder simuliert werden können Uniform. Zeitinvariante Variablen würden sich im Laufe der Zeit nicht ändern und beispielsweise demografische Daten oder Grunderkrankungen wie eine frühere Diagnose (von unspezifischen Schmerzen im unteren Rückenbereich) beschreiben. Zeitvariable Variablen können sich bei jeder Beobachtung ändern und könnten Messungen wie die Anzahl der Schritte pro Tag sein.

Wir berücksichtigen lineare Effekte von Variablen \(Z_j\) auf \(Z_i\) zum Zeitpunkt \(t, t\ge 0\), wobei i und j unterschiedliche Variablen indizieren:

wobei \(w_{j,i}\) den linearen kausalen Effekt von \(Z_j\) auf \(Z_i\) bezeichnet und \(\varepsilon _i\) ein zufälliges Rauschen mit dem Mittelwert \(\mu _i\) und bezeichnet Varianz \(\sigma _i^2\), \(\varepsilon _i \sim N(\mu _i, \sigma _i^2)\). Ein Behandlungszeitraum kann aus einem oder mehreren Zeitpunkten, also Tagen in unserer Simulation, bestehen.

Um binäre Variablen zu simulieren, definieren wir einen Schwellenwert \(\lambda_i\in\mathbb{R}\) und wenden eine Schrittfunktion f an, die definiert ist als:

Zeitabhängigkeiten können zur Datensimulation hinzugefügt werden, indem die Variable \(Z^{t}_{i}\) von den gewichteten Werten von \(Z_{j}\) zu den Zeitpunkten \((tl)\) abhängt. , also Verzögerungen hinzufügen l:

Dabei ist L eine nichtleere Menge von ganzen Zahlen größer oder gleich 0 und kleiner oder gleich t.

Die Behandlungsvariablen T haben einen exponentiellen Abfall, der durch Einwaschen \(\tau\) und Auswaschen \(\gamma\) definiert wird, um eine Verschleppung zu simulieren, ähnlich wie bei Percha et al. [25] (siehe ergänzende Abbildung FS1 für eine Veranschaulichung). Daza beschrieb die Verschleppung als langsamen Beginn und langsamen Verfall [18].

Nachdem die exogenen Variablen aus vorab festgelegten Verteilungen gezogen wurden, werden die endogenen Variablen basierend auf den angenommenen Gewichten \(w_{j,i}\) und der DAG generiert.

Um das Ergebnis O zu simulieren, modellieren wir einen zugrunde liegenden Zustand U mit einer Basisliniendrift als zeitdiskreten stochastischen Prozess (Wiener-Prozess); Weitere Einzelheiten finden Sie im Ergänzungstext 1 und in Abb. FS2. Die Basisliniendrift beschreibt hier die beobachtete zeitliche Änderung der Ergebnisvariablen, wenn sie unbehandelt bleibt, was in bestimmten Fällen ein Zeittrend sein kann (Einzelheiten siehe Ergänzungstext 1). Dann ist O zum Zeitpunkt t eine lineare Kombination der kausalen Effekte der anderen Variablen und des zugrunde liegenden Zustands:

wobei \(\varepsilon _o \sim N(\mu _o, \sigma _o^2)\), \(U^t\) den zugrunde liegenden Zustand zum Zeitpunkt t bezeichnet und \(Z^{t}_{i= o}\) bezeichnet die im DAG definierten linearen kausalen Effekte aller Kovariaten auf die Ergebnisvariable O zum Zeitpunkt t, wie in Gleichung 3 definiert.

Für die Simulationsstudie ist es unser Ziel, aus einer Reihe von N-of-1-Versuchen einen realistischen synthetischen Datensatz zu generieren, der die Wirkung täglicher Übungen zur Rückenstärkung (Behandlung 1) mit der Wirkung täglicher Übungen zur Rückenstreckung (Behandlung) vergleicht 2) zur Reduzierung der Ergebnisvariable Chronischer unspezifischer Kreuzschmerz. Wir gehen davon aus, dass Schmerzen täglich gemessen werden. Die Studie umfasst zwei Blöcke mit jeweils zwei Behandlungsperioden.

Wir legen jeden Behandlungszeitraum auf eine Länge von 4 Wochen fest. Die Periodenreihenfolge wird innerhalb jedes Behandlungsblocks zufällig ausgewählt. Ein beispielhaftes Studienschema könnte wie ABBA oder ABAB aussehen, wobei AB (oder BA) ein Block mit zwei Behandlungsperioden und einer Gesamtstudiendauer von 4x4 = 16 Wochen wäre. Darüber hinaus enthält die Studie eine Basisbewertung des Medikamentenkonsums und verschiedener soziodemografischer Variablen. Wir haben diese Variablen anhand einer Literaturrecherche einschließlich [26] und Experteninterviews identifiziert.

Die Demografie umfasst die Variablen Geschlecht und Alter zu Studienbeginn, die über alle Zeitpunkte hinweg als konstante Variablen modelliert werden. Bei der Ausbildung wird beurteilt, ob der Patient einen akademischen Abschluss hatte oder in einem akademischen Programm eingeschrieben war. Die Variable Arbeit gibt an, ob der Patient arbeitet oder nicht. Sowohl Arbeit als auch Bildung werden über alle Zeitpunkte hinweg als konstant angenommen. Der Gesundheitszustand wird beurteilt, einschließlich täglicher Messungen der Medikation (die anzeigt, ob ein Patient Schmerzmittel eingenommen hat), früherer Diagnosen (von unspezifischen Schmerzen im unteren Rückenbereich) und chronischen Krankheiten (die anzeigen, ob bei einem Patienten verwandte chronische Krankheiten, zum Beispiel Skoliose, diagnostiziert wurden). oder Muskelerkrankungen). Neben dem Gesundheitszustand werden täglich auch Lebensstilfaktoren erfasst, darunter körperliche Aktivität, Stresslevel und Schlafqualität.

Wir erstellen eine DAG mit den angenommenen Kausalzusammenhängen zwischen allen identifizierten Variablen, siehe Abb. 1, basierend auf einer Literaturrecherche und Expertenwissen. Wir gehen von Auswirkungen der Demografie auf Bildung, Aktivität, Arbeit, Vordiagnosen, Medikamente und chronische Krankheiten aus. Darüber hinaus gehen wir davon aus, dass es keinen direkten kausalen Effekt der demografischen Merkmale auf unspezifische Schmerzen im unteren Rückenbereich gibt, sondern einen durch Proxy-Variablen vermittelten Effekt, der zu indirekten kausalen Pfaden von demografischen Merkmalen zu unspezifischen Schmerzen im unteren Rückenbereich führt, z. B. durch Aktivität. Wir gehen davon aus, dass die Behandlung Auswirkungen auf Stress, Schlafqualität und unspezifische Schmerzen im unteren Rückenbereich hat. Wir gehen davon aus, dass die Behandlung keine Auswirkungen auf Demografie, Bildung, Arbeit, chronische Krankheiten, Medikamente und frühere Diagnosen hat, da davon ausgegangen wird, dass diese über die Zeit konstant sind. Wie im nächsten Abschnitt „Generierte Datensätze“ ausführlicher beschrieben wird, modellieren wir eine komplexe Abhängigkeit des Behandlungseffekts von der Aktivität (siehe Abb. 3).

DAG der angenommenen kausalen Effekte in der simulierten Studie. Variablen, die einen direkten oder indirekten Einfluss auf die Aktivität haben, wurden in roten Kästchen hervorgehoben, da Aktivität in Szenario 3 ein Interaktionsterm ist. Die Behandlungsvariable ist grün hervorgehoben

Diese Effekte sind in der in Abb. 1 dargestellten DAG zusammengefasst und werden zur Generierung der Daten verwendet. Zusätzlich zu den in der Grafik dargestellten Abhängigkeiten werden auch Zeitabhängigkeiten angegeben: Sowohl die Schlafqualität als auch die Aktivität hängen von der Behandlung zum vorherigen Zeitpunkt ab.

Basierend auf dem Datengenerierungsmodell, dem Studiendesign für unspezifische Schmerzen im unteren Rückenbereich, dem in Abb. 1 dargestellten DAG und den oben beschriebenen Zeitabhängigkeiten zwischen Variablen generieren wir Datensätze für vier verschiedene Szenarien, die in Tabelle 1 dargestellt sind.

Alle Szenarien umfassen Kovariateneffekte gemäß der DAG in Abb. 1, mit Ausnahme der Wechselwirkungen und zeitlichen Effekte zwischen Aktivität und Behandlung, die nur in einigen Szenarien (d. h. 3 und 4) enthalten sind. In Szenario 1 generieren wir die Daten als Basisdatensatz für alle Methoden und berücksichtigen keine Übertragungen, Zeitabhängigkeiten oder Interaktionen zwischen Aktivität und Behandlung. In Szenario 2 werden die Daten mit Verschleppung simuliert, sodass der Behandlungseffekt innerhalb eines Behandlungszeitraums stark zeitabhängig ist, da wir Einwasch- und Auswaschphasen hinzufügen.

In Szenario 3 wird in der Simulation zusätzlich zu den in Abb. 1 gezeigten Kovariablen eine komplexe Abhängigkeit des Behandlungseffekts von der körperlichen Aktivität modelliert. Die beobachtete Behandlungsvariable, die angibt, ob der Patient der Behandlung ausgesetzt ist oder nicht, wird durch körperliche Aktivität nicht beeinflusst , aber der zugrunde liegende Behandlungseffekt wird durch \(w_{A,T}\) modifiziert. Damit haben wir ein Zusammenspiel von Behandlung und Aktivität modelliert. Darüber hinaus gibt es einen zeitlichen Effekt der Behandlung bei \(tl\) auf die Aktivität bei t, sodass sich die Aktivitätsverteilung zwischen den Behandlungsgruppen unterscheidet. In Szenario 4 generieren wir einen Datensatz mit Verschleppungs- und Behandlungs-Aktivitäts-Interaktionen wie in Szenario 3.

Wenn die Kante von einer Variablen j zu einer Variablen i im DAG vorhanden ist, wird der Effekt auf \(w_{j,i} \ne 0\) gesetzt. Wenn die Kante im DAG nicht vorhanden ist, stellt dies unsere Annahme dar, dass es keine Auswirkung von \(Z_j\) auf \(Z_i\) gibt; äquivalent \(w_{j,i}=0\). Zeitabhängigkeiten werden auf die gleiche Weise simuliert, wobei wir \(w^{l}_{j,i} \ne 0\) setzen, wenn wir eine Zeitabhängigkeit zwischen der Variablen \(Z_{j}^{tl}\) annehmen. ) und die Variable \(Z_{i}^{t}\). Für alle Szenarien sind die Effekte bis auf die in Tabelle 1 genannten Spezifikationen identisch. Die Behandlungseffekte wurden auf einen über die Zeit konstanten Wert eingestellt. Der Effekt von Behandlung 1 auf das Ergebnis wurde auf -2 und der von Behandlung 2 auf das Ergebnis auf -4 festgelegt, jeweils im Vergleich zu keiner Behandlung (dh Basisliniendrift und Kovariateneffekte). Dies führt also zu einem Behandlungseffektunterschied von 2 zwischen den Behandlungen (weitere Einzelheiten finden Sie im Ergänzungstext 2).

Zusätzlich zu diesen vier Szenarien untersuchen wir weiter, wie die Methoden bei Datensätzen mit fehlenden Werten funktionieren, indem wir die vier Szenarien mit fehlenden Werten replizieren. Hierzu verwenden wir dieselben Parameter und führen zeilenweise fehlende Werte (dh über alle Variablen eines Individuums hinweg) über zwei Mechanismen ein. Der erste Mechanismus löscht \(10\%\) der Datenpunkte zufällig mit zunehmender Wahrscheinlichkeit im Laufe der Zeit, um einen zufälligen Ausfall nachzuahmen. Zweitens fügen wir einen Block von 10 aufeinanderfolgenden fehlenden Tagen hinzu, die für jeden Patienten zufällig gezogen werden, um Urlaub zu simulieren (weitere Einzelheiten finden Sie im Ergänzungstext 3).

Wie im vorherigen Abschnitt beschrieben, generieren wir Datensätze aus vier verschiedenen Szenarien, jeweils eine Reihe von N-of-1-Studien zu chronischen unspezifischen Schmerzen im unteren Rückenbereich mit 1000 Teilnehmern. Zur Auswertung der statistischen Modelle ziehen wir in jedem Szenario jeweils 100 Stichproben von 5, 10, 25, 50 und 100 Teilnehmern, um auch den Einfluss der Stichprobengröße in aggregierten N-of-1-Studien zu untersuchen. Anschließend wenden wir verschiedene statistische Modelle an und bewerten deren Voreingenommenheit und Effizienz bei der Schätzung des Behandlungseffektunterschieds in den Ergebnissen zwischen den Behandlungsgruppen 1 und 2 für alle Teilnehmer. Wir vergleichen standardmäßige statistische Modelle für die Analyse aggregierter N-von-1-Studien, COAPM, G-Schätzung und Bayes'scher Netzwerke.

Zunächst berechnen wir die Stichprobenmittelwerte beider Behandlungsgruppen und die naive Schätzung des Behandlungseffektunterschieds. Wir nennen dies das Sample Mean-Modell. Sein Standardfehler wird als empirische Standardabweichung der geschätzten Behandlungseffektdifferenz zwischen den 100 Proben geschätzt.

Zweitens passen wir ein standardmäßiges multiples lineares Regressionsmodell mit Schmerz als Antwortvariable und der Behandlung und den Kovariaten als Prädiktoren an. Wir nennen dies das lineare Modell. Daher ist \(\hat{\beta }_1\) in Modell (6) eine Schätzung der durchschnittlichen direkten Wirkung der Behandlung T auf das Schmerzergebnis O, angepasst für alle Kovariaten C in Abb. 1 mit direkten Auswirkungen auf das Ergebnis (d. h. ohne Demografie). Das heißt, \(\hat{\beta }_1\) ist eine Schätzung der direkten Wirkung von T auf O:

wobei \(\varepsilon\) einer Normalverteilung folgt. Für die Implementierung verwenden wir die lm-Funktion in R aus dem Basispaket mit Standardeinstellungen und gehen davon aus, dass die Beobachtungen verschiedener Patienten unabhängig sind, um nicht gewichtete gewöhnliche Schätzungen der kleinsten Quadrate der Regressionskoeffizienten zusammen mit Standardfehlerschätzungen und Wald-Testergebnissen zu berechnen . Die Effektschätzungen werden dann über die 100 Stichproben als empirischer Mittelwert gemittelt, und Standardfehlerschätzungen werden als empirische Standardabweichung der Effektschätzungen geschätzt.

Um die Verzerrung aufgrund von Verschleppungen zu reduzieren, passen wir das multiple lineare Regressionsmodell für Wash-in \(\tau _k\) und Wash-out \(\gamma _k\) an, wobei \(k=1\) die Behandlung angibt 1 und \(k=2\) gibt Behandlung 2 an. Dazu schließen wir eine kontinuierliche zeitabhängige Behandlungseffektvariable anstelle der binären Behandlungszuordnungsvariablen ein. Wir nennen dies das verschleppungsbereinigte parametrische Modell (COAPM).

\(T_{k}^t\) gibt an, ob der Patient zum Zeitpunkt t der Behandlung k ausgesetzt war, und \(E_{k}^{t}\) bezeichnet den exponentiellen Abfallbehandlungsindikator, den wir bei gegebener \ (\tau _k\) und \(\gamma _k\):

für \(t \ge 1\). Wir initialisieren \(E^0_{k=1}=E^0_{k=2}=0\), da wir zu Beginn der Studie von keinem Behandlungseffekt ausgehen. Betrachten Sie als Beispiel die Behandlung \(k=1\) und das Einwaschen \(\tau _1 = 2\). Dann ist \(E_1^1 = 1/2, E_1^2 = 3/4, E_1^3 = 7/8, \dots\). Das heißt, statt eines Behandlungsindikators T zu verwenden, der die Werte 0 oder 1 annimmt, ist \(E_{k}\) ein Behandlungsindikator, der Ein- und Auswaschen durch exponentiellen Abfall berücksichtigt und entweder den Wert 1 (für Waschen) anstrebt -in) oder 0 (zum Auswaschen). Anschließend schätzen wir die durchschnittliche Wirkung jeder Behandlung im Laufe der Zeit mithilfe des folgenden linearen Regressionsmodells ab:

Damit schätzt \(\hat{\beta }_1\) den verschleppungsbereinigten durchschnittlichen Effekt von Behandlung 1 im Vergleich zu keiner Behandlung (d. h. weder Behandlung 1 noch Behandlung 2, was den Ausgangswert darstellen würde) und \(\hat{ \beta }_2\) der verschleppungsbereinigte durchschnittliche Effekt von Behandlung 2 im Vergleich zu keiner Behandlung. Im Vergleich zum Modell in Gleichung 6 schätzt das COAPM den Effekt von \(E_k^t\) und liefert eine Schätzung des übertragsbereinigten Behandlungseffekts anstelle der Behandlungsindikatorvariablen \(T_k\). Daher ist \(\hat{\beta }_1 - \hat{\beta }_2\) eine Schätzung der Behandlungseffektdifferenz, angepasst an die Verschleppung.

Da \(E_k\) eine Funktion auf \(\tau _k\) und \(\gamma _k\) ist, die unbekannt sind, wird sie durch eine Gittersuche angenähert. Im Detail iterieren wir über mehrere Kombinationen von \(\tau _k\) und \(\gamma _k\) und passen für jede Kombination ein lineares Modell an. Dann schätzen wir \(\tau _k\) und \(\gamma _k\) aus dem Modell mit dem höchsten \(R^2\)-Wert. Schätzungen von \(\beta _1\) und seinem Standardfehler werden aus dem endgültigen Modell mit dem höchsten \(R^2\) unter Verwendung der lm-Funktion in R mit Standardeinstellungen erhalten. Die Effektschätzungen und Standardfehlerschätzungen werden dann über die 100 Stichproben gemittelt.

Zur Veranschaulichung zeigt Abb. 2 die Behandlungseffekte für zwei Behandlungen mit Verschleppung und den daraus resultierenden Gesamtbehandlungseffekt, der als Summe der beiden Behandlungseffekte \(E_{k}^{t} (T_k, \tau _k,\gamma _k)\). Da der beobachtete Gesamtbehandlungseffekt die Effekte beider Behandlungen enthält, werden die Behandlungseffekte über- oder unterschätzt.

Darstellung der Behandlungseffekte mit Verschleppung für einen simulierten Patienten. Der Patient war bis zum 14. Tag der Behandlung 1 ausgesetzt. Ab dem 14. Tag verschwindet der Behandlungseffekt der Behandlung 1 und konvergiert gegen 0, da die Behandlung nicht mehr verabreicht wurde. Zu diesem Zeitpunkt begann der Patient mit der zweiten Behandlungsperiode. Wenn man Behandlung 2 ausgesetzt wird, setzt die Wirkung von Behandlung 2 ein und es dauert einige Zeit, bis sie ihre volle Wirkung auf das Ergebnis entfaltet

Bayesianische Netzwerke sind grafische Netzwerke, in denen die durch die angenommene DAG gegebenen gemeinsamen und bedingten Wahrscheinlichkeitsverteilungen geschätzt werden und für Schlussfolgerungen verwendet werden können. Wir nennen dies das unangepasste Bayesian-Netzwerk-Modell. Um Zeitabhängigkeiten zu berücksichtigen, geben wir für die Behandlungsvariable und für unspezifische Schmerzen im unteren Rückenbereich Verzögerungen der Größe 1 an (siehe Abb. 3). Diese Verzögerungen entstehen bei der Vorverarbeitung und fließen als zusätzliche Variablen in die Analyse ein. Wir nennen dies das Bayesianische Netzwerk mit Zeitanpassungsmodell.

Die DAG zeigt die angenommene Netzwerkstruktur zwischen den Knoten Aktivität (A), Behandlung (T) und unspezifischer Kreuzschmerz (O) zum Zeitpunkt t, die im Bayes'schen Netzwerk mit zeitlicher Anpassung mit Verzögerungen modelliert wird. Damit berücksichtigt das Modell die Aktivität als Störvariable, obwohl wir sie nicht simulieren. Dies ist ein Ausschnitt der Beziehungen zwischen diesen drei Variablen und eingebettet in das größere Netzwerk in Abb. 1

Für die Implementierung wird das Paket bnlearn verwendet. Im ersten Schritt implementieren wir eine Schnittstelle zur Konvertierung des DAGitty-Diagramms in ein Bayesianisches Netzwerk und definieren die entsprechende Skala jeder Variablen. Anschließend wird das Bayes'sche Netzwerk mit der Funktion bnlearn::bn.fit mit Standardeinstellungen an die Daten angepasst. Wir schätzen die Parameter anhand des empirischen Mittelwerts ihrer Posteriorverteilung unter Verwendung des Arguments method = „bayes“. Zur Schätzung der durchschnittlichen Behandlungseffektdifferenz verwenden wir die Funktion bnlearn::cpdist des angepassten Netzwerks [27] und generieren zunächst zwei Zufallsstichproben von Patienten unter Behandlung 1 und unter Behandlung 2, jeweils mit einer Größe von 1000, durch Wahrscheinlichkeitsgewichtung angesichts der Behandlung und Störvariablen, um gleiche Störverteilungen zwischen den Behandlungsgruppen zu erreichen. Anschließend schätzen wir den durchschnittlichen Behandlungseffektunterschied anhand des mittleren Ergebnisunterschieds zwischen den beiden Zufallsstichproben. Die Standardfehlerschätzung der geschätzten Behandlungseffektdifferenz wird als Standardabweichung des geschätzten durchschnittlichen Behandlungseffekts über die 100 Proben berechnet.

In der Analyse wenden wir zwei Bayes'sche Netzwerke an. Das erste Modell wird ohne Zeitabhängigkeiten an die DAG angepasst. Das zweite Modell berücksichtigt zusätzlich die oben beschriebenen Verzögerungen bei der Modellierung von Zeitabhängigkeiten.

Die G-Schätzung schätzt durchschnittliche Behandlungseffekte – in unserem Fall durchschnittliche Behandlungseffektunterschiede zwischen Behandlungsgruppen – in potenziellen Ergebnissen in einem strukturell verschachtelten Mittelwertmodell [24, 28] und kann sowohl auf zeitvariable als auch auf zeitinvariante Behandlungsvariablen angewendet werden [29,30,31].

Im strukturellen verschachtelten Mittelwertmodell, das der Notation von Hernán und Robins (2019) folgt, modellieren wir die erwartete bedingte Differenz zwischen dem potenziellen Ergebnis unter Behandlung k, \(O^k\), und dem potenziellen Ergebnis unter der Ausgangsbedingung, \( O^{k=0}\), as

wobei \(\beta _k\) den durchschnittlichen Effekt der Behandlung k im Vergleich zum Ausgangswert \(k=0\) quantifiziert, C alle im Datensatz beobachteten Variablen (mit direkter oder indirekter Auswirkung auf das Ergebnis) umfasst und \(T_k \) gibt an, ob eine Behandlung \(k=1\) oder eine Behandlung \(k=2\) durchgeführt wurde. In diesem Modell berücksichtigen wir keine Interaktion zwischen Behandlung und Kovariaten oder Anpassungen für zeitabhängige Behandlung wie im COAPM. Dann beträgt die durchschnittliche Behandlungseffektdifferenz zwischen den Behandlungen \(k=1\) und \(k=2\) \(\mathbb {E}[O^{2} - O^{k=0} | T=2 , C] - \mathbb{E}[O^{1} - O^{k=0} | T=1, C] = \beta _2 - \beta _1\).

Um diesen durchschnittlichen Behandlungseffektunterschied mithilfe der G-Schätzung abzuschätzen, suchen wir nach \(\psi\), der \(|\theta _1|\) in der folgenden Gleichung minimiert:

wobei \(\psi\) der individuelle kausale Effekt ist, der durch das entsprechende angenommene rangerhaltende Modell induziert wird, und \(H(\psi )\) definiert ist als \(H(\psi ) = O -\psi T\). Wir gehen davon aus, dass die Annahme der bedingten Austauschbarkeit gilt, was impliziert, dass \(|\theta _1|\) beim wahren \(\psi\) 0 sein sollte. Auf diese Weise können wir durch Minimieren von \(|\theta _1|\) den wahren \(\psi\) schätzen. Wir gehen davon aus, dass die bedingte additive Rangerhaltung gilt, sodass \(\psi = \beta _1\), der durchschnittliche interessierende Behandlungseffekt.

Im Vergleich zum Bayes'schen Netzwerk mit Zeitanpassung und dem nicht angepassten Bayes'schen Netzwerk verwenden wir in diesem Modell keine Verzögerungen. Hier haben wir verallgemeinerte Schätzgleichungen mit Unabhängigkeit und autoregressiver Ordnung 1 (AR1) Arbeitskorrelationsstruktur aus dem R-Paket geepack [32] verwendet, um Gleichung 10 anzupassen. Wir nennen diese die G-Schätzung (Unabhängigkeit) und G-Schätzung (AR1). Modelle bzw. In dem Modell, das auf der AR1-Korrelationsmatrix in den verallgemeinerten Schätzgleichungen basiert, basiert der Wert für die geschätzte Effektdifferenz auf der Differenz zwischen den Behandlungseffekten unter Einbeziehung des eingeführten Wash-Ins. Die Standardfehlerschätzung der geschätzten Behandlungseffektdifferenz wird als Standardabweichung des geschätzten durchschnittlichen Behandlungseffekts über die 100 Proben berechnet.

Wie im Abschnitt „Generierte Datensätze“ beschrieben, betrachten wir in der Simulationsstudie vier verschiedene Szenarien. In jedem Szenario wurden alle Methoden an 100 Proben von 5, 10, 25, 50 bzw. 100 Patienten evaluiert. Abbildung 4 zeigt die mittleren Schätzungen der Behandlungseffektdifferenz für alle Modelle, in allen Szenarien, mit und ohne fehlende Werte, zusammen mit ihren jeweiligen Standardfehlerschätzungen. Ergänzender Text 4 enthält die aufgezeichneten numerischen Werte und andere Details.

Überblick über die Schätzungen der Behandlungseffektunterschiede (y-Achse), mit einem wahren Wert von 2 (gestrichelte rote horizontale Linie), mit Standardfehlerbalken, über die vier Szenarien (1–4 in der Reihenfolge von oben nach unten angezeigt) mit und ohne fehlende Werte, für unterschiedliche Stichprobengrößen auf der x-Achse

Im ersten Szenario ohne Aktivitätsinteraktion und ohne Verschleppung liefern alle Methoden unvoreingenommene Schätzungen der tatsächlichen Behandlungseffektdifferenz von 2. Wie zu erwarten ist, sind die Schätzungen effizienter; dh hatte kleinere Standardfehler für größere Stichprobengrößen. Bei der kleinsten Stichprobengröße mit 5 Patienten unterschätzt das G-Estimation-Modell (AR1) den Behandlungseffekt leicht, da es eine Autokorrelation annimmt, die in diesem Szenario nicht vorhanden ist. Für die Daten mit fehlenden Werten lieferten die Modelle auch unvoreingenommene Schätzungen des Behandlungseffekts mit erwarteten etwas größeren Standardfehlern, da weniger Beobachtungen vorliegen.

Im zweiten Szenario untersuchen wir Wash-in- und Wash-out-Einflüsse auf unsere Behandlungsvariablen. Bei diesen erhöht sich der tatsächliche simulierte Behandlungseffekt im Laufe der Zeit geringfügig bis zum vollen Behandlungseffekt für jede Behandlung im Vergleich zu keinem Effekt (dh Null). Infolgedessen unterschätzen das Stichprobenmittelwertmodell, das lineare Modell, die G-Schätzung (Unabhängigkeit) und das Bayesianische Netzwerk mit Zeitanpassung alle die simulierte Behandlungseffektdifferenz von 2. Da der Behandlungseffekt mit der Zeit bis zur vollen Effektgröße zunimmt, Die Modelle konnten die Größe des simulierten Behandlungseffekts nicht abschätzen. Im Vergleich zum nicht angepassten Bayes'schen Netzwerk erwarteten wir, dass das Bayes'sche Netzwerk mit Zeitanpassung den geschätzten Behandlungseffektunterschied verbessern würde, was sich in den Ergebnissen nicht widerspiegelte, da das Modell die Schätzung nicht verbesserte und auch den Behandlungseffektunterschied unterschätzte. Die G-Schätzung (AR1) geht von einer AR1-Abhängigkeitsstruktur innerhalb der Daten aus, die durch den exponentiellen Abfall verletzt wird. Daher wird der Behandlungseffekt in der Simulation mit Übertrag stark unterschätzt. Das einzige Modell, das unvoreingenommene Schätzungen des Behandlungseffektunterschieds für alle Stichprobengrößen liefert, war das COAPM mit Parametern für Wash-in und Wash-out, das dem Datensimulationsprozess nahe kommt.

Innerhalb des Datensatzes mit fehlenden Werten neigt das COAPM dazu, den Behandlungseffekt zu überschätzen. Die anderen Modelle schnitten bei fehlenden Werten im Vergleich zu keinen fehlenden Werten ähnlich schlecht ab (hinsichtlich der Verzerrung), allerdings mit leicht erhöhten Standardfehlern.

In diesem Szenario berücksichtigen wir komplexe Abhängigkeiten des Behandlungseffekts von der Aktivität. Wie erwartet unterschätzt das Stichprobenmittelwertmodell den Behandlungseffekt für alle Stichprobengrößen stark. Das lineare Modell, COAPM, G-Schätzung (AR1) und G-Schätzung (Unabhängigkeit) liefern alle unvoreingenommene Schätzungen für alle Stichprobengrößen. Überraschenderweise unterschätzen sowohl das Bayes'sche Netzwerk mit Zeitanpassung als auch das nicht angepasste Bayes'sche Netzwerk den Behandlungseffektunterschied leicht, was bei größeren Stichprobengrößen deutlicher wird. Es könnte sein, dass die Priors in diesem Szenario nicht aussagekräftig waren oder die Anzahl der Zyklen zu gering war. Als weitere Beobachtung ergeben sowohl das Bayes'sche Netzwerk mit Zeitanpassung als auch das nicht angepasste Bayes'sche Netzwerk größere Standardfehler im Vergleich zu linearen Modellen. Dies könnte daran liegen, dass wir Aktivität als Effektmodifikator und mit zeitlichen Abhängigkeiten modellieren. Durch die Vergrößerung der Stichprobengröße verringern sich alle Standardfehler. In diesem Szenario führen fehlende Werte zu etwas größeren Standardfehlern.

Das zuletzt untersuchte Szenario beinhaltet sowohl Übertragungs- als auch Aktivitätsinteraktionen. Wir beobachten, dass sowohl der Stichprobenmittelwert als auch die G-Schätzung (AR1) den Behandlungseffekt stark unterschätzen, sowohl für vollständige Daten als auch für Daten mit fehlenden Werten. Sowohl das Bayes'sche Netzwerk mit Zeitanpassung als auch das nicht angepasste Bayes'sche Netzwerk liefern Schätzungen der Behandlungseffektdifferenz von etwa 1,5, wodurch die Effektdifferenz unterschätzt wird, und ergeben im Vergleich zu den anderen Methoden auch größere Standardfehler, wie bereits in Szenario 3 zu sehen ist. Das Bayes'sche Netzwerk mit Zeitanpassung liefert etwas bessere Ergebnisse als das unbereinigte Bayes'sche Netzwerk, bietet jedoch keine wesentliche Verbesserung. Das lineare Modell und die G-Schätzung (Unabhängigkeit) liefern weniger verzerrte Schätzungen des Behandlungseffekts, unterschätzen jedoch immer noch den Behandlungseffektunterschied. Schließlich liefert das COAPM auch in diesem Szenario wieder gute Ergebnisse. Über alle Stichprobengrößen mit vollständigen Daten hinweg liefert dieses Modell unvoreingenommene Schätzungen der Behandlungseffektunterschiede. Wenn Datenpunkte fehlen, überschätzt dieses Modell den Behandlungseffekt leicht.

Insgesamt liefert COAPM robuste Ergebnisse, die besten Ergebnisse unter allen betrachteten Modellen, in allen Szenarien mit vollständigen Daten. Wenn jedoch Daten fehlen und eine Verschleppung vorliegt, neigt dieser Ansatz dazu, den Behandlungseffektunterschied zu überschätzen. Lineare Modelle und t-Tests bei zwei Stichproben sind robust gegenüber simulierten fehlenden Werten, liefern jedoch verzerrte Effektschätzungen, wenn eine starke Verschleppung vorliegt, da sie nicht daran angepasst sind. Darüber hinaus liefert der Stichprobenmittelwert verzerrte Effektschätzungen, wenn eine Aktivitätsinteraktion vorliegt. Bayesianische Netzwerke und G-Schätzung zeigen insgesamt eine gute Leistung, Bayesianische Netzwerke liefern jedoch größere Konfidenzintervalle für Effektschätzungen, insbesondere bei kleinen Stichprobengrößen.

In dieser Studie zeigen wir als ersten Beitrag, wie Daten für eine Reihe von N-of-1-Versuchen simuliert werden können, indem stochastische Prozesse mit zeitlich variierenden Behandlungseffekten, eingebettet in eine DAG, kombiniert werden. In unseren komplexen Simulationsmodellen haben wir Annahmen über die kausale Struktur getroffen, die chronischen unspezifischen Schmerzen im unteren Rückenbereich zugrunde liegt, und geben Empfehlungen für Analysen, die in eine tatsächlich durchgeführte Reihe von N-von-1-Studien umgesetzt werden können. Als Hauptbeitrag evaluieren und vergleichen wir verschiedene Modelle zur Abschätzung des Behandlungseffekts bei Vorliegen von Verschleppungen, komplexen Abhängigkeiten des Behandlungseffekts von Kovariaten und fehlenden Werten. Diese Ergebnisse können Richtlinien liefern, welche Methoden in praktischen Anwendungen verwendet werden sollten, und wir stellen das R-Paket cinof1 (verfügbar unter https://github.com/HIAlab/cinof1) mit einer Implementierung aller untersuchten Methoden zur Verfügung.

Eine unserer wichtigsten Erkenntnisse ist, dass einfache statistische Modelle unvoreingenommene Behandlungsschätzungen für verschiedene Szenarien liefern können. Darüber hinaus zeigen wir, dass es, wenn eine Verschleppung vorliegt und nicht durch das Studiendesign verhindert wurde (z. B. durch Einbeziehung von Auswaschphasen), immer noch möglich ist, unvoreingenommene Schätzungen der Behandlungseffekte zu erhalten, wenn die Verschleppung in der Analyse modelliert wird . Dies fügt eine interessante neue Perspektive hinzu, im Gegensatz zu früheren Studien, die sich weitgehend auf die Beseitigung von Verschleppungen durch Studiendesign konzentrierten und von der Anpassung für Verschleppungen in der statistischen Modellierung abraten [21]. Für diese Situation bieten wir eine einfache Methode namens COAPM an, um die Übertragung in lineare Regressionsmodelle zu integrieren. COAPM liefert unvoreingenommene Schätzungen, selbst wenn eine starke Verschleppung vorliegt, erfordert jedoch vollständige Daten. Schließlich zeigten unsere Ergebnisse, dass die G-Schätzung und sowohl das Bayes'sche Netzwerk mit Zeitanpassung als auch das unbereinigte Bayes'sche Netzwerk unvoreingenommene und effiziente Behandlungsschätzungen liefern können, in einigen Szenarien jedoch Einschränkungen aufweisen.

Einfache Methoden wie Stichprobenmittelwertvergleiche und lineare Modelle sind einfach anzuwenden und auszuwerten. Sie sind außerdem robust gegenüber fehlenden Werten und für jede Stichprobengröße anwendbar und liefern gute Ergebnisse für die Datensätze ohne starke Verschleppung und ohne Abhängigkeiten von der Behandlungsaktivität. Dies steht im Einklang mit den Ergebnissen früherer Studien, dass T-Tests robuste und valide Ergebnisse liefern [15, 21]. Andererseits berücksichtigen Stichprobenmittelwertvergleiche keine Übertragungen und Zeitabhängigkeiten und führten bei Vorliegen von Störfaktoren nicht zu guten Ergebnissen. Lineare Modelle erzielten eine bessere Leistung, berücksichtigen jedoch keine Verschleppung.

Um die Verschleppung zu modellieren, führen wir COAPM für Wash-in und Wash-out ein. Es liefert unvoreingenommene Schätzungen für die Unterschiede bei den Behandlungseffekten in allen Datensätzen, mit Ausnahme einiger Szenarien mit fehlenden Daten. Hier werden die Behandlungseffekte überschätzt, die Verzerrung ist jedoch geringer als bei allen anderen Methoden. Alle anderen untersuchten Methoden sind nicht in der Lage, unvoreingenommene Schätzungen des Behandlungseffekts zu liefern, wenn es zu einer Verschleppung kommt. Da das COAPM nahe an der Datensimulation lag, lieferte es in den verschiedenen Szenarien die besten Ergebnisse.

Die G-Schätzung funktionierte sehr ähnlich wie lineare Modelle ohne Berücksichtigung der Verschleppung. Sie lieferte in vielen Szenarien unvoreingenommene Schätzungen des Behandlungseffekts, wenn keine Verschleppung vorliegt, und ist robust gegenüber fehlenden Werten. Es erwies sich jedoch als sehr wichtig, wie die GEE-Korrelationsstruktur spezifiziert wird, und AR1 liefert weitgehend verzerrte Schätzungen, wenn eine Verschleppung vorliegt, da Ein- und Auswaschperioden durch einen exponentiellen Zerfall und nicht als AR1-Prozess simuliert werden. Dies war interessant zu beobachten, da die Hypothese aufgestellt werden konnte, dass selbst eine falsch spezifizierte AR1-Arbeitskorrelation den GEE-Schätzer statistisch effizienter machen kann. Dies wurde jedoch in den Ergebnissen nicht beobachtet, sodass es den Anschein hat, dass die Fehlspezifikation eine größere Rolle gespielt hat und möglicherweise auch die geringe Stichprobengröße dazu beigetragen hat.

Abschließend untersuchten wir zwei Implementierungen sowohl des Bayes'schen Netzwerks mit Zeitanpassung als auch des nicht angepassten Bayes'schen Netzwerks, die robuste Ergebnisse in Bezug auf Variationen in der Stichprobengröße und fehlende Werte zeigen, wenn keine Übertragung erfolgt, ähnlich wie bei der G-Schätzung. Interessanterweise übertraf das Bayes'sche Netzwerk mit Zeitanpassung das nicht angepasste Bayes'sche Netzwerk nicht. Im Bayes'schen Netzwerk mit Zeitanpassung haben wir Verzögerungen von 1 im Netzwerk berücksichtigt. Der in der Simulation verwendete exponentielle Abfall berücksichtigt jedoch mehrere vorherige Zustände der Behandlung, die sich nicht im Modell widerspiegeln. Wir vermuten, dass diese Fehlspezifikation der Zeitabhängigkeit zur schlechten Leistung dieses Modells geführt hat. Zur Anpassung Bayes'scher Netzwerke muss zunächst ein Graph erstellt werden. Dies kann anhand der Daten berechnet werden, wird jedoch nicht empfohlen (24, Kapitel 6.5). Aus Gründen der Interpretierbarkeit wird ähnlich wie bei allen anderen untersuchten Methoden eine vorab festgelegte DAG bevorzugt. Darüber hinaus dient die DAG der Gewährleistung der Generalisierbarkeit, da sie nicht auf den Beispieldaten, sondern a priori erstellt wird. Es ist zu beachten, dass wir Parameterschätzungen von Bayesian Networks erhalten haben, um die Ergebnisse mit den anderen Methoden dieser Studie zu vergleichen; Allerdings wird die vollständige posteriore Verteilung der Parameter in Bayes'schen Netzwerken geschätzt, was bei Bedarf andere Analysen und Interpretationen ermöglicht.

Eine Einschränkung unserer Simulationsstudie besteht darin, dass wir nur lineare Abhängigkeiten und feste Effekte einbezogen haben. In Folgestudien könnten nichtlineare Abhängigkeiten und Zufallseffektmodelle einbezogen werden, um noch realistischere Datenmodelle bereitzustellen. Die von uns in Betracht gezogene Anwendung „Unspezifische Schmerzen im unteren Rückenbereich“ stellte einen komplexen N-von-1-Versuch dar und erforderte eine komplexe Generierung des DAG und eine Simulation. Für diese Studie haben wir eine Ergebnisvariable generiert, die auf einer Ordinalskala gemessen wird. In der Analyse haben wir die Variable jedoch als verkürztes Gaußsches Ergebnis modelliert. Obwohl dies zu einer gewissen Modellfehlspezifikation aller von uns untersuchten Modelle führt, haben wir diese Auswertung gewählt, um eine Situation nachzuahmen, die in praktischen Analysen sehr häufig vorkommt. In Folgestudien können andere Ergebnisverteilungen und andere statistische Modelle für die Analyse untersucht werden. Darüber hinaus können sich das Studiendesign, die Anzahl der Zyklen, die Länge der Behandlungsperioden und die Basisperioden auf die Modellleistung auswirken, wurden jedoch in unserer Studie nicht alle untersucht.

Wir haben auch die Auswirkungen fehlender Werte untersucht. In praktischen Anwendungen wird empfohlen, eine Form der Imputation einzubeziehen, beispielsweise eine Mehrfachimputation. Dies wäre besonders wichtig für die Anwendung zeitabhängiger Methoden und wenn die Daten nicht völlig zufällig fehlen.

In Folgeanalysen wäre es interessant, diese Methoden in einer realen Reihe von N-of-1-Studien zu chronischen unspezifischen Schmerzen im unteren Rückenbereich zu vergleichen. Darüber hinaus könnten zusätzliche Methoden wie Propensity-Score-Matching und inverse Wahrscheinlichkeitsgewichtung für die Analyse aggregierter N-von-1-Studien interessant sein, insbesondere wenn Daten fehlen und Auswahlverzerrungen vorliegen.

Wir planen, das R-Paket mit allen implementierten Methoden zur Durchführung von Plausibilitätsprüfungen weiterzuentwickeln, weitere automatisierte Tests einzubeziehen und einen rechnerisch effizienteren Prozess zur Schätzung von \(\tau _j\) und \(\gamma _j\) im COAPM bereitzustellen im Vergleich zur aktuell implementierten Rastersuche. Schließlich glauben wir, dass die Einbeziehung einer Anpassung für die Übertragung in die G-Schätzung oder Bayesianische Netzwerke und die Untersuchung der Verwendung autoregressiver gleitender Durchschnittsmodelle einschließlich exogener Kovariaten (ARIMAX), z. B. das n-von-1-ARCO-Modell von [19], Zusätzlich zu Methoden zur Kontrolle von Selektionsverzerrungen können sogar noch leistungsfähigere und robustere Werkzeuge zur Abschätzung der kausalen Behandlungseffekte in Reihen von N-von-1-Studien bereitgestellt werden.

Die während der aktuellen Studie generierten und analysierten Datensätze sind im HIAlab/sinot-Repository unter github.com/HIAlab/sinot verfügbar. Der für die Analyse in dieser Studie verwendete R-Code und Python-Code ist auf GitHub verfügbar:

\(\bullet\) R-Paket für die statistische Analyse: github.com/HIAlab/cinof1

\(\bullet\) Python-Paket für die Datensimulation: github.com/HIAlab/sinot

Nikles J, Mitchell G. Der wesentliche Leitfaden für N-of-1-Studien im Gesundheitswesen. Dordrecht: Springer; 2015.

Buchen Sie Google Scholar

Davidson KW, Silverstein M, Cheung K, Paluch RA, Epstein LH. Experimentelle Designs zur Optimierung von Behandlungen für Einzelpersonen: Personalisierte N-von-1-Studien. JAMA Pädiatrie. 2021;175(4):404–9. https://doi.org/10.1001/jamapediatrics.2020.5801.

Artikel PubMed PubMed Central Google Scholar

Stunnenberg BC, Raaphorst J, Groenewoud HM, Statland JM, Griggs RC, Woertman W, et al. Wirkung von Mexiletin auf die Muskelsteifheit bei Patienten mit nichtdystrophischer Myotonie, bewertet anhand aggregierter N-von-1-Studien. JAMA. 2018;320(22):2344. https://doi.org/10.1001/jama.2018.18020.

Artikel CAS PubMed PubMed Central Google Scholar

Punja S, Schmid CH, Hartling L, Urichuk L, Nikles CJ, Vohra S. Metaanalysieren oder nicht metaanalysieren? Eine kombinierte Metaanalyse von N-of-1-Studiendaten mit RCT-Daten zu Amphetaminen und Methylphenidat bei pädiatrischer ADHS. J Clin Epidemiol. 2016;76:76–81. https://doi.org/10.1016/j.jclinepi.2016.03.021.

Artikel PubMed Google Scholar

Blackston J, Chapple A, McGree J, McDonald S, Nikles J. Vergleich aggregierter N-of-1-Studien mit parallelen und Crossover-randomisierten kontrollierten Studien unter Verwendung von Simulationsstudien. Gesundheitspflege. 2019;7(4):137. https://doi.org/10.3390/healthcare7040137.

Artikel PubMed PubMed Central Google Scholar

Diaz FJ. Verwendung von Populations-Crossover-Studien zur Verbesserung des Entscheidungsprozesses hinsichtlich der Behandlungsindividualisierung in N-of-1-Studien. Stat Med. 2021;40(20):4345–61. https://doi.org/10.1002/sim.9030.

Artikel PubMed Google Scholar

Senn S. Überlegungen zur Stichprobengröße für n-von-1-Studien. Statistische Methoden Med Res. 2019;28(2):372–83. https://doi.org/10.1177/0962280217726801.

Artikel PubMed Google Scholar

Yang J, Steingrimsson JA, Schmid CH. Berechnungen der Stichprobengröße für n-von-1-Versuche. 2021. arXiv. https://doi.org/10.48550/ARXIV.2110.08970.

Green AL, Shad A, Watson R, Nandi D, Yianni J, Aziz TZ. N-von-1-Studien zur Bewertung der Wirksamkeit der Tiefenhirnstimulation bei neuropathischen Schmerzen. Neuromodulationstechnologie Neural Interf. 2004;7(2):76–81. https://doi.org/10.1111/j.1094-7159.2004.04010.x.

Artikel Google Scholar

Sierra-Arango F, Castaño DM, Forero JD, Pérez-Riveros ED, Duarte GA, Botero ML, et al. Eine randomisierte, placebokontrollierte N-of-1-Studie: Die Wirkung von Protonenpumpenhemmern bei der Behandlung der gastroösophagealen Refluxkrankheit. Kann J Gastroenterol Hepatol. 2019;2019:1–9. https://doi.org/10.1155/2019/3926051.

Artikel Google Scholar

Schmid CH, Duan N, das N-of-1-Leitgremium des DEcIDE Methods Center. Statistisches Design und analytische Überlegungen für N-von-1-Studien. In: Kravitz RL, Duan N und das DEcIDE Methods Center N-of-1 Guidance Panel, Herausgeber. Design und Implementierung von N-of-1-Studien: Ein Benutzerhandbuch. Rockville: Agentur für Gesundheitsforschung und -qualität; 2014. S. 33–53. https:// Effectivehealthcare.ahrq.gov/products/n-1-trials/research-2014-1/.

Odineal DD, Marois MT, Ward D, Schmid CH, Cabrera R, Sim I, et al. Auswirkung der Teilnahme an mobilgerätegestützten N-of-1-Studien auf die Verschreibung von Analgetika bei chronischen Schmerzen: Randomisierte kontrollierte Studie. J Gen Intern Med. 2019;35(1):102–11. https://doi.org/10.1007/s11606-019-05303-0.

Artikel PubMed PubMed Central Google Scholar

Vrinten C, Lipka AF, van Zwet EW, Schimmel KJM, Cornel MC, Kuijpers MR, et al. Ephedrin als Zusatztherapie für Patienten mit Myasthenia gravis: Protokoll für eine Reihe randomisierter, placebokontrollierter n-von-1-Studien. BMJ offen. 2015;5(7):e007863. https://doi.org/10.1136/bmjopen-2015-007863.

Artikel PubMed PubMed Central Google Scholar

Herrett E, Williamson E, Brack K, Beaumont D, Perkins A, Thayne A, et al. Statinbehandlung und Muskelsymptome: Reihe randomisierter, placebokontrollierter n-von-1-Studien. BMJ. 2021;n135. https://doi.org/10.1136/bmj.n135.

Chen X, Chen P. Ein Vergleich von vier Methoden zur Analyse von N-of-1-Studien. Plus eins. 2014;9(2):e87752. https://doi.org/10.1371/journal.pone.0087752.

Artikel CAS PubMed PubMed Central Google Scholar

Samuel JP, Tyson JE, Green C, Bell CS, Pedroza C, Molony D, et al. Behandlung von Bluthochdruck bei Kindern mit n-von-1-Studien. Pädiatrie. 2019;143(4):e20181818. https://doi.org/10.1542/peds.2018-1818.

Artikel PubMed Google Scholar

Zhou T, Dickson JL, Chase JG. Autoregressive Modellierung von Drift und Zufallsfehlern zur Charakterisierung eines kontinuierlichen intravaskulären Glukoseüberwachungssensors. J Diabetes Sci Technol. 2017;12(1):90–104. https://doi.org/10.1177/1932296817719089.

Artikel PubMed PubMed Central Google Scholar

Daza E. Kausalanalyse selbstverfolgter Zeitreihendaten unter Verwendung eines kontrafaktischen Rahmens für N-von-1-Studien. Methoden Inf Med. 2018;57(S 01):e10–e21. https://doi.org/10.3414/me16-02-0044.

Daza EJ, Schneider L. Model-Twin Randomization (MoTR): Eine Monte-Carlo-Methode zur Schätzung des durchschnittlichen Behandlungseffekts innerhalb eines Individuums mithilfe tragbarer Sensoren. 2022. arXiv. https://doi.org/10.48550/ARXIV.2208.00739.

Zucker DR, Ruthazer R, Schmid CH. Einzelne (N-von-1)-Studien können kombiniert werden, um bevölkerungsvergleichende Schätzungen der Behandlungseffekte zu erhalten: methodische Überlegungen. J Clin Epidemiol. 2010;63(12):1312–23. https://doi.org/10.1016/j.jclinepi.2010.04.020.

Artikel PubMed PubMed Central Google Scholar

Araujo A, Julious S, Senn S. Variation in Sätzen von N-of-1-Versuchen verstehen. PLUS EINS. 2016;11(12):e0167167. https://doi.org/10.1371/journal.pone.0167167.

Artikel CAS PubMed PubMed Central Google Scholar

Gamble C, Krishan A, Stocken D, Lewis S, Juszczak E, Doré C, et al. Richtlinien für den Inhalt statistischer Analysepläne in klinischen Studien. JAMA. 2017;318(23):2337. https://doi.org/10.1001/jama.2017.18556.

Artikel PubMed Google Scholar

Pearl J, Glymour M, Jewell NP. Kausaler Schluss in der Statistik: Eine Einführung. West Sussex: Wiley; 2016.

Google Scholar

Hernan MA, Robins JM. Kausalschluss. Chapman & Hall/CRC-Monographien zu Statistik und angewandter Wahrscheinlichkeit. London: Taylor & Francis; 2019.

Percha B, Baskerville EB, Johnson M, Dudley JT, Zimmerman N. Entwurf robuster N-of-1-Studien für die Präzisionsmedizin: Simulationsstudien und Designempfehlungen. J Med Internet Res. 2019;21(4):e12641. https://doi.org/10.2196/12641.

Artikel PubMed PubMed Central Google Scholar

Burdorf A, Sorock G. Positive und negative Hinweise auf Risikofaktoren für Rückenerkrankungen. Scand J Work Environ Health. 1997;23(4):243–56. https://doi.org/10.5271/sjweh.217.

Artikel CAS PubMed Google Scholar

Scutari M, Auconi P, Caldarelli G, Franchi L. Bayesianische Netzwerkanalyse von Malokklusionsdaten. Skirepräsentant. 2017;7(1). https://doi.org/10.1038/s41598-017-15293-w.

Naimi AI, Cole SR, Kennedy EH. Eine Einführung in G-Methoden. Int J Epidemiol. 2016;dyw323. https://doi.org/10.1093/ije/dyw323.

Rubin DB. Abschätzung der kausalen Wirkungen von Behandlungen in randomisierten und nichtrandomisierten Studien. J Educ Psychol. 1974;66(5):688–701. https://doi.org/10.1037/h0037350.

Artikel Google Scholar

Holland PW. Statistik und kausale Schlussfolgerung. J Am Stat Assoc. 1986;81(396):945–60. https://doi.org/10.1080/01621459.1986.10478354.

Artikel Google Scholar

Splawa-Neyman J, Dabrowska DM, Speed ​​TP. Zur Anwendung der Wahrscheinlichkeitstheorie auf landwirtschaftliche Experimente. Essay über Prinzipien. Abschnitt 9. Stat Sci. 1990;5(4). https://doi.org/10.1214/ss/1177012031.

Højsgaard S, Halekoh U, Yan J. Das R-Paket-Geepack für verallgemeinerte Schätzungsgleichungen. J Stat Softw. 2005;15(2):1–11. https://doi.org/10.18637/jss.v015.i02.

Referenzen herunterladen

Die Autoren danken Dr. Tilman Engel für sein kritisches Feedback zu chronischen unspezifischen Schmerzen im unteren Rücken für die Erstellung des gerichteten azyklischen Diagramms. Wir möchten auch den Gutachtern unseres Manuskripts für ihre Bemühungen und konstruktiven Kommentare danken, die zur Verbesserung des Manuskripts beigetragen haben.

Open-Access-Förderung ermöglicht und organisiert durch Projekt DEAL. Gefördert durch die Deutsche Forschungsgemeinschaft (DFG) – Projektnummer 491466077.

Digital Health Center, Hasso-Plattner-Institut für Digital Engineering, Potsdam, Deutschland

Thomas Gärtner, Juliana Schneider, Bert Arnrich & Stefan Konigorski

Universität Potsdam, Fakultät Digital Engineering, Potsdam, Deutschland

Thomas Gärtner, Juliana Schneider, Bert Arnrich & Stefan Konigorski

Hasso-Plattner-Institut für digitale Gesundheit am Mount Sinai, Icahn School of Medicine am Mount Sinai, New York, USA

Stefan Konigorski

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Konzeptualisierung, TG und SK; Methodik, TG und SK; Formale Analyse und Datengenerierung, TG; Schreiben-Original-Entwurfsvorbereitung, TG; Schreiben, Überprüfen und Bearbeiten, SK, JS und TG; Betreuung, SK und BA Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Thomas Gärtner oder Stefan Konigorski.

Unzutreffend.

Unzutreffend.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/. Der Creative Commons Public Domain Dedication-Verzicht (http://creativecommons.org/publicdomain/zero/1.0/) gilt für die in diesem Artikel zur Verfügung gestellten Daten, sofern in einer Quellenangabe für die Daten nichts anderes angegeben ist.

Nachdrucke und Genehmigungen

Gärtner, T., Schneider, J., Arnrich, B. et al. Vergleich von Bayes'schen Netzwerken, G-Schätzung und linearen Modellen zur Schätzung kausaler Behandlungseffekte in aggregierten N-von-1-Studien mit Übertragungseffekten. BMC Med Res Methodol 23, 191 (2023). https://doi.org/10.1186/s12874-023-02012-5

Zitat herunterladen

Eingegangen: 13. Juli 2022

Angenommen: 07. August 2023

Veröffentlicht: 21. August 2023

DOI: https://doi.org/10.1186/s12874-023-02012-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt