Empirische Untersuchungen als Anstoß zu einer Reform des Strafzumessungsrechts. Eine Antwort auf Jessica Krüger

von Philipp Ehlen, Prof. Dr. Elisa Hoven, Anja Rubitzsch und Prof. Dr. Thomas Weigend

I. Zum Anliegen unseres Beitrags

Das deutsche Strafrecht macht den Gerichten für die Strafzumessung bekanntlich nur wenige Vorgaben. Die Strafrahmen sind weit und die in § 46 StGB genannten Faktoren vage. Bestehen für richterliche Entscheidungen erhebliche Spielräume, so bedarf es eines kritischen Blicks auch durch die Wissenschaft.

Das von den Verfassern Hoven und Weigend geleitete Forschungsprojekt „Gerechte Strafzumessung“ hat das Ziel verfolgt, Recht und Praxis der Strafzumessung in Deutschland zu analysieren, bestehende Probleme aufzuzeigen und konstruktive Lösungswege zu entwickeln. Durch eine deliktsspezifische Analyse der gerichtlichen Strafzumessungspraxis sollte das empirische Fundament für mögliche Reformbestrebungen im Bereich der Strafzumessung gelegt werden.^[1]

Die in unserem Aufsatz (KriPoZ 2024, 16) vorgestellten Daten haben gezeigt, dass die Strafen im Bereich der Sexualdelikte milde ausfallen. Sanktionen werden ganz überwiegend dem unteren Drittel des Strafrahmens entnommen, und Freiheitsstrafen werden häufig zur Bewährung ausgesetzt. Unser Anliegen war und ist es, diesen Befund zu erklären und kritisch zu reflektieren, insbesondere vor dem Hintergrund, dass die Gerechtigkeitsvorstellungen von Laien und Richtern gerade im Bereich der Sexualdelikte deutlich voneinander abweichen.^[2]

Als wir den Beitrag zur strafrechtlichen Sanktionierung von Sexualdelikten veröffentlicht haben, wussten wir, dass wir ein Wagnis eingehen. Sanktionen und Strafzumessung werden in der Strafrechtswissenschaft wenig diskutiert – und wenn, dann in aller Regel verbunden mit der Forderung nach einer Absenkung von Strafrahmen oder einer Abkehr von retributiven Ansätzen. Diesen Weg teilen grundsätzlich auch die Verfasser dieses Beitrages.

Hoven und Weigend haben sich beispielsweise für die Absenkung der Mindeststrafe beim Besitz von Kinderpornographie und für die Abschaffung der Ersatzfreiheitsstrafe ausgesprochen.^[3]

Aber: Das Ziel der Strafzumessung ist die Festlegung einer Sanktion, mit der die Schuld des Täters angemessen geahndet wird. Das Prinzip der Angemessenheit wirkt dabei in beide Richtungen: Eine Strafe darf nicht unverhältnismäßig hoch sein, sonst greift sie unzulässig in die Freiheitsrechte des Betroffenen ein. Sie darf jedoch auch nicht unverhältnismäßig niedrig sein, sonst erreicht sie ihren Zweck – einen gerechten Schuldausgleich herzustellen – nicht und wird den Bedürfnissen von Opfern und Gesellschaft nach angemessener Bestrafung nicht gerecht.

Das Recht auf sexuelle Selbstbestimmung, das lange Zeit nicht einmal als eigenes Rechtsgut anerkannt wurde,^[4] hat in den letzten Jahren erhebliche gesellschaftliche Aufmerksamkeit erfahren. Und das nicht ohne Grund: Lange Zeit wurden sexuelle Übergriffe bagatellisiert,^[5] und erst seit Bewegungen wie #MeToo diskutieren wir intensiv über Ausmaß und Folgen sexualisierter Gewalt. Ein modernes Strafrecht muss diesen neuen Erkenntnissen und gesellschaftlichen Realitäten gerecht werden. Das betrifft auch die Strafjustiz. Die Strafhöhe bringt zum Ausdruck, welchen Unwertgehalt wir einer Tat zuschreiben; sie muss daher den langfristigen Folgen eines Sexualdelikts für das Opfer wie auch der Verletzung seiner sexuellen Selbstbestimmung als Kern seiner Autonomie und persönlichen Identität Rechnung tragen. Mit unserem Text wollten wir die Diskussion darüber eröffnen, ob dies bereits in hinreichender Weise geschieht.

Forderungen nach „mehr Strafe“ sind in der deutschen Strafrechtswissenschaft und insbesondere in der Kriminologie nicht populär. Gleichwohl überrascht die Emotionalität, mit der teilweise auf das Anliegen, Strafzumessung bei Sexualdelikten kritisch zu reflektieren, reagiert wurde. Wir erklären sie uns mit der – an sich berechtigten – Sorge davor, dass in Deutschland eine „Law-and-Order“ Politik nach dem Vorbild der USA oder Australiens Einzug halten könnte, die in allen Bereichen der Delinquenz immer mehr und immer härtere Strafen verlangt und die, motiviert durch ein falsches Sicherheitsdenken, Einzelschicksale und die Folgen einer Verurteilung zu Freiheitsstrafe aus dem Blick verliert.

Eine solche Entwicklung droht aber nicht dadurch, dass wir eine sachliche Diskussion darüber führen, was eine angemessene Sanktion für eine bestimmte Rechtsverletzung ist. Für eine wissenschaftliche Auseinandersetzung um „gerechte“ Sanktionierung ist es notwendig, sich nicht nur auf allgemeine Postulate zu stützen, sondern die Wirklichkeit der Sanktionsverhängung durch die Justiz in den Blick zu nehmen. Diesem Anliegen dient das Forschungsprojekt, aus dem wir einen Teilbereich in Heft 1/2024 der KriPoZ publiziert haben.^[6]

Jessica Krüger setzt sich in ihrem vorstehend abgedruckten Beitrag nicht mit unserem Gesamtkonzept auseinander, sondern mit der Methodik einer der in unserem früheren Beitrag in KriPoZ 2024, 16 dargestellten Studie. Kritische Auseinandersetzungen zu methodischen Fragen sind wichtig und auch für die Überzeugungskraft der kriminalpolitischen Schlussfolgerungen relevant. Daher möchten wir im Folgenden auf die Einwände Krügers eingehen.

II. Zur Methodenkritik

Zunächst möchten wir ein offensichtliches Missverständnis über den Anspruch unseres Beitrags beseitigen. Krüger moniert an verschiedenen Stellen, dass Methodik und Ergebnisse der Untersuchung nicht umfassend erörtert werden (S. 123, 126 f.). Ziel unseres Aufsatzes war es jedoch nicht, eine singuläre Studie zur Strafzumessung in Fällen von § 177 StGB umfassend darzustellen, sondern wir wollten die Ergebnisse verschiedener Untersuchungen zur Strafzumessung bei Sexualstraftaten zusammenfassend präsentieren, d.h. der Analyse von Urteilen, Strafverfolgungsstatistiken und Richtergesprächen. Eine vollständige Darstellung der Methodik und sämtlicher Ergebnisse der einzelnen Studien war im Rahmen unseres Aufsatzes weder möglich noch intendiert.

Die Ergebnisse der einzelnen Untersuchungen werden in gesonderten Veröffentlichungen umfassend erörtert. So ist die Urteilsauswertung Teil eines Promotionsvorhabens; im Rahmen einer selbständigen Publikation^[7] werden weitere Erkenntnisse, etwa zu den relevanten Strafzumessungsfaktoren, den regionalen Strafmaßunterschieden, zu Umfang und Transparenz von Strafzumessungsentscheidungen ausführlich dargelegt. Auch der von Krüger geforderte Vergleich der Strafhöhen bei Verurteilungen nach alter und neuer Rechtslage wird dort vorgenommen.

III. Einzelne Kritikpunkte

1. „Die in der Einführung formulierte, studienübergreifende Forschungsfrage, ob die Rechtspraxis der Strafzumessung bei Verletzungen von § 177 StGB den gewandelten Vorstellungen der Bevölkerung von der Schwere eines Eingriffs in die sexuelle Selbstbestimmung gerecht wird, wird in der Studie nicht beantwortet. Gleichzeitig soll die Studie zeigen, dass die derzeitige Strafzumessungspraxis „traditionelle Maßstäbe aus vergangenen Zeiten vielfach ungeprüft anwende“. Inwiefern sich aus den präsentierten Ergebnissen der empirischen Untersuchungen eine solche Schlussfolgerung ableiten lässt, erschließt sich nicht. Gleiches gilt für die wenig differenzierte Interpretation der in Abb. 3 abgebildeten regionalen Verteilung der Strafhöhen.“ (S. 128)

Krüger meint zunächst, dass unsere Schlussfolgerung, dass die Praxis der Strafzumessung in Fällen von § 177 StGB einem gewandelten gesellschaftlichen Verständnis im Bereich dieser Delikte nicht gerecht werde, durch die Ergebnisse der empirischen Studie nicht belegt werde (S. 123).

Hierzu sind zwei Dinge zu sagen. Zum einen verkennt Krüger, dass der Beitrag hier Bezug auf eine frühere Untersuchung nimmt, die sich ausführlich mit Unterschieden bei der Strafzumessung zwischen Richtern und Laien befasst hat.^[8] Daraus wurde deutlich, dass gerade im Bereich der Sexualdelikte erhebliche Divergenzen in den Strafmaßvorstellungen von Richtern und Nicht-Juristen existieren. Zum anderen dürfte Krügereinen gesellschaftlichen Wandel in der Wahrnehmung und Bewertung sexueller Gewalt im Zeitalter von #MeToo nicht ernsthaft bestreiten wollen.^[9]

Die Ergebnisse der im Beitrag präsentierten Untersuchungen zeigen, dass die Strafen bei sexuellen Übergriffen und Vergewaltigungen ganz überwiegend dem unteren Strafrahmendrittel entnommen werden. Nur täterbezogene Umstände wie die Anzahl und Höhe von Vorstrafen sowie das Einräumen des äußeren Tatvorwurfs weisen einen mittelgroßen Zusammenhang zur Strafhöhe auf.^[10] Zudem wurde aus der Analyse der Richtergespräche deutlich, dass regionale Gewohnheiten für die Bestimmung des Strafmaßes bedeutsam sind. Wenn sich Strafzumessung – und auch das dürfte angesichts des Forschungsstandes kaum jemand ernsthaft bestreiten wollen^[11] – an bestehenden Traditionen in einem Gerichtsbezirk orientiert, dann kann sich ein gesellschaftlicher Wertewandel nur schwer abbilden. Hier handelt es sich um eine Schlussfolgerung, die sich zwar nicht unbedingt aus der Urteilsauswertung, wohl aber aus den übrigen Ergebnissen des Forschungsprojekts ziehen lässt.

2. „Bei der quantitativen Auswertung der in der Studie untersuchten Urteile nach „Strafhöhen“ ist unklar, welchen Erkenntnisgewinn die Auswertung des Samples gegenüber der Auswertung der Strafverfolgungsstatistik bringen soll. Bei der quantitativen Auswertung der Urteile nach Strafzumessungsgründen bleibt die Frage offen, weshalb die Autoren einen quantitativen anstatt eines qualitativen Ansatzes gewählt haben, da die Vorteile des quantitativen Ansatzes (Generalisierbarkeit der Ergebnisse) ungenutzt bleiben.“ (S. 128)

Zunächst ist Krüger darin zuzustimmen, dass die Daten der Strafverfolgungsstatistik den zentralen Befund bestätigen: Strafen für Taten nach § 177 StGB werden weit überwiegend dem unteren Strafrahmendrittel entnommen.^[12] Angesichts dieser Tatsache überrascht allerdings die Kritik an der Studie: Mit Blick auf das generelle Strafniveau bestätigt sie lediglich das, was aus der Strafverfolgungsstatistik klar hervorgeht.

Obwohl die Strafverfolgungsstatistik die Strafhöhen sämtlicher Verurteilungen innerhalb eines Jahres ausweist und damit die umfassendste Datensammlung im Bereich der tatgerichtlichen Strafzumessung darstellt, sind die Erkenntnisse, die sich aus einer Analyse der Strafverfolgungsstatistik ziehen lassen, erheblichen Limitationen unterworfen. So weist die Strafverfolgungsstatistik die Höhen der verhängten Freiheitsstrafen lediglich nach Zeitspannen aus (6-9 Monate; 2-3 Jahre etc.).^[13] Aus der Strafverfolgungsstatistik können daher keine Angaben zu den Mittelwerten oder Medianen der Strafhöhen entnommen werden; um diese Werte zu ermitteln, bedarf es einer quantitativen Analyse tatgerichtlicher Urteile. Die Ergebnisse der Urteilsanalyse weisen eine wesentlich breitere Detailtiefe auf.^[14] Anhand der Analyse von Durchschnittswerten und Medianen können zudem wesentlich genauere Vergleiche der Strafhöhen zwischen Verurteilungen nach alter und neuer Fassung des § 177 StGB gezogen werden.^[15]So hat etwa ein Vergleich zwischen den Strafhöhen bei Verurteilungen nach § 177 Abs. 1 Nr. 1 StGB a.F. (sexuelle Nötigung unter Gewaltanwendung) und § 177 Abs. 5 Nr. 1 StGB n.F. (sexueller Übergriff mit Gewaltanwendung) zu der Erkenntnis geführt, dass die Freiheitsstrafen bei Verurteilungen nach neuer Rechtslage im Sample der Untersuchung mit einem Durchschnitt von 22,5 Monaten um fünf Monate höher lagen als bei Verurteilungen nach alter Rechtslage (Durchschnitt: 17,5 Monate).

Zudem sollten die Strafhöhen bei sexuellen Übergriffen mit Gewaltanwendung nach § 177 Abs. 5 Nr. 1 StGB analysiert werden. Eine separate Analyse der Strafhöhen bei dieser Begehungsvariante ist anhand der Strafverfolgungsstatistik jedoch nicht möglich, da diese lediglich die Strafhöhen bei Verurteilungen nach § 177 Abs. 5 StGB insgesamt erfasst und somit auch Fälle der Drohung (§ 177 Abs. 5 Nr. 2 StGB) und des Ausnutzens einer schutzlosen Lage des Opfers (§ 177 Abs. 5 Nr. 3 StGB) einbezieht. Eine differenzierte Auswertung der Verurteilungen nach den verschiedenen Varianten von § 177 Abs. 5 Nr. 1 StGB wird daher erst durch eine quantitative Urteilsanalyse möglich. Insgesamt lässt die quantitative Urteilsanalyse eine wesentlich detailliertere Untersuchung der Strafhöhen im Vergleich zur Strafverfolgungsstatistik zu.

Das Anliegen der Urteilsanalyse erschöpft sich allerdings nicht in einer Betrachtung der Strafhöhen. Diesen Aspekt übersieht Krüger, da sie Aussagen über eine Studie macht, die in dem von uns in der KriPoZ publizierten Beitrag offensichtlich nur in Auszügen und nur mit Blick auf einzelne Forschungsfragen erörtert wird. Die Studie behandelt eine Vielzahl verschiedener Forschungsfragen, zu deren Beantwortung nicht nur quantitative, sondern auch qualitative Methoden angewandt wurden.^[16] Abhängig von dem eigenen Erkenntnisinteresse müssen Wissenschaftler und Wissenschaftlerinnen bei der Planung ihrer empirischen Untersuchungen verschiedene Entscheidungen treffen. Dabei wird versucht, Methode und Design so zu wählen, dass die eigenen Forschungsfragen hinreichend beantwortet werden können.^[17] So können durch die qualitative Inhaltsanalyse etwa Begründungsmuster in den Urteilen analysiert werden;^[18] sie hat den Anspruch einer detaillierten Beschreibung des Untersuchungsgegenstandes.^[19]

Demgegenüber kann eine quantitative Auswertung mögliche Zusammenhänge zwischen einzelnen Strafzumessungsfaktoren und der Strafhöhe identifizieren.^[20] Dabei wird mit dem Maß des Zusammenhangs auf eine objektive Größe zurückgegriffen, die eine Interpretation und Darstellung der Beziehung zwischen zwei Merkmalen erleichtert. Welche Faktoren sich tatsächlich im Strafmaß widerspiegeln, lässt sich durch eine rein qualitative Inhaltsanalyse hingegen nicht ermitteln.^[21]

Anders als Krüger meint, kann also auch die quantitative Analyse eines notwendig begrenzten Samples zu wichtigen Erkenntnissen führen. Krüger missversteht maßgebende Komponenten der quantitativen Forschung, wenn sie das Urteil einer „fehlerhaften Wahl“ des Forschungsansatzes auf eine fehlende Generalisierbarkeit der Erkenntnisse stützt. Neben der Inferenzstatistik, die es erlaubt, von einer Stichprobe auf die Grundgesamtheit zuschließen, gibt es einen zweiten bedeutsamen Bereich, die der beschreibenden Statistik. Dieser Teil der Statistik ist der Inferenzstatistik vorgelagert und unerlässlich für die Beschreibung der Daten.^[22] Die deskriptive Statistik liefert zunächst wichtige Erkenntnisse zur Verteilung von Merkmalen und deren Häufigkeit in den erhobenen Daten (univariat) und ermöglicht die Beschreibung von Zusammenhängen (bivariat und multivariat).^[23] Es ist also nicht die Verallgemeinerbarkeit der Ergebnisse allein, die eine quantitative – also statistische – Analyse ausmacht; es können auch andere Vorteile dieses Forschungsansatzes – etwa die anschauliche Zusammenfassung der Daten und die Beschreibung von Zusammenhängen – genutzt werden.

3. „Die knappe Darstellung der verwendeten Daten erschwert es, die Aussagekraft der Ergebnisse zur regionalen Verteilung von Strafhöhen zu beurteilen, da dort nur ein Teil des beschriebenen Datensatzes an Urteilen analysiert wird, aber Angaben dazu fehlen, wie viele Fälle dieser Sub-Datensatz enthält und wie sich diese regional verteilen.“ (S. 128)

Eine vollständige Darstellung der Datensätze und der Methodik der einzelnen Untersuchungen war, wie dargelegt, im Rahmen eines Überblicksaufsatzes, in dem verschiedene Untersuchungen und Daten vorgestellt wurden, nicht möglich.

Folgende Daten lagen der Auswertung regionaler Strafmaßunterschiede zugrunde.

Abb. 1.: Regionale Verteilung ausgewertete Taten Vergewaltigung mit Gewaltanwendung

Insgesamt wurden 43 Taten vollendeter Vergewaltigungen mit Gewaltanwendung nach alter (20) und neuer Rechtslage (23) ausgewertet. Für die jeweiligen Bundesländer wurden zwischen 2 und 10 Taten nach alter und neuer Rechtslage herangezogen. Krüger geht damit zu Recht davon aus, dass der Beurteilung regionaler Strafmaßunterschiede eine relativ kleine Untersuchungsstichprobe zugrunde lag.

Eine repräsentative Analyse regionaler Unterschiede wurde allerdings auch weder angestrebt noch behauptet. Aber die in unserem Beitrag präsentierten Ergebnisse zu regionalen Strafmaßunterschieden bestätigen einen Trend, der schon in zahlreichen früheren Untersuchungen festgestellt wurde.^[24]

So haben bereits Anfang des 20. Jahrhunderts die Studien von Woerner^[25] und Exner^[26] gezeigt, dass erhebliche Abweichungen im durchschnittlichen Strafmaß zwischen verschiedenen, auch örtlich benachbarten Gerichten existieren. Zuletzt ist dieser Befund durch groß angelegte statistische Untersuchungen von Grundies^[27] bestätigt worden.^[28] Dabei hat sich gezeigt, dass die Strafhöhen in Bayern durchschnittlich deutlich höher ausfallen als in anderen Bundesländern.^[29] Interessante Erkenntnisse zu regionalen Strafmaßunterschieden bieten zudem Studien, die sich mit einzelnen Deliktsbereichen beschäftigen, etwa den Straßenverkehrsdelikten^[30], den Betäubungsmitteldelikten^[31] oder dem Wohnungseinbruchsdiebstahl^[32]. In all diesen Deliktsbereichen sind signifikante regionale Strafmaßunterschiede feststellbar. Gleiches gilt für Verurteilungen nach § 177 StGB. So kommt etwa Grundies in seiner neuesten Studie zu regionalen Strafmaßunterschieden bei Verurteilungen wegen sexueller Nötigung und Vergewaltigung (§ 177 StGB a.F.) zu dem Ergebnis, dass die Sanktionen in Schleswig-Holstein und Baden deutlich geringer ausfielen als in Bayern. Dabei konnten Abweichungen von +/- 10% in der Höhe der Freiheitsstrafen festgestellt werden.^[33]

Dass die tatgerichtliche Urteilspraxis im Bereich der Strafzumessung durch regionale Strafmaßunterschiede gekennzeichnet ist, kann in Anbetracht des Forschungsstandes als gesicherte wissenschaftliche Erkenntnis bezeichnet werden, die durch unsere Analyse Bestätigung findet.

4. „Bei der statistischen Auswertung der Strafzumessungsfaktoren liegt in einem Fall die Vermutung nahe, dass die Voraussetzungen für den durchgeführten statistischen Test nicht vorlagen, der errechnete Wert also nicht sinnvoll interpretierbar ist. Den Autoren unterläuft ein Fehler bei der Definition für „Eta-Quadrat“. Die Interpretationshinweise in Fn. 24 sind missverständlich formuliert, die Interpretation der Werte selbst nicht konsequent. Mit Statistik wenig vertraute Leser hätten zudem von einer differenzierteren Einordnung der präsentierten Daten profitiert.“ (S. 128)

Krüger kritisiert auch die Wahl und Darstellung der Methodik, die zur Beurteilung der Zusammenhänge zwischen den in den Urteilen genannten Strafzumessungsumständen und den Strafhöhen herangezogen wurde (S. 124 ff.). Zunächst weist sie mit Recht darauf hin, dass die Verwendung unterschiedlicher statistischer Tests von der Art der zugrundeliegenden Variablen abhängt. So wird etwa die Spearman-Korrelation grundsätzlich für die Beschreibung der Beziehung zwischen ordinalskalierten oder metrischen Variablen (z.B. Anzahl der Vorstrafen und Strafhöhe) verwendet.Krüger (S. 125) zeigt sich verwundert darüber, dass von uns „für die Berechnung des Zusammenhangs zwischen dem Vorhandensein von Vorstrafen und der Strafhöhe der Spearman-Koeffizient gewählt wurde.“ Bei dieser Kritik wird jedoch übersehen, dass dichotome Variablen, also Merkmale, die nur zwei Ausprägungen annehmen können – hier Vorstrafe nein (0) und Vorstrafe ja (1) –, ebenfalls dem metrischen Skalenniveau zugeordnet werden können und damit die Voraussetzung der Spearman- und Pearson-Korrelationsanalyse erfüllen.^[34] In dieser Form können sie auch (erst) in Regressionsmodellen berücksichtigt werden, da diese eine metrische Skalierung der Variablen voraussetzen.^[35] Hierzu werden Hilfsvariablen, sog. „Dummy-Variablen“ gebildet, die eine kategoriale Variable in eine metrische Variable übersetzen.^[36]

Da die einzelnen Zusammenhangsmaße nur Mindestvoraussetzungen unterliegen, können sie dementsprechend auch auf alle darunterliegenden Skalen angewendet werden,^[37]wenn einzelne Gründe – etwa theoriegeleitet oder bezogen auf die Datenqualität – dafür sprechen.^[38] Für die Beschreibung der Beziehung zwischen dem Vorhandensein von Vorstrafen und der Strafhöhe wurde daher nicht auf die Pearson-Korrelation zurückgegriffen, die üblicherweise zur Beurteilung der Beziehung zwischen intervallskalierten Variablen herangezogen wird. Die Pearson-Korrelation ist durch die Verwendung reiner Zahlenwerte – hier alle Werte der Strafhöhen – anfälliger gegenüber Ausreißern, also Werten, die deutlich von der Masse abweichen.^[39]Bei der Testung auf Zusammenhänge wurden jedoch sämtliche Werte einbezogen, auch diejenigen, die man klassisch als „Ausreißer“ definieren würde, weil davon auszugehen ist, dass diese natürlichen Ursprungs sind und damit die Realität abbilden. Um mögliche Verzerrungen hinsichtlich der Stärke des Zusammenhangs zu vermeiden und um die Vergleichbarkeit der Werte bezüglich „Vorstrafe Ja/Nein“ und der metrischen Variable „Anzahl der Vorstrafen“ zu gewährleisten, wurde daher auf den Spearman-Koeffizienten zurückgegriffen.

Zudem werden die Interpretationshinweise zur Abbildung 5 in der Fußnote 22 unseres Beitrags kritisiert. Krüger unterstellt hier eine fehlerhafte Erklärung bzw. Darstellung von Eta und Eta-Quadrat (S. 125 f.). In dieser Fußnote findet sich folgende Beschreibung: „Dabei gibt die Maßeinheit Eta Quadrat (η2) an, wie stark sich die Mittelwerte der Strafhöhen bei Vorliegen/Nichtvorliegen der Strafzumessungsfaktoren unterscheiden“. Dabei führt Krüger (S. 125) selbst aus, was durch diese Fußnote richtig beschrieben wird, wenn sie darauf verweist, dass Eta Quadrat den Anteil der Varianz einer abhängigen Variable darstellt, und dass Varianz beschreibt, „wie stark die einzelnen Werte einer Gruppe vom Mittelwert der Gruppe abweichen“.

Krüger ist darin zuzustimmen, dass Eta und Eta-Quadrat unterschiedliche Werte sind; das wurde von uns auch nicht anders dargelegt. Beide Maßzahlen stellen aber gleichermaßen die Stärke der Beziehung zwischen einer nominalen Variablen (z.B. Geständnis des Täters Ja/Nein) und einer intervallskalierten Variable (z.B. Strafhöhe) dar. Dabei sollte man sich vergegenwärtigen, dass Eta-Quadrat aus Eta gebildet wird. Wenn also Eta anzeigt, „wie sehr sich die Mittelwerte für die abhängige Variable zwischen den verschiedenen Kategorien der unabhängigen unterscheiden,“ (S. 125 Fn. 26) beruht Eta-Quadrat auf derselben Berechnung und gibt ebenfalls die Stärke des Unterschieds der Mittelwerte an, nur in einem anderen Wertebereich. Auf diesen wird sich im kritisierten Beitrag auch explizit bezogen. Beide Maßzahlen stehen also unmittelbar in Beziehung: wenn Eta steigt, wird auch Eta-Quadrat größer (und umgekehrt).

Im Gegensatz zu Eta kann durch Eta-Quadrat zusätzlich eine Aussage über den tatsächlichen Einfluss (erklärte Varianz) getroffen werden.^[40]Eta drückt nur die Stärke der Beziehung zwischen zwei Merkmalen aus. Durch Eta-Quadrat kann darüber hinaus ein Verhältnis, die „proportionale Fehlerreduktion“, also die tatsächliche Relevanz beschrieben werden.^[41] Auf den von Krüger (S. 125) beispielhaft herangezogenen Eta-Quadrat-Wert von 0,04 für „Geständnis grundsätzlich“ ergibt sich demnach (1) ein geringer Zusammenhang bzw. ein geringer Effekt^[42] zwischen dem Merkmal „Geständnis grundsätzlich“ und der Strafhöhe, gleichzeitig können (2) 4 % der Varianz in den Strafhöhen darüber erklärt werden.

Die von Krüger unter der Überschrift „Problemfeld 4“ angeführten Kritikpunkte bezüglich der Wahl und Anwendung der statistischen Methoden sind damit insgesamt unberechtigt.

Berechtigt ist jedoch der Vorwurf (S. 125 f.), dass in dem kritisierten Beitrag bei der Erklärung der Effektgrößen in der Fußnote 24 suggeriert wird, dass für sämtliche der drei Zusammenhangsmaße die gleichen Interpretationswerte gelten würden. Dabei trifft es zu, dass sich die Interpretationswerte der Effektgrößen bei der Pearson- bzw. Spearman-Korrelation und Eta-Quadrat unterscheiden. Eine entsprechend differenzierte Darstellung der Interpretation der Effektgrößen war ursprünglich auch vorgesehen. Durch Fußnoten in den jeweiligen Spalten der Pearson- bzw. Spearman-Korrelation und für Eta-Quadrat sollten die jeweils unterschiedlichen Interpretationswerte angezeigt werden.^[43] Leider sind bei der Übertragung der Abbildung 5 auf die Druckfahne des Beitrags diese Fußnoten irrtümlich weggefallen.

5. „Die Limitationen des für die Urteilsauswertung gewählten Forschungsdesigns werden nicht in der gebotenen Klarheit analysiert und herausgestellt.“ (S. 128)

Krüger kritisiert an verschiedenen Stellen (S. 124, 127) sowohl die Größe des Untersuchungssamples als auch die gewählte Forschungsmethode bei der Beurteilung des Einflusses der im Urteil genannten Strafzumessungsfaktoren auf die Strafhöhe. So wird zunächst der Mehrwert einer Analyse von 86 Urteilen gegenüber der Auswertung der Strafverfolgungsstatistik angezweifelt.

Krüger ist darin zuzustimmen, dass es wünschenswert gewesen wäre, deutlich mehr Urteile auswerten zu können. Sollte Krüger eines Tages selbst empirisch forschen, wird sie feststellen, wie schwierig es ist, an Urteile zu gelangen. Hier sind Wissenschaftler in erheblichem Maße vom guten Willen der Behörden abhängig und auf begrenzte Samples angewiesen. Es käme den Interessen der Forschung sehr entgegen, wenn Strafzumessungsdatenbanken eingerichtet würden, wie wir es (auch aus anderen Gründen) bereits mehrfach vorgeschlagen haben.^[44] In anderen Ländern existieren solche Datenbanken schon seit Jahren. In Deutschland wehrt man sich dagegen, obwohl nur auf diese Weise Transparenz in der Strafzumessung gewährleistet werden kann.

Eine Vollerhebung ist in der empirischen Forschung häufig nicht möglich. Auch kleinere Studien mit einem abgesteckten Forschungsinteresse und an die Stichprobe angepassten (statistischen) Auswertungsverfahren können sich jedoch der Wahrheit annähern und so zur Forschung beitragen.^[45] 86 Urteile – die mit Blick auf über zweihundert einzelne Merkmale untersucht wurden – sind für eine qualitative Untersuchung im Übrigen eine gute Basis, das Sample ist für diese Methode ausreichend.^[46]

IV. Missverständnisse?

Krüger schreibt (S. 126 f.), dass in unserem Beitrag nicht klargestellt werde, „dass die von ihnen präsentierten Daten nicht ausreichen, um die Ergebnisse der (quantitativen) Urteilsanalyse verallgemeinern zu können. Das ist insofern unglücklich, als dass sich an zwei Stellen der Studie Formulierungen finden, die beim Leser Missverständnisse hinsichtlich der Übertragbarkeit dieser Ergebnisse auslösen könnten.“

Damit verkennt sie allerdings sowohl das Anliegen als auch die Methodik der Studie. Für die Untersuchung wurde ein „Mixed-Methods“-Ansatz mit einem explorativen und generalisierbaren Design gewählt. Bei dieser Methode erfolgt zunächst eine qualitative Erhebung von Daten, auf die eine qualitative und eine quantitative Analyse folgen.^[47] Diese Vorgehensweise bietet sich aufgrund ihrer Offenheit besonders an, wenn noch nicht genügend Erkenntnisse vorhanden sind, um klare Hypothesen für die Untersuchung zu formulieren. Der erhobene Vorwurf, dass bei einer solchen Herangehensweise (ohne Zufallsstichproben und Signifikanztests) keine Verallgemeinerbarkeit der Forschungsergebnisse hergestellt werden könne, ist nicht zutreffend.^[48]Forschungsansätze, die zunächst auf einer qualitativen Erhebung aufbauen, können ebenfalls Aussagen treffen, die über die untersuchten Fälle hinaus gültig sind, denn durch sie wird ein bestimmter Falltypus rekonstruiert.^[49]Die Verallgemeinerbarkeit der Ergebnisse erfolgt hier nicht durch repräsentative quantitative Erhebungen, sondern im Wege einer Typenbildung.^[50]Voraussetzung hierfür ist, dass bei der Fallauswahl das Prinzip der maximalen strukturellen Varianz angewendet wird. Schließlich kann auch bei einer bewussten Fallauswahl die Heterogenität des Untersuchungsfeldes ausreichend abgebildet werden, wenn sich die untersuchten Fälle im Hinblick auf bestimmte Merkmale möglichst stark voneinander unterscheiden.^[51]Diese Merkmale werden theoretisch vorab festgelegt und zur Grundlage für die Auswahl des Samples gemacht. Sie werden im Beitrag auch explizit erwähnt, wenn auf eine maximale strukturelle Varianz im Hinblick auf die regionale Verteilung der Urteile Bezug genommen wird. Eine repräsentative quantitative Analyse unter der Angabe statistisch signifikanter Werte wurde weder angestrebt noch behauptet – was Krüger (S. 126) auch selbst einräumt.

Die Diskussion von Schlussfolgerungen am Ende des Beitrags beruht auf einer Betrachtung aller im Aufsatz präsentierter Daten. Wie dargelegt, ergibt sich bereits aus den Daten der Strafverfolgungsstatistik, dass die Strafen in aller Regel dem unteren Strafrahmendrittel entnommen werden. Für die allgemeine Feststellung milder Strafen bedarf es daher nicht einmal eines Rückgriffs auf die Erkenntnisse der Urteilsanalyse; sie bestätigt in diesem Punkt lediglich, was bereits die Statistik offenlegt. „Missverständnisse“ hinsichtlich der Befunde sind also nicht gegeben.

Zu Missverständnissen führt hingegen Krügers Kritik. Indem sie überhöhte Anforderungen an die Methodik einer Studie und deren Darstellung in einem Überblicksaufsatz stellt, erweckt sie den unzutreffenden Eindruck, dass die zentralen Befunde des Beitrages zweifelhaft seien. Das sind sie jedoch nicht. Die durchschnittlichen Strafen für Taten nach § 177 StGB fallen gering aus, sie liegen im unteren Drittel des Strafrahmens und werden häufig zur Bewährung ausgesetzt. Aus diesem Befund kann man unterschiedliche Schlussfolgerungen ziehen – leugnen kann man ihn jedoch nicht.

V. Schlusswort

Wir würden uns wünschen, dass unser Text Anstöße zu einer unaufgeregten und differenzierten Diskussion über die Angemessenheit von Strafen speziell bei Sexualdelikten sowie allgemein über die Bedeutung der Strafzumessung im Kontext gewandelter gesellschaftlicher Wertvorstellungen gibt. Dabei wird auch zu überlegen sein, welche Rolle die Strafrechtswissenschaft einschließlich der empirischen Justizforschung in diesem Diskurs spielen kann. Am 26. September 2024 werden wir gemeinsam mit Richtern, Staatsanwälten, Strafverteidigern und Opferanwälten bei einer Online-Tagung über diese Fragen sprechen; hierzu sind alle Interessierten herzlich eingeladen.^[52]

[1] Siehe hierzu auch Obert, Der (Privat-)Wohnungseinbruchsdiebstahl nach § 244 Abs. 1 Nr. 3, Abs. 4 StGB, 2023. Diese Monographie ist ebenfalls aus dem Forschungsprojekt entstanden.

[2] Siehe hierzu den Bericht über eine Untersuchung, die im Rahmen unseres Forschungsprojekts durchgeführt wurde, bei Hoven/Weigend, ZStW 133 (2021), 322 ff.

[3] https://library.fes.de/pdf-files/a-p-b/19368-20220727.pdf; https://www.kriminalpolitischerkreis.de/_files/ugd/b95945_ff97784b83314e2eba5bd4e5201a1eb9.pdf (zuletzt abgerufen am 21.3.2024).

[4] Die „Freiheit zu geschlechtlicher Selbstbestimmung“ wurde erstmals mit den Neuregelungen durch das 4. StrRG im Jahr 1973 als eigenständiges Rechtsgut anerkannt; BT-Drs. 6/1552, S. 9 f.; Dreher, JR 1974, 47. Die früheren Tatbestände der „Notzucht“ und der „Schändung“ schützten lediglich die „weibliche Geschlechtsehre“ als Teilbereich allgemeiner Sittlichkeit: Müting, Sexuelle Nötigung, Vergewaltigung (§ 177 StGB), 2010, S. 53 f.; Brüggemann, Entwicklung und Wandel des Sexualstrafrechts in der Geschichte unseres StGB, 2011, S. 233 f.

[5] Die Vergewaltigung in der Ehe war bis 1997 nicht als Sexualdelikt strafbar. Darüber hinaus siehe Äußerungen wie Fischer, ZIS 2015, 312 (313).

[6] Siehe zu den Ergebnissen des Projekts: Hoven/Weigend, Auf dem Weg zu rationaler und konsistenter Strafzumessung (im Erscheinen).

[7] Ehlen, Die Praxis der Strafzumessung bei sexuellen Übergriffen und Vergewaltigungen (Publikation in Vorbereitung).

[8] Hoven/Weigend, ZStW 133 (2021), 322 ff.

[9] Siehe hierzu Ehlen/Hoven/Weigend, KriPoZ 2024, 16 (25), Fn. 45.

[10] Ehlen/Hoven/Weigend, KriPoZ 2024, 16 (18), Fn. 14.

[11] Siehe etwa Albrecht, Strafzumessung bei schwerer Kriminalität, 1983, S. 348 f., 352; Pfeiffer/Savelsberg, Regionale und altersgruppenbezogene Unterschiede der Strafzumessung, in: Pfeiffer/Oswald, Strafzumessung, 1989, S. 17 ff.; Langer, Staatsanwälte und Richter. Justitielles Entscheidungsverhalten zwischen Sachzwang und lokaler Justizkultur, 1994, S. 139 ff.; Heinz, Gleiches Recht – ungleiche Handhabung! Die Sanktionierungspraxis in Baden-Württemberg im Ländervergleich, 2011; Meier, Strafrechtliche Sanktionen, 2015, S. 261.

[12] Ehlen/Hoven/Weigend, KriPoZ 2024, 16 (17 ff., 19).

[13] Vgl. Statistisches Bundesamt, Rechtspflege Strafverfolgung 2021 Fachserie 10, Reihe 3, Tab. 3.1.

[14] Dies scheint Krüger selbst erkannt zu haben: a.a.O, S. 124.

[15] Gleiches gilt für die Analyse regionaler Strafmaßunterschiede.

[16] Zur Kombination qualitativer und quantitativer Methoden siehe auch 5.

[17] Zu notwendigen Entscheidungen im Forschungsprozess etwa Laatz, Empirische Methoden, 1993, S. 15 ff.; Kromrey/Roose/Strübing, Empirische Sozialforschung, 13. Aufl. (2016), S. 69 ff.; Bauer/Blasius, in: Handbuch Methoden der empirischen Sozialforschung, 2014, S. 10; Diekmann, Empirische Sozialforschung, 12. Aufl. (2018), S. 187 ff.; Schnell/Hill/Esser, Methoden der empirischen Sozialforschung, 12. Aufl. (2023), S. 7 ff.

[18] Hierzu Früh, Inhaltsanalyse, 9. Aufl. (2017), S. 66 f.

[19] Bryman, Quantity and quality in social research, 2001, S. 63.

[20] Allgemein zur Anwendung und Relevanz statistischer Verfahren zur Analyse von Zusammenhängen etwa Bortz, Statistik für Human- und Sozialwissenschaftler, 6. Aufl. (2005), S. 181, 201; Benninghaus, Deskriptive Statistik, 11. Aufl. (2007), S. 66; Häder, Empirische Sozialforschung, 4. Aufl. (2019), S. 444; Schnell/Hill/Esser, Methoden der empirischen Sozialforschung, S. 410 ff.; Zum Unterschied zwischen Nennung und tatsächlichem Einfluss eines Strafzumessungsumstandes siehe Gebauer, Strafzumessung bei Vergewaltigung, 2020, S. 242; Zu dem Vorwurf fehlerhafter Generalisierbarkeit unserer Zusammenhangsanalysen siehe 5.

[21] Früh, Inhaltsanalyse, S. 66 f.

[22] Generell zu beschreibender und schließender Statistik etwa Bortz, Statistik für Human- und Sozialwissenschaftler, S. 15; Kromrey/Roose/Strübing, Empirische Sozialforschung, S. 394 ff.; Diekmann, Empirische Sozialforschung, S. 659 ff.

[23] Laatz, Empirische Methoden, S. 348; Benninghaus, Deskriptive Statistik, S. 29 ff.

[24] So ausdrücklich Ehlen/Hoven/Weigend, KriPoZ 2024, 16 (19).

[25] Woerner, Die Frage der Gleichmässigkeit der Strafzumessung im Deutschen Reich, 1907.

[26] Exner, Studien über die Strafzumessungspraxis der deutschen Gerichte, 1931, S. 46 ff., 49.

[27] Grundies, in: Neubacher/Bögelein, Krise – Kriminalität – Kriminologie, 2016, S. 511 ff.; ders, in: Hermann/Pöge, Kriminalsoziologie, 2018, S. 295.

[28] Siehe hierzu auch: Kaspar, Gutachten C für den 72. Deutschen Juristentag, 2018, S. 104 ff.; Maurer, Komparative Strafzumessung, 2005, S. 29 ff. m.w.N.

[29] Grundies, in: Neubacher/Bögelein, Krise – Kriminalität – Kriminologie, S. 518 ff.

[30] Schöch, Strafzumessungspraxis und Verkehrsdelinquenz, 1973.

[31] Kinzig/Höfer, in: Vereinigung Baden-Württembergischer Strafverteidiger e.V. und die Mitglieder des Strafrechtsausschusses des Deutschen Anwaltvereins: 1. Symposium Betäubungsmittelstrafrecht, 2007, S. 19 ff.

[32] Obert, Der (Privat-)Wohnungseinbruchsdiebstahl nach § 244 Abs. 1 Nr. 3, Abs. 4 StGB, S. 258 ff.

[33] Grundies, in: FS Albrecht, 2023, S. 889 f.

[34] Bortz, Statistik für Human- und Sozialwissenschaftler, S. 224 f.; Eine Übersicht zu den Korrelationsarten nach Skalenkombination findet sich u.a. bei Bortz/Döring, Forschungsmethoden und Evaluation, 4. Aufl. (2006), S. 508, Tab. 8.2, „Übersicht bivariater Korrelationen“.

[35] Bortz, Statistik für Human- und Sozialwissenschaftler, S. 483 ff.; Janssen/Laatz, Statistische Datenanalyse mit SPSS, 9. Aufl. (2016), S. 405, 439 ff.

[36] Janssen/Laatz, Statistische Datenanalyse mit SPSS, S. 439 ff.; Bortz/Döring, Forschungsmethoden und Evaluation, S. 510 f.

[37] Benninghaus, Deskriptive Statistik, S. 68.; Grundsätzlich sollte das Skalenniveau der Daten verwendet werden, indem das jeweilige Merkmal erhoben wurde, da ein niedrigeres Skalenniveau mit einem Informationsverlust einhergeht, dazu ebenfalls Benninghaus, Deskriptive Statistik, S. 68; Bortz, Statistik für Human- und Sozialwissenschaftler, S. 25.

[38] Benninghaus, Deskriptive Statistik, S. 32; Janssen/Laatz, Statistische Datenanalyse mit SPSS, S. 323.

[39] Janssen/Laatz, Statistische Datenanalyse mit SPSS, S. 323.

[40] Benninghaus, Deskriptive Statistik, S. 239; siehe dazu auch Bortz/Döring, Forschungsmethoden und Evaluation, S. 726 „Eta-Quadrat (η2)“, S. 744 „Varianzaufklärung“.

[41] Benninghaus, Deskriptive Statistik, 11. Aufl. (2007), S. 229.

[42] Zur Interpretation der Werte: 0 = kein Effekt, > = 0.01 < 0.10 geringer Effekt, > = 0.10 < 0.25 mittlerer Effekt, > = 0.25 großer Effekt: Bortz/Döring, Forschungsmethoden und Evaluation, 4. Aufl. (2006), S. 606.

[43] Dies zeigt sich auch an den Fußnoten innerhalb der obersten Zeile der Tabelle, da hier jeweils eine Fußnote 1 ausgewiesen wird. Wir bedauern, dass der Übertragungsfehler bei der Durchsicht der Druckfahne nicht erkannt wurde.

[44] Hoven, in: FS Sieber, 2021, S. 1373 ff.; Hoven/Weigend, ZStW 133 (2021), 322 (356); Obert/Hoven/Weigend, DRiZ 2023, 22 (29).

[45] Die Stichprobengröße ist kein alleiniger Garant für die wissenschaftliche Qualität einer Untersuchung oder allgemeingültige Erkenntnisse. Wenn etwa große Stichproben stark selektiv sind, können kleinere Stichproben unter bestimmten Umständen sogar bessere Schätzungen abgeben; siehe dazu: Diekmann, Empirische Sozialforschung, S. 374; Häder, Empirische Sozialforschung, 4. Aufl. (2019), S. 148 f.; Przyborski/Wohlrab-Sahr, Qualitative Sozialforschung, 5. Aufl. (2021), S. 229; Zur Bedeutung der Teilerhebung in der Sozialforschung allgemein: Laatz, Empirische Methoden, Kapitel 9, S. 420 ff.

[46] Siehe hierzu u.a. Kuckartz, Qualitative Inhaltsanalyse, 4. Aufl. (2018), S. 156; weiter dazu Kelle/Kluge, Vom Einzelfall zum Typus, 2. Aufl. (2010), S. 53; Przyborski/Wohlrab-Sahr, Qualitative Sozialforschung, S. 237 f.

[47] Kuckartz, Mixed Methods, 2014, S. 54, 66 f.; Vgl. auch Schrauf, Mixed Methods, 2016, S. 7 f.

[48] Kuckartz, Qualitative Inhaltsanalyse, S. 217 f.; Misoch, Qualitative Interviews, 2015, S. 188 f.; Przyborski/Wohlrab-Sahr, Qualitative Sozialforschung, S. 227 f.

[49] Kruse et al., Qualitative Interviewforschung, 2. Aufl. (2015), S. 241; Kuckartz, Qualitative Inhaltsanalyse, S. 143 ff. „Die typenbildende qualitative Inhaltsanalyse“.

[50] Misoch, Qualitative Interviews, 2015, S. 2 f.; Kuckartz, Qualitative Inhaltsanalyse, S. 218; Przyborski/Wohlrab-Sahr, Qualitative Sozialforschung, S. 38 ff., 457.

[51] Kelle/Kluge, Vom Einzelfall zum Typus, S. 109; Kruse et al., Qualitative Interviewforschung, S. 241 f.; Kleining, KZfSS 34 (1982), S. 247.

[52] Informationen und Anmeldung unter: https://www.jura.uni-leipzig.de/professur-prof-dr-hoven/newsdetail/artikel/strafzumessung-bei-sexualdelikten-2024-03-06 (zuletzt abgerufen am 21.3.2024.)

Schreiben Sie einen Kommentar Antworten abbrechen