Ein Detektor hat meine eigene Arbeit als KI eingestuft. Bin ich jetzt in Schwierigkeiten?

In aller Regel nicht. Ein hoher KI-Score ist kein Schuldbeweis, sondern eine Wahrscheinlichkeits-Schätzung, und die deutsche Rechtslage stützt das. Die Beweislast für eine Täuschung liegt bei der Hochschule, nicht bei Ihnen, und im Zweifel wird zugunsten der Studierenden entschieden. Die Goethe-Universität Frankfurt hält in ihrer eigenen Handreichung fest, dass KI-Detektionssoftware nur unterstützend, niemals allein als Beweisgrundlage dienen kann. Sie müssen Ihre Unschuld also nicht technisch beweisen, sondern den auf einen unzuverlässigen Score gestützten Verdacht erschüttern.

Wie hoch ist die Falsch-Positiv-Rate von KI-Detektoren wirklich?

Es gibt nicht die eine Falsch-Positiv-Rate. Sie hängt davon ab, wer schreibt und was getestet wird. Auf echten, beaufsichtigt geschriebenen Studi-Essays maß eine peer-reviewte Studie von Paustian und Slinger 2024 sehr unterschiedliche Werte je Tool: ZeroGPT 9,8 Prozent, GPTZero 15,8 Prozent, Originality.ai 17,6 Prozent und Winston AI 45,8 Prozent fälschlich als KI markierter menschlicher Texte. Bei Nicht-Muttersprachlern liegt der Wert deutlich höher. Genau weil es keine feste Zahl gibt, trifft das Risiko ausgerechnet die verletzlichsten Gruppen am härtesten.

Warum trifft es deutsche und nicht-muttersprachliche Texte häufiger?

Weil Detektoren Vorhersagbarkeit messen, nicht Autorschaft. Wer mit begrenzterem Wortschatz, in nüchterner Fachsprache oder in einer Fremdsprache schreibt, produziert statistisch vorhersagbareren Text, und genau das lesen perplexity-basierte Tools als maschinell. Die Stanford-Studie von Liang 2023 hat das gemessen: durchschnittlich 61,22 Prozent der englischen Texte von Nicht-Muttersprachlern wurden fälschlich als KI markiert, gegenüber 5,19 Prozent bei Muttersprachlern. Reicherte man dieselben Texte sprachlich an, fiel die Rate auf 11,77 Prozent. Der Effekt ist allerdings tool-spezifisch, nicht naturgesetzlich. Eine ETS-Studie von 2024 fand mit einem eigenen Detektor keinen solchen Bias. Verlassen kann man sich auf seine Abwesenheit aber nicht, weil im Hochschul-Alltag weiter die voreingenommenen Tools laufen.

Warum geben verschiedene Detektoren für denselben Text völlig unterschiedliche Werte?

Weil keiner von ihnen die Wahrheit über die Herkunft kennt. Eine Studie in JCO Clinical Cancer Informatics von Howard und Kollegen 2024 maß zwischen drei verbreiteten Detektoren eine Spearman-Korrelation von nur 0,143 bis 0,471, also schwache bis allenfalls mäßige Übereinstimmung am selben Text. Studierende berichten in Foren regelmäßig, dass ein Tool fünf Prozent anzeigt und ein anderes 80 bis 90 Prozent für exakt dieselbe Arbeit. Diese Widersprüchlichkeit ist kein Verfahren, mit dem Sie sich freitesten, sondern das stärkste Argument gegen die Beweiskraft eines einzelnen Scores.

Sollte ich meinen Text vorher selbst durch einen KI-Detektor jagen?

Nein, das ist kein verlässlicher Selbstschutz. Ein Eigen-Check ist genauso falsch-positiv-anfällig wie der Test der Hochschule und verängstigt oft grundlos. Ein bestandener Check beweist Ihre Eigenleistung nicht, ein nicht bestandener beweist keine Täuschung. Die widersprüchlichen Ergebnisse verschiedener Tools taugen nur als Argument gegen die Beweiskraft eines Scores, nicht als Verfahren, mit dem Sie sich absichern. Investieren Sie die Energie stattdessen in eine nachvollziehbare Arbeitsspur.

Was sagen die Detektor-Anbieter selbst zu Falsch-Positiven?

Bemerkenswert offen. Turnitin schreibt in der eigenen Dokumentation, das Ergebnis solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. GPTZero nennt seine Resultate Hinweise, nicht definitiven Beweis, und warnt besonders vor kurzen, bearbeiteten oder gemischten Texten. OpenAI nahm den eigenen AI Text Classifier im Juli 2023 wegen niedriger Treffgenauigkeit wieder vom Netz. Und die Vanderbilt University deaktivierte Turnitins Detektor schon 2023, weil die hochgerechnete Fehlerquote zu viele ehrliche Arbeiten getroffen hätte. Wer Ihnen sagt, der Score allein reiche, widerspricht den Herstellern selbst.

Sind neuere KI-Detektoren nicht inzwischen zuverlässiger geworden?

Teilweise ja. Das Educational Testing Service fand 2024 mit einem eigenen Detektor keinen Bias gegen Nicht-Muttersprachler, und eine Arbeit auf der EACL 2026 zeigte für tschechische Texte, dass zeitgemäße Detektoren wirksam arbeiten, ohne sich auf Perplexität zu stützen. Der Bias der älteren, perplexity-basierten Generation ist also kein Naturgesetz. Verlassen kann man sich darauf trotzdem nicht. Im Hochschul-Alltag laufen weiter genau die Tools, die den Bias zeigen, und auf gemischten, teils überarbeiteten Texten scheitern auch aktuelle Detektoren, wie eine Untersuchung im International Journal for Educational Integrity belegt. Solange Ihre Hochschule nicht offenlegt, welches Tool sie einsetzt, sagt ein einzelner Score wenig aus.

KI-Detektor falsch positiv: warum es ehrliche Texte trifft

Q: Reicht ein Versionsverlauf als Nachweis, dass ich meinen Text selbst geschrieben habe?

Als alleiniger Nachweis nicht. Ein Versionsverlauf in Google Docs oder Word lässt sich fälschen, etwa indem ein fertiger Text Wort für Wort abgetippt wird, und die IT-Abteilung der University of Maryland sagt das offen. Bei Word kommt ein praktischer Stolperstein dazu, denn der Verlauf existiert nur bei Speicherung in OneDrive oder SharePoint mit aktiviertem AutoSpeichern, eine rein lokal gespeicherte Datei hat keinen. Trotzdem ist der Verlauf wertvoll, weil er plausibel macht, dass Ihre Arbeit über Wochen gewachsen ist. Stärker als jedes einzelne Werkzeug ist ein Bündel aus Entwürfen, Recherche-Notizen mit Datums-Spuren, der Historie Ihres Literaturverwaltungsprogramms und vor allem der Fähigkeit, den eigenen Text mündlich zu erklären.

Daniel M. Greiner1. Juni 202616 Min. Lesezeit

Was ein hoher KI-Score auf Ihrer eigenen Arbeit bedeutet und wie Sie Ihre Urheberschaft belegen.

Studentin sitzt nachdenklich mit geschlossenem Laptop an einem Tisch in einem Hochschulgebäude, während im Hintergrund andere Studierende zusammensitzen.

61 %

Nicht-Muttersprachler betroffen

bis 45,8 %

echte Texte falsch als KI

OpenAI

stoppte den eigenen Detektor

Quellen belegt

Sie haben jede Zeile selbst geschrieben, und trotzdem schlägt der Detektor an und meldet einen hohen KI-Anteil. Dieser Moment trifft mehr Studierende, als die Anbieter zugeben, und er bedeutet fast nie, was Sie gerade befürchten. Was diese Werkzeuge messen, ist sprachliche Vorhersagbarkeit, nicht Autorschaft. Ein hoher Score ist damit eine Wahrscheinlichkeits-Schätzung, kein Schuldbeweis, und die Beweislast liegt bei der Hochschule.

Das Wichtigste in Kürze

Was passiert ist. Ein Detektor hat Ihren selbst geschriebenen Text als KI eingestuft. Das ist ein bekanntes, messbares Problem dieser Werkzeuge, kein Hinweis auf einen Fehler Ihrerseits.
Wie oft das vorkommt. Auf beaufsichtigt geschriebenen Studi-Essays markierten gängige Tools zwischen 9,8 und 45,8 Prozent der menschlichen Texte fälschlich als KI^[1]. Bei nicht-muttersprachlichen Texten waren es im Schnitt 61,22 Prozent^[2].
Warum es Sie trifft. Detektoren bestrafen vorhersagbare Sprache: begrenzten Wortschatz, nüchterne Fachsprache, Standardformulierungen. Genau das verlangt akademisches Schreiben.
Was es rechtlich bedeutet. Ein Score allein trägt keine Sanktion. Die Goethe-Universität Frankfurt hält fest, dass Detektionssoftware nur unterstützend dienen darf, und die Beweislast liegt bei der Hochschule^[3].
Was Sie tun können. Nicht freitesten, sondern die eigene Arbeitsspur sichern. Der praktische Selbst-Check steht weiter unten.

Belege (3)

[1]Paustian, T., Slinger, B., „Students are using large language models and AI detectors can often detect their use“, Frontiers in Education 9:1374889, 7. Juni 2024, DOI 10.3389/feduc.2024.1374889, Open Access, frontiersin.org. Peer-reviewed. Sample: 459 Texte von 153 Studierenden eines Mikrobiologie-Kurses der University of Wisconsin-Madison, die ihre Essays unter Aufsicht schrieben (saubere menschliche Negativ-Kontrolle). False-Positive-Rate auf diesen menschlichen Texten: ZeroGPT 9,8 Prozent, GPTZero 15,8 Prozent, Originality.ai 17,6 Prozent, Winston AI 45,8 Prozent.↩
[2]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sample: 91 TOEFL-Essays von Nicht-Muttersprachlern plus 88 Essays von US-Achtklässlern, sieben verbreitete GPT-Detektoren. Befunde der Preprint-Fassung: durchschnittliche False-Positive-Rate 61,22 Prozent auf den TOEFL-Essays gegenüber 5,19 Prozent bei den Muttersprachler-Essays, nach sprachlicher Anreicherung 11,77 Prozent. Die finale Patterns-Fassung berichtet diese Werte gerundet als 61,3 bzw. 11,6 Prozent. Einstimmig falsch markierte Essays hatten signifikant niedrigere Perplexität.↩
[3]Goethe-Universität Frankfurt, „Einsatz von generativer KI in der Lehre. Handlungsempfehlungen für Lehrende“, aktualisiert 8. Mai 2026, lehre-virtuell.uni-frankfurt.de. Kernaussagen: KI-Detektionssoftware kann nur unterstützend, niemals allein als Beweisgrundlage dienen. Die Beweispflicht liegt bei der Hochschule, Zweifel gehen in der Regel zugunsten der Studierenden. Empfohlen wird bei Verdacht eine mündliche Zusatzprüfung von 10 bis 15 Minuten zur Klärung der Eigenleistung.↩

Warum ein Detektor ehrlichen Text als KI liest

Ein KI-Detektor weiß nicht, wer einen Text geschrieben hat. Er schätzt, wie wahrscheinlich die Wortfolge ist. Dahinter stehen zwei Größen. Perplexität misst, wie überraschend die Wortwahl für ein Sprachmodell ist. Niedrige Perplexität, also vorhersagbarer Text, gilt als maschinell. Burstiness misst die Schwankung von Satzlänge und Komplexität. Gleichförmiger Text gilt ebenfalls als maschinell.

Die formale Grundlage stammt aus der KI-Forschung selbst. Das DetectGPT-Paper von 2023 zeigt, dass maschinengenerierter Text in Regionen besonders hoher Wahrscheinlichkeit liegt, weil ein Modell beim Schreiben die wahrscheinlichsten Wörter wählt^[4]. Menschlicher Text ist im Schnitt überraschender. Die Kehrseite steht im selben Befund: menschlicher Text, der ebenfalls vorhersagbar ist, etwa durch einfache Sprache oder formelhafte Fachbegriffe, landet in genau denselben Regionen und wird als maschinell eingeordnet.

Das ist der Kern des Problems. Akademisches Schreiben verlangt nüchterne, standardisierte Sprache. Eine saubere Methoden-Beschreibung, ein juristischer Standardsatz, ein technisches Protokoll, alles davon hat niedrige Perplexität. Der Detektor liest das nicht als sorgfältige Arbeit, sondern als statistisch maschinenähnlich. Wer mustergültig wissenschaftlich schreibt, erhöht sein Risiko eines Falsch-Positivs. Die ausführliche Mechanik steht im Leitfaden zu KI-Detektoren im Studium.

Der Score misst, wie vorhersagbar Ihre Sprache ist, nicht, wer sie geschrieben hat.

Belege (2)

[2]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sample: 91 TOEFL-Essays von Nicht-Muttersprachlern plus 88 Essays von US-Achtklässlern, sieben verbreitete GPT-Detektoren. Befunde der Preprint-Fassung: durchschnittliche False-Positive-Rate 61,22 Prozent auf den TOEFL-Essays gegenüber 5,19 Prozent bei den Muttersprachler-Essays, nach sprachlicher Anreicherung 11,77 Prozent. Die finale Patterns-Fassung berichtet diese Werte gerundet als 61,3 bzw. 11,6 Prozent. Einstimmig falsch markierte Essays hatten signifikant niedrigere Perplexität.↩
[4]Mitchell, E., Lee, Y., Khazatsky, A., Manning, C. D., Finn, C., „DetectGPT. Zero-Shot Machine-Generated Text Detection using Probability Curvature“, ICML 2023, PMLR 202:24950–24962, arXiv:2301.11305, arxiv.org/abs/2301.11305. Peer-reviewed. Belegt den Mechanismus: maschinengenerierter Text liegt in Regionen hoher Wahrscheinlichkeit (negativer Krümmung der Log-Wahrscheinlichkeitsfunktion), menschlicher Text ist statistisch überraschender. Vorhersagbarer menschlicher Text fällt in dieselben Regionen und wird als maschinell klassifiziert.↩

Drei Wege, auf denen ehrliche Texte ins Raster fallen

Drei Profile tragen das höchste Falsch-Positiv-Risiko: nicht-muttersprachliche Texte, betont nüchterne Schreibstile und alles, was sprachlich vorhersagbar ist. Sie überlappen, weil ihnen dieselbe Ursache zugrunde liegt, eine niedrige Perplexität.

Der erste Pfad: nicht-muttersprachliches Schreiben

Die stärkste Einzelevidenz liefert die Stanford-Studie von Liang und Kollegen aus 2023^[2]. Sieben verbreitete Detektoren stuften im Schnitt 61,22 Prozent der englischen TOEFL-Essays von Nicht-Muttersprachlern fälschlich als KI ein, während dieselben Tools die Essays von US-Achtklässlern bei nur 5,19 Prozent Fehlern fast fehlerfrei als menschlich erkannten. 18 der 91 Essays wurden sogar von allen sieben Tools einstimmig falsch markiert. Reicherten die Forscher dieselben Essays mit muttersprachlichem Wortschatz an, fiel die Fehlerquote von 61,22 auf 11,77 Prozent, und die markierten Essays hatten messbar niedrigere Perplexität. Es ist die Vorhersagbarkeit der Sprache, die flaggt, nicht die Herkunft des Textes.

Wie oft ehrliche Texte fälschlich als KI markiert werden

Dieselben sieben Detektoren, derselbe Test, drei Gruppen menschlicher Texte. Der Unterschied liegt nicht in der Herkunft, sondern in der sprachlichen Vorhersagbarkeit.

US-Muttersprachler · Essays von Achtklässlern5,19 %

Nicht-Muttersprachler · TOEFL-Essays, im Original61,22 %

Dieselben Texte, sprachlich angereichert · muttersprachlicher Wortschatz ergänzt11,77 %

Stanford-Studie (Liang et al. 2023, arXiv-Preprint): Auf TOEFL-Essays von Nicht-Muttersprachlern lag die durchschnittliche Falsch-Positiv-Rate bei 61,22 Prozent, auf Muttersprachler-Essays bei 5,19 Prozent. Reicherte man die TOEFL-Essays sprachlich an, fiel die Rate auf 11,77 Prozent. Markiert wird sprachliche Vorhersagbarkeit, nicht maschinelle Herkunft.

Ein eingeladener Fachkommentar in derselben Zeitschrift brachte es auf den Punkt, rein technische Lösungen für die Erkennung schaffen mehr Probleme, als sie lösen^[5].

Der Bias ist kein Naturgesetz

Die Befundlage ist seit 2024 differenzierter. Das Educational Testing Service, Herausgeber von TOEFL und GRE, trainierte 2024 eigene Detektoren auf einem großen GRE-Datensatz und fand mit diesen keinen Bias gegen Nicht-Muttersprachler^[6]. Eine peer-reviewte Arbeit auf der EACL 2026 fand für tschechische Texte ebenfalls keinen systematischen Bias und hält fest, dass zeitgemäße Detektoren wirksam arbeiten, ohne sich auf Perplexität zu stützen^[7]. Daraus folgt aber nicht, dass das Problem gelöst ist. Der Bias steckt in den perplexity-basierten Tools, die Hochschulen 2023 bis 2025 eingesetzt haben, und genau diese Tools laufen im Alltag weiter.

Der zweite Pfad: nüchterne und formelhafte Sprache

Der Effekt hängt nicht an der Staatsangehörigkeit, sondern an der sprachlichen Einfachheit. Das zeigt die Umkehrprobe derselben Stanford-Studie, denn als die Forscher die Essays der US-Muttersprachler sprachlich vereinfachten, stieg deren Fehlerquote von 5,19 auf 56,65 Prozent. Wer in knappen Standardsätzen schreibt, wie es ein Methodenteil, eine juristische Subsumtion oder eine technische Dokumentation verlangt, produziert genau das niedrig-perplexe Muster, das die Tools als maschinell lesen.

Der dritte Pfad: ein abweichender Schreibstil

Eine einzelne Person steht mit einem Buch etwas abseits in einem Hochschulflur, während ringsum Studierende in Gruppen sprechen.

Auch neurodivergente Schreibweisen können betroffen sein. Eine peer-reviewte Studie der AIED 2025 untersuchte rund 60.000 Reddit-Beiträge und fand, dass Texte aus einem wahrscheinlich-autistischen Subkorpus signifikant häufiger als KI markiert wurden als allgemeine Beiträge^[8]. Betroffen waren dabei weniger als 2 Prozent beider Gruppen, der Effekt ist real und statistisch signifikant, aber klein. Niemand wird massenhaft beschuldigt, doch wer ein ungewöhnliches, repetitives oder besonders strukturiertes Schreibmuster hat, trägt ein erhöhtes Risiko.

Belege (5)

[2]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sample: 91 TOEFL-Essays von Nicht-Muttersprachlern plus 88 Essays von US-Achtklässlern, sieben verbreitete GPT-Detektoren. Befunde der Preprint-Fassung: durchschnittliche False-Positive-Rate 61,22 Prozent auf den TOEFL-Essays gegenüber 5,19 Prozent bei den Muttersprachler-Essays, nach sprachlicher Anreicherung 11,77 Prozent. Die finale Patterns-Fassung berichtet diese Werte gerundet als 61,3 bzw. 11,6 Prozent. Einstimmig falsch markierte Essays hatten signifikant niedrigere Perplexität.↩
[5]Otterbacher, J., „Why technical solutions for detecting AI-generated content in research and education are insufficient“, Patterns (Cell Press) 4(7):100796, 2023, DOI 10.1016/j.patter.2023.100796, PMC10382978. Peer-reviewter Kommentar zur Liang-Studie: die Essays chinesischer Schreiber hatten eine deutlich höhere Falsch-Positiv-Rate als die englischer Muttersprachler. Kernsatz: rein technische Lösungen schaffen nur mehr Probleme.↩
[6]Jiang, Y., Hao, J., Fauss, M., Li, C. (Educational Testing Service), „Detecting ChatGPT-generated essays in a large-scale writing assessment. Is there a bias against non-native English speakers?“, Computers & Education 217:105070, 2024, DOI 10.1016/j.compedu.2024.105070, sciencedirect.com. Peer-reviewed. Großer GRE-Datensatz von Nicht-Muttersprachlern. Mit eigenen, auf handgefertigten Merkmalen trainierten Detektoren fanden die Autoren keinen Bias gegen Nicht-Muttersprachler. ETS ist Herausgeber von TOEFL und GRE, der institutionelle Kontext ist transparent zu machen.↩
[7]Al Ali, A., Helcl, J., Libovický, J., „Different Time, Different Language. Revisiting the Bias Against Non-Native Speakers in GPT Detectors“, EACL 2026 Student Research Workshop, S. 277–291, arXiv:2602.05769, aclanthology.org/2026.eacl-srw.20. Peer-reviewed. Befund für tschechische Texte: die Perplexität nicht-muttersprachlicher Texte ist nicht niedriger als die muttersprachlicher, kein systematischer Bias über drei Detektor-Familien. Kernsatz: zeitgemäße Detektoren arbeiten wirksam, ohne sich auf Perplexität zu stützen.↩
[8]Chambers, S., Kelley, M. C., „The Misclassification of Autistic Writing as AI-Generated“, Artificial Intelligence in Education (AIED 2025), Springer LNCS, DOI 10.1007/978-3-031-98420-4_7, link.springer.com. Peer-reviewed. Sample: rund 60.000 Reddit-Posts, aufgeteilt in ein wahrscheinlich-autistisches und ein allgemeines Subkorpus. Weniger als 2 Prozent beider Gruppen wurden als KI markiert, das autistische Subkorpus aber signifikant häufiger. Effekt real und statistisch signifikant, aber klein.↩

Warum es deutsche Texte zusätzlich härter trifft

KI-Erkennung funktioniert auf Deutsch nachweislich schwächer und uneinheitlicher als auf Englisch. Die Tools sind überwiegend auf englischen Daten trainiert, und das schlägt auf jede nicht-englische Sprache durch.

Die beste peer-reviewte deutsche Evidenz stammt von einer Forschungsgruppe um Schaaff, Schlippe und Mindner. Ihr eigenes Klassifikationssystem erkannte von Grund auf KI-generierte deutsche Texte zu 97 Prozent, umgeschriebene deutsche Texte aber nur noch zu 72 Prozent^[9]. Die Erkennung bricht also schon bei einer einzigen Überarbeitung ein. Turnitin unterstützt seine KI-Erkennung offiziell nur für Englisch, Spanisch und Japanisch, Deutsch steht nicht auf der Liste^[10]. Wer einen deutschen Text durch ein primär für Englisch gebautes Tool schickt, bekommt ein Ergebnis auf wackliger Grundlage.

Die Datenlücke bei deutschen Texten

An dieser Stelle ist Genauigkeit wichtiger als ein griffiger Wert. Eine Studie, die speziell für deutschsprachige, menschlich verfasste Texte eine Falsch-Positiv-Rate der gängigen kommerziellen Detektoren ausweist, fehlt bislang. Der größte mehrsprachige Benchmark, MULTITuDE von 2023, enthält zwar 300 menschliche deutsche Texte und testet GPTZero und ZeroGPT, berichtet die Falsch-Positiv-Rate aber nur über alle elf Sprachen zusammen, nicht für Deutsch allein^[11]. Im Netz kursierende Prozentzahlen aus Agentur-Eigentests nennen wir bewusst nicht, weil ihre Methodik nicht offenliegt. Welche Genauigkeit die einzelnen Tools für sich beanspruchen und was unabhängige Studien dem gegenüberstellen, ordnet der Vergleich der gängigen KI-Detektoren quellenkritisch ein.

Was es gibt, ist ein deutscher Befund zur grundsätzlichen Unzuverlässigkeit. Eine Studie von Fiedler und Döpke aus 2025 ließ 63 Lehrende deutsche Textauszüge beurteilen und prüfte parallel KI-Detektoren^[12]. Detektoren und Lehrende lagen gleichermaßen nur knapp über dem Zufallsniveau, und selbst die 63 Lehrenden ordneten gut ein Drittel der tatsächlich von Menschen verfassten Auszüge fälschlich der KI zu. Auf Deutsch ist der Detektor-Score also ein noch schwächeres Signal als auf Englisch.

Auf Deutsch raten diese Werkzeuge kaum besser als der Zufall.

Belege (4)

[9]Schaaff, K., Schlippe, T., Mindner, L., „Classification of human- and AI-generated texts for different languages and domains“, International Journal of Speech Technology 27:935–956, 2024, DOI 10.1007/s10772-024-10143-3, Konferenz-Vorversion ICNLSP 2023 arXiv:2312.04882. Peer-reviewed. Für deutsche Texte erreichte das eigene Klassifikationssystem 97 Prozent F1 bei von Grund auf KI-generierten Texten, aber nur 72 Prozent bei umgeschriebenen. Die Studie misst Accuracy und F1 auf einem balancierten Datensatz, KEINE isolierte Falsch-Positiv-Rate auf rein menschlichen deutschen Texten.↩
[10]Turnitin Guides, „AI writing detection model“, Dokumentation der unterstützten Sprachen der KI-Erkennung (Englisch, Spanisch, Japanisch), andere Sprachen werden nicht verarbeitet, guides.turnitin.com.↩
[11]Macko, D., Moro, R., Uchendu, A. et al., „MULTITuDE. Large-Scale Multilingual Machine-Generated Text Detection Benchmark“, EMNLP 2023, S. 9960–9987, arXiv:2310.13606, aclanthology.org/2023.emnlp-main.616. Peer-reviewed. Der größte mehrsprachige Benchmark enthält 300 menschlich verfasste deutsche Texte und testet unter anderem GPTZero und ZeroGPT. Die Falsch-Positiv-Rate wird nur als gewichteter Durchschnitt über alle elf Sprachen berichtet, nicht für Deutsch allein, pro Sprache nur F1.↩
[12]Fiedler, A., Döpke, J., „Do humans identify AI-generated text better than machines? Evidence based on excerpts from German theses“, International Review of Economics Education 49:100321, 2025, DOI 10.1016/j.iree.2025.100321, Open Access. Peer-reviewed. Sample: 63 Lehrende beurteilten 19 menschliche und 19 ChatGPT-generierte deutsche Textauszüge von 200 bis 300 Wörtern. Befund: sowohl die Lehrenden als auch die getesteten KI-Detektoren erkannten KI-Texte nur knapp über Zufallsniveau, der Abstand zum Zufall war lediglich auf dem 10-Prozent-Niveau signifikant (Fisher-Test p gleich 0,08). Die Lehrenden erkannten 64 Prozent der rein menschlichen Texte korrekt und ordneten damit gut ein Drittel fälschlich der KI zu.↩

Ist mein Flag ein Falsch-Positiv? Der praktische Selbst-Check

Der Leitgedanke heißt plausibilisieren statt beweisen. Sie müssen Ihre Unschuld nicht technisch beweisen, weil die Beweislast bei der Hochschule liegt. Sie müssen zeigen, dass Sie hinter dem Inhalt stehen und ihn erklären können. Das ist ein anderer, erreichbarer Anspruch.

Eine Vorbemerkung vorweg, die viel Stress erspart. Jagen Sie Ihren Text nicht vorsorglich durch mehrere Detektoren, um sich freizutesten. Ein Eigen-Check ist genauso falsch-positiv-anfällig wie der Test der Hochschule. Ein bestandener Check beweist Ihre Eigenleistung nicht, ein nicht bestandener beweist keine Täuschung. Die Tool-Widersprüche taugen als Argument gegen die Beweiskraft eines Scores, nicht als Absicherung.

Tool-Uneinigkeit ist Ihr stärkstes Sachargument

Wenn zwei seriöse Detektoren denselben Text gegensätzlich bewerten, kann kein einzelner Score die Wahrheit über die Herkunft sein. Das ist mehrfach belegt. Eine Studie in JCO Clinical Cancer Informatics maß zwischen drei verbreiteten Detektoren eine Spearman-Korrelation von nur 0,143 bis 0,471 am selben Korpus, also schwache bis allenfalls mäßige Übereinstimmung^[13]. Eine Arbeit im Journal of Applied Learning and Teaching von 2025 fand sogar Widersprüche innerhalb eines Tools. ZeroGPT meldete für eine Gemini-Datei 82 Prozent und für zwei weitere Dateien desselben Modells 100 Prozent.^[14] Eine Untersuchung im International Journal for Educational Integrity zeigte zudem, dass zwei Tools auf denselben Texten Gesamtgenauigkeiten von 0,69 und 0,61 erreichten und beide an gemischten, teils überarbeiteten Texten scheiterten, also genau an dem, was eine echte Studi-Arbeit ausmacht^[15].

Vier Tools, derselbe menschliche Text, vier Fehlerquoten

Anteil der von 153 Studierenden unter Aufsicht geschriebenen Essays, die fälschlich als KI markiert wurden.

ZeroGPT9,8 %

GPTZero15,8 %

Originality.ai17,6 %

Winston AI45,8 %

Paustian und Slinger 2024 (peer-reviewed, Frontiers in Education): Dieselbe saubere menschliche Negativ-Kontrolle, vier Tools zwischen 9,8 und 45,8 Prozent Falsch-Positiven. Es gibt keine eine Fehlerquote, sie hängt vom Tool ab.

Versionsverlauf: ein Indiz, kein Beweis

Ein Versionsverlauf gilt vielen als sicherster Nachweis, trägt aber weniger, als sie denken. Die IT-Abteilung der University of Maryland hält offen fest, dass er sich umgehen lässt, etwa indem man einen fertigen Text Wort für Wort abtippt^[16]. Er kann ein ergänzendes Indiz sein, mehr nicht. Bei Word kommt ein praktischer Stolperstein dazu, denn der Verlauf existiert nur bei Speicherung in OneDrive oder SharePoint mit aktiviertem AutoSpeichern, eine rein lokal gespeicherte Datei hat keinen Cloud-Verlauf^[17]. Google Docs protokolliert dagegen nahezu jede Bearbeitung automatisch.

Was wirklich trägt: ob Sie den Inhalt erklären können

Der robusteste Hebel ist kein Dokument, sondern eine Fähigkeit. Ob Sie den Inhalt Ihrer Arbeit im Gespräch sicher wiedergeben können, wiegt schwerer als jeder Zeitstempel. Wer darlegt, warum eine Methode gewählt wurde, was ein Ergebnis bedeutet und wie ein Argument aufgebaut ist, entkräftet einen Score überzeugender als jede Datei-Historie.

Ein Student erklärt im Gespräch mit einer Dozentin sein Vorgehen, während sie ihm aufmerksam zuhört.

Bei empirischen Arbeiten zählen dazu die Rechenwege, die eingesetzten Tools wie SPSS oder R und die einzelnen Auswertungsschritte, die Sie nachvollziehbar erklären können. Das wiegt auch deshalb so schwer, weil die Beweislast für eine Täuschung bei der Hochschule liegt und nicht bei Ihnen^[3]. Sie müssen Ihre Unschuld nicht belegen, sondern zeigen, dass Sie hinter Ihrer Arbeit stehen. Die FH Aachen rät genau dazu, Eigenständigkeit nicht am fertigen Text, sondern an der nachvollziehbaren inhaltlichen Auseinandersetzung sichtbar zu machen^[18]. Gespeicherte Entwürfe, Recherche-Notizen oder ein Chat-Verlauf bei KI-Nutzung können das ergänzen, bleiben aber Nebenbeleg neben der inhaltlichen Souveränität.

Die sechs Schritte im Überblick

Den Score richtig einordnen

Verstehen, dass ein hoher Wert Vorhersagbarkeit misst, nicht Herkunft. Das nimmt den ersten Schreck und ist die Grundlage für alles Weitere.

Das eigene Bias-Profil prüfen

Schreiben Sie als Nicht-Muttersprachler, betont nüchtern oder auf Deutsch? Dann haben Sie ein erhöhtes strukturelles Risiko. Das ist ein Argument, kein Makel.

Tool-Widersprüche dokumentieren

Unterschiedliche Scores am selben Text belegen, dass kein Score Beweiskraft hat. Nicht zum Freitesten, sondern als Sachargument.

Die Arbeitsspur sichern

Versionsverlauf in Google Docs oder Word mit OneDrive, plus Track Changes mit Zeitstempel. Ein Indiz, keine alleinige Verteidigung.

Die inhaltliche Substanz sichern

Bei empirischen Arbeiten Rechenwege, genutzte Tools und Auswertungsschritte, dazu Recherche-Notizen und bei KI-Nutzung der Chat-Verlauf. Zeigt, dass Sie den Stoff durchdrungen haben.

Mündliche Verteidigbarkeit herstellen

Wer den eigenen Text im Gespräch sicher erklärt, hat den robustesten Hebel. Die Goethe-Uni nennt die mündliche Zusatzprüfung selbst als faires Klärungsmittel.

Belege (7)

[3]Goethe-Universität Frankfurt, „Einsatz von generativer KI in der Lehre. Handlungsempfehlungen für Lehrende“, aktualisiert 8. Mai 2026, lehre-virtuell.uni-frankfurt.de. Kernaussagen: KI-Detektionssoftware kann nur unterstützend, niemals allein als Beweisgrundlage dienen. Die Beweispflicht liegt bei der Hochschule, Zweifel gehen in der Regel zugunsten der Studierenden. Empfohlen wird bei Verdacht eine mündliche Zusatzprüfung von 10 bis 15 Minuten zur Klärung der Eigenleistung.↩
[13]Howard, F. M., Li, A., Riffon, M. F., Garrett-Mayer, E., Pearson, A. T., „Characterizing the Increase in Artificial Intelligence Content Detection in Oncology Scientific Abstracts From 2021 to 2023“, JCO Clinical Cancer Informatics, 1. Juni 2024, DOI 10.1200/CCI.24.00077, PMC11371107. Peer-reviewed. Auf reinen KI-Texten erreichten GPTZero, Originality.ai und Sapling Sensitivitäten von 96 bis 99,5 Prozent, ihre Spearman-Korrelation untereinander am selben Korpus lag aber nur bei 0,143 bis 0,471. Die Tools sind nicht austauschbar.↩
[14]Malik, M. A., Amjad, A. I., „AI vs AI. How effective are Turnitin, ZeroGPT, GPTZero, and Writer AI in detecting text generated by ChatGPT, Perplexity, and Gemini?“, Journal of Applied Learning and Teaching 8(1), 2025, DOI 10.37074/jalt.2025.8.1.9, Open Access, journals.sfu.ca/jalt. Peer-reviewed. Befund: derselbe Texttyp erhält teils unterschiedliche KI-Scores vom selben Tool. Bei Gemini-Essays meldete ZeroGPT für eine Datei 82 Prozent, für zwei weitere Dateien desselben Modells 100 Prozent.↩
[15]Hadra, M., Cambridge, K., Mesbah, M., „Evaluating the accuracy and reliability of AI content detectors in academic contexts“, International Journal for Educational Integrity (Springer), 2. Februar 2026, DOI 10.1007/s40979-026-00213-1. Peer-reviewed. Sample: 192 Texte, getestet Turnitin und Originality.ai. Gesamtgenauigkeit Originality.ai 0,69 gegenüber Turnitin 0,61, beide Tools mit erheblicher Schwäche bei hybriden, also teils menschlich und teils KI-verfassten Texten.↩
[16]Fritz, J. (Division of Information Technology, University of Maryland, Baltimore County), „Using Google Doc ‚Versions‘ to Detect Student Originality vs. AI Abuse“, 14. Mai 2025, doit.umbc.edu/post/150153. Hält fest, dass ein Versionsverlauf nicht KI-Nutzung beweist, sondern die Abwesenheit von Eigenständigkeit aufzeigen soll, und dass er umgehbar ist, etwa indem ein fertiger Text Wort für Wort abgetippt wird.↩
[17]Microsoft Support, „View previous versions of Office files“ und „Track changes in Word“, support.microsoft.com. Der Versionsverlauf in Word funktioniert nur bei Cloud-Speicherung in OneDrive oder SharePoint mit aktiviertem AutoSpeichern. Eine rein lokal gespeicherte Datei hat keinen Cloud-Versionsverlauf.↩
[18]FH Aachen, Zentrum für Hochschuldidaktik und Qualitätsentwicklung (ZHQ), „Eigenständigkeit in Abschlussarbeiten vs. KI. Wie erkennen wir studentische Leistung?“, 19. März 2025, zhq-blog.fh-aachen.de. Hält fest, dass automatisierte KI-Detektoren sich als unzuverlässig erwiesen haben, und empfiehlt, Eigenständigkeit nicht am fertigen Text, sondern am gesamten Arbeitsprozess nachzuweisen, etwa durch ein KI-Protokoll in der Eigenständigkeitserklärung und einen Reflexions- oder Prozessbericht über die eigenen methodischen Entscheidungen.↩

Selbst die Hersteller sagen: der Score allein genügt nicht

Das stärkste Material in einer Auseinandersetzung liefern die Anbieter und Hochschulen selbst. Wer einen Score gegen Sie verwendet, widerspricht den Herstellern dieser Werkzeuge.

TurnitinAnbieter

Das Ergebnis solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. Werte unter 20 Prozent KI-Anteil markiert Turnitin selbst mit einem Sternchen als weniger zuverlässig.^[19]

GPTZeroAnbieter

Detektor-Ergebnisse seien Hinweise, nicht definitiver Beweis, Fehler passierten besonders bei kurzen, bearbeiteten oder gemischten Texten.^[20]

OpenAIAnbieter

Nahm den eigenen AI Text Classifier im Juli 2023 wegen niedriger Treffgenauigkeit vom Netz. Schon zum Start nur 26 Prozent Trefferquote und 9 Prozent Falsch-Positive.^[21]

Vanderbilt UniversityHochschule

Schaltete Turnitins Detektor 2023 ab. Bei 1 Prozent Fehlerrate und rund 75.000 Arbeiten wären etwa 750 ehrliche Arbeiten fälschlich markiert worden.^[22]

Goethe-Universität FrankfurtHochschule

Detektionssoftware darf nur unterstützend, nie allein als Beweisgrundlage dienen. Die Beweislast liegt bei der Hochschule, eine kurze mündliche Zusatzprüfung ist das faire Klärungsmittel.^[3]

Fünf Stimmen, ein Befund: der Score allein trägt keine Entscheidung.

Belege (5)

[3]Goethe-Universität Frankfurt, „Einsatz von generativer KI in der Lehre. Handlungsempfehlungen für Lehrende“, aktualisiert 8. Mai 2026, lehre-virtuell.uni-frankfurt.de. Kernaussagen: KI-Detektionssoftware kann nur unterstützend, niemals allein als Beweisgrundlage dienen. Die Beweispflicht liegt bei der Hochschule, Zweifel gehen in der Regel zugunsten der Studierenden. Empfohlen wird bei Verdacht eine mündliche Zusatzprüfung von 10 bis 15 Minuten zur Klärung der Eigenleistung.↩
[19]Turnitin Guides, „Turnitin’s AI writing detection capabilities FAQs“, guides.turnitin.com. Anbieter-Disclaimer: die KI-Erkennung sei nicht immer korrekt und solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. Das Ziel von unter 1 Prozent Falsch-Positiven gilt nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden, niedrigere Werte werden mit einem Sternchen als weniger zuverlässig markiert.↩
[20]GPTZero, „Falsely Accused of AI Cheating? How to Prove You Didn’t“, gptzero.me. Anbieter-Aussage: kein Detektor ist perfekt, Fehler passieren besonders bei kurzen, bearbeiteten oder gemischten Texten, und verantwortungsvolle Lehrende behandeln Detektor-Ergebnisse als Hinweise, nicht als definitiven Beweis.↩
[21]OpenAI, „New AI classifier for indicating AI-written text“, openai.com. Update vom 20. Juli 2023 auf derselben Seite: „As of July 20, 2023, the AI classifier is no longer available due to its low rate of accuracy.“ Zur Markteinführung im Januar 2023 nannte OpenAI dort nur 26 Prozent Trefferquote auf KI-Text und 9 Prozent Falsch-Positive auf menschlichem Text. Zusätzlicher Bericht: TechCrunch, 25. Juli 2023, techcrunch.com.↩
[22]Vanderbilt University, Brightspace, „Guidance on AI Detection and Why We’re Disabling Turnitin’s AI Detector“, 16. August 2023, vanderbilt.edu. Rechnung der Universität: Bei Turnitins angegebener 1-Prozent-Falsch-Positiv-Rate und rund 75.000 im Jahr 2022 eingereichten Arbeiten wären etwa 750 studentische Arbeiten fälschlich markiert worden. Weitere Abschalt-Gründe: fehlende Transparenz und Bias gegen Nicht-Muttersprachler.↩

Was es bedeutet und was Sie jetzt tun

Ein hoher Score ohne weitere Indizien ist kein Verfahren, sondern ein Verdacht auf wackliger Grundlage. Solange niemand einen formalen Vorwurf erhebt, müssen Sie nichts überstürzen. Sinnvoll ist nur, die eigene Arbeitsspur zu sichern, solange sie noch frisch ist.

Wo Ihre Prüfungsordnung es zulässt, ist Transparenz der bessere Schutz als Verstecken. Eine knappe Angabe in der Eigenständigkeitserklärung, in welchem Umfang Sie KI als Formulierungs- oder Recherche-Hilfe genutzt haben, nimmt einer späteren Auseinandersetzung den schärfsten Punkt. Vor dem VG Kassel führte 2026 nicht der KI-Einsatz zur Sanktion, sondern die fehlende Kennzeichnung. Eine ungekennzeichnete Nutzung kann als Täuschung gewertet werden, die konkrete Sanktion hängt von Prüfungsordnung und Einzelfall ab^[23]. Seit Februar 2025 verlangt zudem Artikel 4 der EU-KI-Verordnung ein ausreichendes Niveau an KI-Kompetenz, ein reflektierter, offener Umgang ist also zunehmend Teil dessen, was Hochschulen erwarten^[24].

Sollte es doch zu einem formalen Vorwurf kommen, gilt: nicht impulsiv reagieren, Akteneinsicht in die Detektor-Evidenz und das Verfahren verlangen, die Substanz-Belege bündeln und auf die Beweislast der Hochschule sowie die mündliche Zusatzprüfung verweisen. Den vollständigen Schritt-für-Schritt-Leitfaden für diese Lage, von der Anhörung bis zum Widerspruch, finden Sie im Artikel was Sie bei einem KI-Vorwurf im Studium tun können.

Belege (3)

[3]Goethe-Universität Frankfurt, „Einsatz von generativer KI in der Lehre. Handlungsempfehlungen für Lehrende“, aktualisiert 8. Mai 2026, lehre-virtuell.uni-frankfurt.de. Kernaussagen: KI-Detektionssoftware kann nur unterstützend, niemals allein als Beweisgrundlage dienen. Die Beweispflicht liegt bei der Hochschule, Zweifel gehen in der Regel zugunsten der Studierenden. Empfohlen wird bei Verdacht eine mündliche Zusatzprüfung von 10 bis 15 Minuten zur Klärung der Eigenleistung.↩
[23]VG Kassel, Urteile vom 25. Februar 2026, Az. 7 K 2134/24.KS und 7 K 2515/25.KS, Berufung beim Hessischen VGH zugelassen, dejure.org. Juristischer Anker war die ungekennzeichnete KI-Nutzung in einer Prüfungsleistung, nicht die KI-Nutzung als solche. Das Gericht wertete sie als besonders schwere Täuschung, ein KI-Detektor kam nicht zum Einsatz; die Sanktion hängt von Prüfungsordnung und Einzelfall ab. Urteile nicht rechtskräftig.↩
[24]Verordnung (EU) 2024/1689 (KI-Verordnung), Artikel 4 (KI-Kompetenz), in Kraft seit 2. Februar 2025, artificialintelligenceact.eu/article/4. Verpflichtet Anbieter und Betreiber von KI-Systemen, ein ausreichendes Niveau an KI-Kompetenz ihres Personals sicherzustellen.↩

Fazit: ein hoher Score ist ein Anfang der Klärung, kein Urteil

Ein Falsch-Positiv ist kein zufälliger Ausrutscher, sondern die strukturelle Folge dessen, wie diese Werkzeuge funktionieren. Sie messen sprachliche Vorhersagbarkeit, und ehrliches, nüchternes, nicht-muttersprachliches oder deutsches Schreiben trifft genau dieses Muster.

Die gute Nachricht steht in den Quellen selbst. Die Anbieter nennen ihre Scores Hinweise, nicht Beweise. Die Rechtslage legt die Beweislast auf die Hochschule. Und eine wachsende Zahl von Universitäten zieht praktische Konsequenzen daraus. Sie stehen also nicht in der Pflicht, Ihre Unschuld technisch zu beweisen. Dass sich Urheberschaft grundsätzlich nicht mehr erzwingen lässt, macht unser begehbares Erlebnis Beweisen Sie, dass Sie ein Mensch sind erfahrbar.

Was Sie tun können, lässt sich in einem Satz zusammenfassen: keine Energie ins Freitesten stecken, sondern in eine nachvollziehbare Arbeitsspur und in die Fähigkeit, den eigenen Text mündlich zu erklären.

Eine dokumentierte, mündlich erklärbare Arbeit schlägt jeden Detektor-Score.

Alle 24 Quellen anzeigen

[1]Paustian, T., Slinger, B., „Students are using large language models and AI detectors can often detect their use“, Frontiers in Education 9:1374889, 7. Juni 2024, DOI 10.3389/feduc.2024.1374889, Open Access, frontiersin.org. Peer-reviewed. Sample: 459 Texte von 153 Studierenden eines Mikrobiologie-Kurses der University of Wisconsin-Madison, die ihre Essays unter Aufsicht schrieben (saubere menschliche Negativ-Kontrolle). False-Positive-Rate auf diesen menschlichen Texten: ZeroGPT 9,8 Prozent, GPTZero 15,8 Prozent, Originality.ai 17,6 Prozent, Winston AI 45,8 Prozent.↩
[2]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sample: 91 TOEFL-Essays von Nicht-Muttersprachlern plus 88 Essays von US-Achtklässlern, sieben verbreitete GPT-Detektoren. Befunde der Preprint-Fassung: durchschnittliche False-Positive-Rate 61,22 Prozent auf den TOEFL-Essays gegenüber 5,19 Prozent bei den Muttersprachler-Essays, nach sprachlicher Anreicherung 11,77 Prozent. Die finale Patterns-Fassung berichtet diese Werte gerundet als 61,3 bzw. 11,6 Prozent. Einstimmig falsch markierte Essays hatten signifikant niedrigere Perplexität.↩
[3]Goethe-Universität Frankfurt, „Einsatz von generativer KI in der Lehre. Handlungsempfehlungen für Lehrende“, aktualisiert 8. Mai 2026, lehre-virtuell.uni-frankfurt.de. Kernaussagen: KI-Detektionssoftware kann nur unterstützend, niemals allein als Beweisgrundlage dienen. Die Beweispflicht liegt bei der Hochschule, Zweifel gehen in der Regel zugunsten der Studierenden. Empfohlen wird bei Verdacht eine mündliche Zusatzprüfung von 10 bis 15 Minuten zur Klärung der Eigenleistung.↩
[4]Mitchell, E., Lee, Y., Khazatsky, A., Manning, C. D., Finn, C., „DetectGPT. Zero-Shot Machine-Generated Text Detection using Probability Curvature“, ICML 2023, PMLR 202:24950–24962, arXiv:2301.11305, arxiv.org/abs/2301.11305. Peer-reviewed. Belegt den Mechanismus: maschinengenerierter Text liegt in Regionen hoher Wahrscheinlichkeit (negativer Krümmung der Log-Wahrscheinlichkeitsfunktion), menschlicher Text ist statistisch überraschender. Vorhersagbarer menschlicher Text fällt in dieselben Regionen und wird als maschinell klassifiziert.↩
[5]Otterbacher, J., „Why technical solutions for detecting AI-generated content in research and education are insufficient“, Patterns (Cell Press) 4(7):100796, 2023, DOI 10.1016/j.patter.2023.100796, PMC10382978. Peer-reviewter Kommentar zur Liang-Studie: die Essays chinesischer Schreiber hatten eine deutlich höhere Falsch-Positiv-Rate als die englischer Muttersprachler. Kernsatz: rein technische Lösungen schaffen nur mehr Probleme.↩
[6]Jiang, Y., Hao, J., Fauss, M., Li, C. (Educational Testing Service), „Detecting ChatGPT-generated essays in a large-scale writing assessment. Is there a bias against non-native English speakers?“, Computers & Education 217:105070, 2024, DOI 10.1016/j.compedu.2024.105070, sciencedirect.com. Peer-reviewed. Großer GRE-Datensatz von Nicht-Muttersprachlern. Mit eigenen, auf handgefertigten Merkmalen trainierten Detektoren fanden die Autoren keinen Bias gegen Nicht-Muttersprachler. ETS ist Herausgeber von TOEFL und GRE, der institutionelle Kontext ist transparent zu machen.↩
[7]Al Ali, A., Helcl, J., Libovický, J., „Different Time, Different Language. Revisiting the Bias Against Non-Native Speakers in GPT Detectors“, EACL 2026 Student Research Workshop, S. 277–291, arXiv:2602.05769, aclanthology.org/2026.eacl-srw.20. Peer-reviewed. Befund für tschechische Texte: die Perplexität nicht-muttersprachlicher Texte ist nicht niedriger als die muttersprachlicher, kein systematischer Bias über drei Detektor-Familien. Kernsatz: zeitgemäße Detektoren arbeiten wirksam, ohne sich auf Perplexität zu stützen.↩
[8]Chambers, S., Kelley, M. C., „The Misclassification of Autistic Writing as AI-Generated“, Artificial Intelligence in Education (AIED 2025), Springer LNCS, DOI 10.1007/978-3-031-98420-4_7, link.springer.com. Peer-reviewed. Sample: rund 60.000 Reddit-Posts, aufgeteilt in ein wahrscheinlich-autistisches und ein allgemeines Subkorpus. Weniger als 2 Prozent beider Gruppen wurden als KI markiert, das autistische Subkorpus aber signifikant häufiger. Effekt real und statistisch signifikant, aber klein.↩
[9]Schaaff, K., Schlippe, T., Mindner, L., „Classification of human- and AI-generated texts for different languages and domains“, International Journal of Speech Technology 27:935–956, 2024, DOI 10.1007/s10772-024-10143-3, Konferenz-Vorversion ICNLSP 2023 arXiv:2312.04882. Peer-reviewed. Für deutsche Texte erreichte das eigene Klassifikationssystem 97 Prozent F1 bei von Grund auf KI-generierten Texten, aber nur 72 Prozent bei umgeschriebenen. Die Studie misst Accuracy und F1 auf einem balancierten Datensatz, KEINE isolierte Falsch-Positiv-Rate auf rein menschlichen deutschen Texten.↩
[10]Turnitin Guides, „AI writing detection model“, Dokumentation der unterstützten Sprachen der KI-Erkennung (Englisch, Spanisch, Japanisch), andere Sprachen werden nicht verarbeitet, guides.turnitin.com.↩
[11]Macko, D., Moro, R., Uchendu, A. et al., „MULTITuDE. Large-Scale Multilingual Machine-Generated Text Detection Benchmark“, EMNLP 2023, S. 9960–9987, arXiv:2310.13606, aclanthology.org/2023.emnlp-main.616. Peer-reviewed. Der größte mehrsprachige Benchmark enthält 300 menschlich verfasste deutsche Texte und testet unter anderem GPTZero und ZeroGPT. Die Falsch-Positiv-Rate wird nur als gewichteter Durchschnitt über alle elf Sprachen berichtet, nicht für Deutsch allein, pro Sprache nur F1.↩
[12]Fiedler, A., Döpke, J., „Do humans identify AI-generated text better than machines? Evidence based on excerpts from German theses“, International Review of Economics Education 49:100321, 2025, DOI 10.1016/j.iree.2025.100321, Open Access. Peer-reviewed. Sample: 63 Lehrende beurteilten 19 menschliche und 19 ChatGPT-generierte deutsche Textauszüge von 200 bis 300 Wörtern. Befund: sowohl die Lehrenden als auch die getesteten KI-Detektoren erkannten KI-Texte nur knapp über Zufallsniveau, der Abstand zum Zufall war lediglich auf dem 10-Prozent-Niveau signifikant (Fisher-Test p gleich 0,08). Die Lehrenden erkannten 64 Prozent der rein menschlichen Texte korrekt und ordneten damit gut ein Drittel fälschlich der KI zu.↩
[13]Howard, F. M., Li, A., Riffon, M. F., Garrett-Mayer, E., Pearson, A. T., „Characterizing the Increase in Artificial Intelligence Content Detection in Oncology Scientific Abstracts From 2021 to 2023“, JCO Clinical Cancer Informatics, 1. Juni 2024, DOI 10.1200/CCI.24.00077, PMC11371107. Peer-reviewed. Auf reinen KI-Texten erreichten GPTZero, Originality.ai und Sapling Sensitivitäten von 96 bis 99,5 Prozent, ihre Spearman-Korrelation untereinander am selben Korpus lag aber nur bei 0,143 bis 0,471. Die Tools sind nicht austauschbar.↩
[14]Malik, M. A., Amjad, A. I., „AI vs AI. How effective are Turnitin, ZeroGPT, GPTZero, and Writer AI in detecting text generated by ChatGPT, Perplexity, and Gemini?“, Journal of Applied Learning and Teaching 8(1), 2025, DOI 10.37074/jalt.2025.8.1.9, Open Access, journals.sfu.ca/jalt. Peer-reviewed. Befund: derselbe Texttyp erhält teils unterschiedliche KI-Scores vom selben Tool. Bei Gemini-Essays meldete ZeroGPT für eine Datei 82 Prozent, für zwei weitere Dateien desselben Modells 100 Prozent.↩
[15]Hadra, M., Cambridge, K., Mesbah, M., „Evaluating the accuracy and reliability of AI content detectors in academic contexts“, International Journal for Educational Integrity (Springer), 2. Februar 2026, DOI 10.1007/s40979-026-00213-1. Peer-reviewed. Sample: 192 Texte, getestet Turnitin und Originality.ai. Gesamtgenauigkeit Originality.ai 0,69 gegenüber Turnitin 0,61, beide Tools mit erheblicher Schwäche bei hybriden, also teils menschlich und teils KI-verfassten Texten.↩
[16]Fritz, J. (Division of Information Technology, University of Maryland, Baltimore County), „Using Google Doc ‚Versions‘ to Detect Student Originality vs. AI Abuse“, 14. Mai 2025, doit.umbc.edu/post/150153. Hält fest, dass ein Versionsverlauf nicht KI-Nutzung beweist, sondern die Abwesenheit von Eigenständigkeit aufzeigen soll, und dass er umgehbar ist, etwa indem ein fertiger Text Wort für Wort abgetippt wird.↩
[17]Microsoft Support, „View previous versions of Office files“ und „Track changes in Word“, support.microsoft.com. Der Versionsverlauf in Word funktioniert nur bei Cloud-Speicherung in OneDrive oder SharePoint mit aktiviertem AutoSpeichern. Eine rein lokal gespeicherte Datei hat keinen Cloud-Versionsverlauf.↩
[18]FH Aachen, Zentrum für Hochschuldidaktik und Qualitätsentwicklung (ZHQ), „Eigenständigkeit in Abschlussarbeiten vs. KI. Wie erkennen wir studentische Leistung?“, 19. März 2025, zhq-blog.fh-aachen.de. Hält fest, dass automatisierte KI-Detektoren sich als unzuverlässig erwiesen haben, und empfiehlt, Eigenständigkeit nicht am fertigen Text, sondern am gesamten Arbeitsprozess nachzuweisen, etwa durch ein KI-Protokoll in der Eigenständigkeitserklärung und einen Reflexions- oder Prozessbericht über die eigenen methodischen Entscheidungen.↩
[19]Turnitin Guides, „Turnitin’s AI writing detection capabilities FAQs“, guides.turnitin.com. Anbieter-Disclaimer: die KI-Erkennung sei nicht immer korrekt und solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. Das Ziel von unter 1 Prozent Falsch-Positiven gilt nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden, niedrigere Werte werden mit einem Sternchen als weniger zuverlässig markiert.↩
[20]GPTZero, „Falsely Accused of AI Cheating? How to Prove You Didn’t“, gptzero.me. Anbieter-Aussage: kein Detektor ist perfekt, Fehler passieren besonders bei kurzen, bearbeiteten oder gemischten Texten, und verantwortungsvolle Lehrende behandeln Detektor-Ergebnisse als Hinweise, nicht als definitiven Beweis.↩
[21]OpenAI, „New AI classifier for indicating AI-written text“, openai.com. Update vom 20. Juli 2023 auf derselben Seite: „As of July 20, 2023, the AI classifier is no longer available due to its low rate of accuracy.“ Zur Markteinführung im Januar 2023 nannte OpenAI dort nur 26 Prozent Trefferquote auf KI-Text und 9 Prozent Falsch-Positive auf menschlichem Text. Zusätzlicher Bericht: TechCrunch, 25. Juli 2023, techcrunch.com.↩
[22]Vanderbilt University, Brightspace, „Guidance on AI Detection and Why We’re Disabling Turnitin’s AI Detector“, 16. August 2023, vanderbilt.edu. Rechnung der Universität: Bei Turnitins angegebener 1-Prozent-Falsch-Positiv-Rate und rund 75.000 im Jahr 2022 eingereichten Arbeiten wären etwa 750 studentische Arbeiten fälschlich markiert worden. Weitere Abschalt-Gründe: fehlende Transparenz und Bias gegen Nicht-Muttersprachler.↩
[23]VG Kassel, Urteile vom 25. Februar 2026, Az. 7 K 2134/24.KS und 7 K 2515/25.KS, Berufung beim Hessischen VGH zugelassen, dejure.org. Juristischer Anker war die ungekennzeichnete KI-Nutzung in einer Prüfungsleistung, nicht die KI-Nutzung als solche. Das Gericht wertete sie als besonders schwere Täuschung, ein KI-Detektor kam nicht zum Einsatz; die Sanktion hängt von Prüfungsordnung und Einzelfall ab. Urteile nicht rechtskräftig.↩
[24]Verordnung (EU) 2024/1689 (KI-Verordnung), Artikel 4 (KI-Kompetenz), in Kraft seit 2. Februar 2025, artificialintelligenceact.eu/article/4. Verpflichtet Anbieter und Betreiber von KI-Systemen, ein ausreichendes Niveau an KI-Kompetenz ihres Personals sicherzustellen.↩

Häufige Fragen zu Falsch-Positiven bei KI-Detektoren

Über den Autor: Daniel M. Greiner

Gründer · Editor-in-Chief von ManuskriptMentor

Daniel Greiner gründete ManuskriptMentor 2025 als Plattform für wissenschaftliches Arbeiten. Mit M.A. und B.A. in Medienwissenschaft (Universität Siegen) und über zehn Jahren Führungserfahrung verantwortet er die redaktionellen Inhalte und prüft jeden Methodik-Artikel persönlich.

M.A. MedienwissenschaftSpezialist für Abschlussarbeiten

Autoren-Profil iDORCID LinkedIn cbCrunchbase