Welcher KI-Detektor ist der beste oder genaueste?

Diese Frage führt in die Irre, weil jeder Anbieter sich selbst zum Genauesten erklärt und keine dieser Zahlen unabhängig reproduziert ist. In den seriösen Drittmessungen wechselt das Ranking je nach Stichprobe, und kein Tool ist als alleiniges Beweismittel tauglich. Eine Studie von Howard und Kollegen 2024 maß zwischen drei verbreiteten Detektoren am selben Text eine Korrelation von nur 0,143 bis 0,471. Wenn alle gleich gut wären, müssten sie übereinstimmen, das tun sie aber nicht. Die nützlichere Frage ist deshalb nicht, welches Tool gewinnt, sondern wofür ein Score überhaupt taugt.

Welcher KI-Detektor funktioniert am besten auf Deutsch?

Verlässlich beantworten lässt sich das nicht, weil es bisher keine peer-reviewte Studie gibt, die für deutschsprachige Texte eine belastbare Falsch-Positiv-Rate der gängigen kommerziellen Detektoren ausweist. Alle Tools führen Deutsch in ihrer Sprachliste, aber trainiert wurden sie überwiegend auf Englisch, und Turnitin nennt nicht-englische Erkennung selbst eingeschränkt. Wer auf Deutsch schreibt, bekommt also ein Werkzeug, das außerhalb seines Trainingsschwerpunkts arbeitet. Genau die Gruppen, die sprachlich vom Standard abweichen, werden dabei am häufigsten falsch markiert.

Was ist der Unterschied zwischen ZeroGPT und GPTZero?

Das sind zwei verschiedene Tools von verschiedenen Anbietern, die ständig verwechselt werden. GPTZero wurde 2023 bekannt und ist im US-Hochschulmarkt verbreitet. ZeroGPT ist ein separates, kostenloses Massen-Tool mit eigener Oberfläche. Die Namensähnlichkeit führt regelmäßig dazu, dass Studierende über das eine reden und das andere meinen. Für die Praxis wichtiger als die Verwechslung ist, dass beide in unabhängigen Tests sehr unterschiedliche und teils widersprüchliche Werte liefern.

Welchen KI-Detektor nutzen Universitäten?

Am ehesten Turnitin, das als KI-Erkennung in die Plagiatsprüfung vieler Hochschulen integriert ist und nur institutionell lizenziert wird, nicht für den Einzelkauf. Laut dem KI-Monitor 2025 stellen allerdings erst 18 Prozent der befragten Hochschulen Detektoren zentral bereit, und mehrere Universitäten wie Vanderbilt haben Turnitins KI-Erkennung wieder abgeschaltet. Das kostenlose Tool, das Sie selbst auf Ihren Text werfen, ist fast nie dasselbe, das Ihre Prüfungskommission verwendet. Ein bestandener Selbst-Check sagt deshalb wenig über das aus, was an Ihrer Hochschule passiert.

Sind kostenlose KI-Checker genauso gut wie bezahlte?

In den unabhängigen Messungen zeigt sich kein verlässlicher Qualitätsvorsprung der Bezahl-Tools, der die strukturellen Fehler aufheben würde. Auch die teuren Detektoren produzieren auf echten Texten hohe Falsch-Positiv-Raten und widersprechen sich untereinander. Viele kostenlose Checker sind zudem Einstiegspunkte in kostenpflichtige Zusatzangebote, und sie verschweigen meist, was mit dem hochgeladenen Text geschieht. Mehr Geld kauft hier vor allem mehr Volumen und Komfort, nicht die fehlende Beweissicherheit.

Sind meine hochgeladenen Texte bei KI-Checkern sicher?

Das sollten Sie vor jedem Upload prüfen, denn die meisten Vergleichsseiten lassen diese Frage offen. Wenn Sie Ihre noch unveröffentlichte Haus- oder Abschlussarbeit in einen kostenlosen Detektor kopieren, geben Sie unveröffentlichtes geistiges Eigentum an einen oft außereuropäischen Anbieter, dessen Umgang mit Ihren Daten und mögliche Weiterverwendung zum Training Sie nicht kontrollieren. Aus Datenschutzsicht ist es ratsam, vor dem Hochladen die Datenschutzerklärung zu lesen, den Serverstandort zu klären und im Zweifel keinen sensiblen oder unveröffentlichten Text einzugeben.

Stimmen die 99-Prozent-Genauigkeitsangaben der Anbieter?

Sie stimmen in dem kuratierten Testszenario, aus dem sie stammen, und brechen außerhalb davon zusammen. Eine Arbeit von 2026 zeigt mit erklärbarer KI, dass Detektoren im eigenen Datensatz Spitzenwerte erreichen, weil sie datensatz-spezifische Stil-Artefakte lernen, nicht stabile Merkmale von Autorschaft. Sobald Textsorte, Länge oder Sprache wechseln, fällt die Leistung ab. Originality.ai mahnt sogar selbst, dass eine einzelne Zahl angesichts der Folgen nicht genügt und man von automatischer Erkennung keine Perfektion annehmen kann. Die 99 Prozent sind also kein Versprechen für Ihren konkreten Text.

KI-Detektoren im Vergleich: wie zuverlässig sind sie wirklich?

Q: Wie zuverlässig sind KI-Detektoren wirklich?

Deutlich unzuverlässiger, als das Marketing verspricht. Die Anbieter werben mit 95 bis 99,98 Prozent Genauigkeit, doch diese Zahlen stammen aus eigenen, kontrollierten Tests. Sobald unabhängige Forschung dieselben Tools auf echten Studierenden-Texten prüft, fällt die Trefferquote auf 70 bis 80 Prozent, und auf bestimmten Aufgaben markieren Detektoren bis zu jede zweite menschliche Arbeit fälschlich als KI. Das Hochschulforum Digitalisierung fasst es 2026 so zusammen, dass die Prozentangaben eine Genauigkeit vortäuschen, die faktisch nicht gegeben ist. Ein einzelner Score ist deshalb kein Beweis, sondern eine Wahrscheinlichkeits-Schätzung mit hoher Fehlerquote.

Daniel M. Greiner1. Juni 202615 Min. Lesezeit

Sechs Tools, sechsmal das Versprechen von 99 Prozent. Was unabhängige Studien messen und welche Zahl Sie glauben können.

Nachdenklicher Studierender lehnt sich vom halb geschlossenen Laptop zurück, die Hand am Kinn, in einer hellen Universitätsbibliothek, im Hintergrund weitere Studierende unscharf.

bis 99,98 %

Anbieter-Versprechen

70–80 %

unabhängig gemessen

bis 46 %

Fehlalarm im Test

Quellen belegt

„Welcher KI-Detektor ist der beste?“ ist die meistgestellte Frage zum Thema und zugleich die falsche. Denn alle behaupten, der genaueste zu sein, und keine dieser Zahlen hält einer unabhängigen Prüfung stand.

Das Wichtigste in Kürze

Die Anbieter-Werte und die Forschung liegen meilenweit auseinander. Hersteller werben mit 95 bis 99,98 Prozent, unabhängige Messungen auf echten Studi-Texten landen bei 70 bis 80 Prozent^[1].
Dasselbe Tool urteilt nicht wie das nächste. Drei verbreitete Detektoren stimmten am selben Text nur zu 0,14 bis 0,47 überein^[2].
Die Falsch-Positiv-Raten treffen die Falschen. Auf beaufsichtigt geschriebenen, menschlichen Texten reicht die Fehlalarm-Rate je nach Tool vom einstelligen Bereich bis fast zur Hälfte^[3].
Kein Tool ist als alleiniges Beweismittel tauglich, und für Deutsch fehlt bis heute eine belastbare unabhängige Messung der kommerziellen Detektoren.

Zwei Zahlen für dasselbe Tool, die nicht zusammenpassen

Wer nach einem KI-Detektor-Vergleich sucht, landet in einer Zahlen-Schlacht. GPTZero nennt 99 Prozent Genauigkeit, Winston AI 99,98 Prozent, Copyleaks über 99 Prozent. Jeder Anbieter erklärt sich zum Genauesten, und die meisten Vergleichsseiten übernehmen diese Werte, als wären es Messergebnisse. Es sind aber Eigenangaben aus internen Tests, die niemand von außen reproduziert hat.

Sobald unabhängige Forschung dieselben Tools auf echten Studierenden-Texten prüft, schrumpfen die Zahlen drastisch. Statt 99 Prozent stehen dann 70 bis 80 Prozent Trefferquote im Raum, und auf bestimmten Aufgaben markieren Detektoren bis zu jede zweite menschliche Arbeit fälschlich als KI. Eine peer-reviewte Übersichtsstudie aus 2026 fasst für genau die hier verglichenen Tools zusammen, dass sie häufig Falsch-Positive produzieren und intransparent bleiben, besonders bei mehrsprachigen und nicht-muttersprachlichen Texten.

Bemerkenswert ehrlich ist ausgerechnet ein Anbieter selbst. Originality.ai schreibt in der eigenen Genauigkeits-Dokumentation, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen. Das Hochschulforum Digitalisierung formuliert es 2026 noch deutlicher und hält fest, dass die Prozentangaben eine Genauigkeit vortäuschen, die faktisch nicht gegeben ist.

Dasselbe Tool trägt zwei Zahlen, rund 99 Prozent im eigenen Test und 70 bis 80 Prozent in unabhängiger Messung.

Dieser Artikel macht die Diskrepanz sichtbar, statt sie zu verschweigen. In der folgenden Tabelle steht neben jedem Anbieter-Versprechen, was unabhängige Messungen für dasselbe Tool ergeben haben, mit Quelle zu jeder Zahl.

Belege (3)

[1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI Monitor 2025 stellen 18 Prozent der 92 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
[4]Originality.ai, Eigenangaben, „AI Checker Accuracy“, originality.ai (live abgerufen Juni 2026). Anbieter-Marketing: Modell Lite 99 Prozent Genauigkeit bei 0,5 Prozent Falsch-Positiven, Turbo 99 Prozent plus bei 1,5 Prozent, Multilingual 97,8 Prozent bei 2,4 Prozent. Der Anbieter mahnt selbst, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen.↩
[5]Deep, J., Edgington, T., Ghosh, S., „Evaluating the Effectiveness and Ethical Implications of AI Detection Tools in Higher Education“, Information (MDPI) 16(10):905, 2025, DOI 10.3390/info16100905, Open Access (CC BY), mdpi.com. Peer-reviewte Evidenz-Synthese, bespricht Turnitin AI, GPTZero, Copyleaks und ZeroGPT. Kernaussage: Detektoren produzieren häufig Falsch-Positive und sind intransparent, besonders bei mehrsprachigen und nicht-muttersprachlichen Texten.↩

Sechs Detektoren: was sie behaupten, was gemessen wurde

Verglichen werden die Tools, die Studierenden im DACH-Raum am häufigsten begegnen, das institutionelle Turnitin ebenso wie die kostenlosen Massen-Tools, die man panisch selbst auf den eigenen Text wirft. Am meisten zählt für die Praxis eine einzige Frage: wie oft markiert ein Tool eine ehrlich geschriebene Arbeit fälschlich als KI?

Versprechen gegen Messung

Derselbe Detektor, zwei Zahlen: beworbene Genauigkeit und tatsächliche Fehlalarm-Rate

Links die beworbene Genauigkeit, rechts der Balken, wie viele von 100 selbst geschriebenen Arbeiten das Tool fälschlich als KI markierte.

ZeroGPT wirbt mit 98,8 %10 von 100 falsch

Versprechen

GPTZero wirbt mit 99,5 %16 von 100 falsch

Versprechen

Originality.ai wirbt mit 99 %18 von 100 falsch

Versprechen

Winston AI wirbt mit 99,98 %46 von 100 falsch

Versprechen

Für Turnitin nennt das Hochschulforum Digitalisierung je nach Aufgabe bis zu 50 von 100 als möglich, für Copyleaks gibt es keine unabhängige Messung.

Die beworbene Genauigkeit sagt nichts über die Fehlalarm-Rate auf ehrlichen Texten. Die vollständige Aufschlüsselung pro Tool steht in der Analyse zu falsch-positiven Ergebnissen^[3].

Vier Dinge fallen beim direkten Vergleich auf.

Die größte Lücke klafft bei Winston AI, das mit 99,98 Prozent wirbt, während eine unabhängige Studie 45,8 Prozent Falsch-Positive auf echten Studi-Texten maß, also fast jede zweite menschliche Arbeit fälschlich markierte. Originality.ai verspricht 0,5 Prozent Falsch-Positive und liegt gemessen bei 17,6 Prozent. Selbst im günstigsten Fall bleibt der Abstand zwischen Versprechen und Messung groß.
ZeroGPT, das von Studierenden meistgenutzte Gratis-Tool, nennt auf der eigenen Seite gar keine konkrete Genauigkeitszahl und bewirbt nur ein „High Accuracy Model“. Wer hier eine belastbare Angabe sucht, findet Marketing-Vokabular statt einer Zahl.
Turnitin ist ein Sonderfall. Die viel zitierte Marke von unter 1 Prozent Falsch-Positiven gilt laut Turnitins eigener Dokumentation nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden, und der Anbieter schreibt ausdrücklich, das Ergebnis solle nicht alleinige Grundlage für Maßnahmen gegen Studierende sein. In einer unabhängigen Messung kam Turnitin auf eine Gesamtgenauigkeit von 0,61.
Teurer heißt nicht zuverlässiger. Das meistgenutzte Gratis-Tool ZeroGPT schnitt bei den Fehlalarmen sogar besser ab als die kostenpflichtigen Originality.ai und Winston AI. Ein Abo kauft mehr Volumen und Komfort, aber keine verlässlichere Erkennung.

Wo unabhängig gemessen wurde, hält kein Tool, was es im eigenen Test verspricht.

Alle Angaben im Detail

Wer die ganze Bandbreite sehen will, findet sie hier: jedem Anbieter-Versprechen ist gegenübergestellt, was unabhängige Studien für dasselbe Tool gemessen haben, dazu Sprache, Kosten und Quelle zu jeder Zahl. Die Spalte „Anbieter behauptet“ ist Marketing, die Spalte „Unabhängig gemessen“ stammt aus peer-reviewten Studien. Warum die Anbieter überhaupt mit solchen Werten werben und wer am Misstrauen verdient, nimmt das Geschäft mit den KI-Detektoren in den Blick.

Tool	Deutsch	Kosten	Anbieter behauptet	Unabhängig gemessen
Turnitininstitutionell	offiziell nur EN/ES/JP	nur Hochschul-Lizenz	unter 1 % Falsch-Positive, aber nur ab 20 % KI-Anteil	Gesamtgenauigkeit 0,61 (Hadra 2026); FP bis 50 % möglich (HFD)
GPTZero	beworben	gratis + ab ~15 $/Mo	99 % Genauigkeit, 1 % Falsch-Positive	15,8 % FP auf Studi-Texten (Paustian 2024)
Originality.ai	30+ Sprachen	kein Gratis-Tarif	99 % Genauigkeit, 0,5 % Falsch-Positive	17,6 % FP (Paustian); Gesamtgenauigkeit 0,69 (Hadra)
Winston AI	14 Sprachen	gratis-Trial + ab ~18 $/Mo	99,98 % Genauigkeit	45,8 % FP auf Studi-Texten (Paustian 2024)
ZeroGPTnicht GPTZero	mehrsprachig	gratis + Premium	„hohe Genauigkeit“, ohne Zahl	9,8 % FP (Paustian); widersprüchlich (Howard)
Copyleaks	30+ Sprachen	gratis + ab ~11 $/Mo	über 99 % Genauigkeit	keine unabhängige Bestätigung; Tools korrelieren nur 0,14–0,47 (Howard)

Spalte „Anbieter behauptet“: Eigenangaben der Hersteller-Webseiten, live abgerufen im Juni 2026, also Marketing und nicht unabhängig reproduziert. Spalte „Unabhängig gemessen“: peer-reviewte Drittmessungen auf echten Studierenden-Texten. FP steht für Falsch-Positiv-Rate, also den Anteil menschlicher Texte, die fälschlich als KI markiert wurden.

Belege (8)

[3]Paustian, T., Slinger, B., „Students are using large language models and AI detectors can often detect their use“, Frontiers in Education 9:1374889, 2024, DOI 10.3389/feduc.2024.1374889, Open Access, frontiersin.org. Peer-reviewte Drittmessung. Sample 459 Texte von 153 Studierenden, die Falsch-Positiv-Rate wird auf den 153 unter Aufsicht geschriebenen menschlichen Essays gemessen, je Tool: ZeroGPT 9,8 Prozent, GPTZero 15,8 Prozent, Originality.ai 17,6 Prozent, Winston AI 45,8 Prozent.↩
[4]Originality.ai, Eigenangaben, „AI Checker Accuracy“, originality.ai (live abgerufen Juni 2026). Anbieter-Marketing: Modell Lite 99 Prozent Genauigkeit bei 0,5 Prozent Falsch-Positiven, Turbo 99 Prozent plus bei 1,5 Prozent, Multilingual 97,8 Prozent bei 2,4 Prozent. Der Anbieter mahnt selbst, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen.↩
[6]GPTZero, Eigenangaben auf Startseite und FAQ, gptzero.me (live abgerufen Juni 2026). Anbieter-Marketing: „99% accuracy“, Falsch-Positiv-Rate „1% of human texts as AI“. Deutsch in den FAQ als unterstützte Sprache genannt. Kostenloser Tarif mit 10.000 Wörtern pro Monat.↩
[7]Winston AI, Eigenangabe auf der Startseite, gowinston.ai (live abgerufen Juni 2026). Anbieter-Marketing: „99,98% accuracy“. Keine isolierte Falsch-Positiv-Rate angegeben. 14 Sprachen inklusive Deutsch. Kostenloser Probezugang.↩
[8]ZeroGPT, Eigenangaben, zerogpt.com (live abgerufen Juni 2026). Bewirbt ein „High Accuracy Model“ mit „DeepAnalyse“-Technologie, nennt aber keine konkrete Genauigkeitszahl. Kostenlos nutzbar plus kostenpflichtige Pläne. Mehrsprachig inklusive Deutsch. Nicht zu verwechseln mit GPTZero, das ist ein anderer Anbieter.↩
[9]Copyleaks, Eigenangabe, „AI Content Detector“, copyleaks.com (live abgerufen Juni 2026). Anbieter-Marketing: „over 99% accuracy“, beruft sich dabei auf „independent third-party studies“. Über 30 Sprachen inklusive Deutsch, niedrige Falsch-Positiv-Rate für nicht-muttersprachliche Texte beworben. Kostenloser Tarif.↩
[10]Turnitin Guides, „Turnitin’s AI writing detection capabilities FAQs“, guides.turnitin.com. Anbieter-Disclaimer: die KI-Erkennung solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. Das Ziel von unter 1 Prozent Falsch-Positiven gilt nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden. Turnitin wird nur institutionell lizenziert, nicht für den Einzelkauf.↩
[11]Hadra, M., Cambridge, K., Mesbah, M., „Evaluating the accuracy and reliability of AI content detectors in academic contexts“, International Journal for Educational Integrity (Springer), 2. Februar 2026, DOI 10.1007/s40979-026-00213-1, link.springer.com. Peer-reviewte Drittmessung. Sample: 192 Texte, getestet Turnitin und Originality.ai. Gesamtgenauigkeit Originality.ai 0,69 gegenüber Turnitin 0,61, beide mit erheblicher Schwäche bei hybriden, also teils menschlich und teils KI-verfassten Texten.↩

Was die Tools kosten

Bei den Preisen lassen sich vier Muster unterscheiden, die genauen Tarife stehen in der Tabelle darüber.

Ganz kostenlos. Das nicht-kommerzielle FH-Wedel-Tool läuft ohne Anmeldung und ohne Bezahlschranke.
Gratis mit Limit, Rest im Abo. ZeroGPT, GPTZero, Copyleaks und Detectora bieten eine kostenlose Basis-Stufe, die volle Funktion gibt es im Abo ab dem niedrigen zweistelligen Bereich pro Monat.
Nur kostenpflichtig. Originality.ai hat keine echte Gratis-Stufe, der Einstieg läuft über ein Abo oder ein Einmal-Guthaben.
Nur über die Hochschule. Turnitin gibt es nicht im Einzelkauf, sondern ausschließlich als institutionelle Lizenz.

Für einen einzelnen Selbst-Check reicht fast immer eine der kostenlosen Stufen. Wer regelmäßig prüft, zahlt meist nach Wortkontingent.

Warum die 99 Prozent im echten Text zusammenbrechen

Die hohen Anbieter-Werte sind nicht frei erfunden, sie entstehen aber in einem kontrollierten Labor. Ein Detektor wird auf einem bestimmten Datensatz getestet, lernt dort die typischen Spuren und erkennt sie zuverlässig wieder. Eine Arbeit von 2026 hat mit erklärbarer KI offengelegt, was dabei wirklich passiert. Die Detektoren stützen sich auf datensatz-spezifische Stil-Artefakte, nicht auf stabile Merkmale von Autorschaft. Wechselt die Textsorte, die Länge oder die Sprache, bricht die Leistung ein. Im Test top, am echten Studi-Text daneben. Wie wenig dazu nötig ist, zeigte eine Untersuchung von 2024, in der die Erkennungsgenauigkeit von 39,5 auf 17,4 Prozent fiel, sobald simple Verschleierungs-Techniken angewendet wurden.

Dazu kommt ein Zielkonflikt, der sich nicht auflösen lässt. Misst man Detektoren mit der fairen Metrik, wie viel KI sie bei nur einem Prozent Falsch-Positiven noch erkennen, fallen mehrere auf bis zu null Prozent. Hält man die Quote fälschlich beschuldigter Menschen niedrig, erkennen die Tools kaum noch KI. Erkennen sie viel KI, beschuldigen sie zu viele Unschuldige. Beides gleichzeitig geht nicht.

Wenige Fehlbeschuldigungen und viele erkannte KI-Texte sind nicht gleichzeitig zu haben.

Und weil keiner der Detektoren die Wahrheit über die Herkunft eines Textes kennt, widersprechen sie sich gegenseitig. Drei verbreitete Tools waren sich an denselben Texten kaum einig, ihre Ergebnisse überschnitten sich nur schwach. Studierende erleben das regelmäßig, wenn dieselbe Arbeit bei einem Tool unauffällig bleibt und beim nächsten fast vollständig als KI gilt. Diese Widersprüchlichkeit ist kein Werkzeug, mit dem man sich freitesten kann, sondern das stärkste Argument gegen die Beweiskraft eines einzelnen Scores.

Belege (4)

[2]Howard, F. M., Li, A., Riffon, M. F., Garrett-Mayer, E., Pearson, A. T., „Characterizing the Increase in Artificial Intelligence Content Detection in Oncology Scientific Abstracts“, JCO Clinical Cancer Informatics, 1. Juni 2024, DOI 10.1200/CCI.24.00077, PMC11371107. Peer-reviewte Drittmessung. Die Übereinstimmung dreier verbreiteter Detektoren am selben Korpus lag nur bei einer Spearman-Korrelation von 0,143 bis 0,471, die Tools sind also nicht austauschbar.↩
[12]Pudasaini, S., Miralles-Pechuán, L., Lillis, D., Llorens Salvador, M., „Why AI-Generated Text Detection Fails. Evidence from Explainable AI Beyond Benchmark Accuracy“, arXiv:2603.23146, 2026, arxiv.org/abs/2603.23146 (Preprint). Methodik: erklärbare KI auf den Benchmarks PAN-CLEF 2025 und COLING 2025, F1 0,9734 im eigenen Datensatz. Befund: Detektoren stützen sich auf datensatz-spezifische Stil-Artefakte statt auf stabile Autorschafts-Merkmale, daher massives Versagen bei Wechsel von Textsorte, Länge oder Domäne. Der kritischste Fehler im Bildungskontext sei das Falsch-Positiv.↩
[13]Tufts, B., Zhao, X., Li, L., „A Practical Examination of AI-Generated Text Detectors“, Findings of NAACL 2025, aclanthology.org/2025.findings-naacl.271 (arXiv:2412.05139). Peer-reviewed. Befund bei der fairen Metrik Trefferquote bei 1 Prozent Falsch-Positiv-Rate: mehrere Detektoren fallen auf bis zu 0 Prozent. Eine niedrige Falsch-Positiv-Rate und eine hohe Trefferquote sind nicht gleichzeitig erreichbar, und schon moderate Veränderungen umgehen die Erkennung.↩
[14]Perkins, M., Roe, J., Postma, D., McGaughran, J., Hickerson, D., „Detection of GPT-4 generated text in higher education“, International Journal for Educational Technology in Higher Education 21:31, 2024, DOI 10.1186/s41239-024-00487-w, arXiv:2403.19148, springeropen.com. Peer-reviewte Drittmessung. Die Erkennungsgenauigkeit fiel von 39,5 auf 17,4 Prozent, sobald einfache Verschleierungs-Techniken angewendet wurden, und rund 15 Prozent menschlicher Texte wurden fälschlich als KI markiert.↩

Das Deutsch-Problem, das keine Tool-Liste verrät

Jedes Tool führt Deutsch in seiner Sprachliste, manche werben mit 30 oder mehr Sprachen. Das klingt beruhigend und verschweigt das Eigentliche. Trainiert wurden diese Modelle überwiegend auf englischen Daten, und Turnitin nennt die nicht-englische Erkennung in der eigenen Dokumentation nur eingeschränkt unterstützt. Deutsch zu unterstützen heißt nicht, auf Deutsch zuverlässig zu sein.

Diverse Studierende an einem Bibliothekstisch, eine Studentin liest konzentriert einen ausgedruckten deutschen Text, daneben eine Kommilitonin am Laptop, im Hintergrund Bücherregale und Glaswände.

Belastbar messen lässt sich das bislang kaum. Es gibt keine peer-reviewte Studie, die für deutschsprachige Texte eine Falsch-Positiv-Rate der gängigen kommerziellen Detektoren ausweist. Die nächstbesten Annäherungen zeigen aber die Richtung. Eine deutsche Untersuchung fand, dass die getesteten Detektoren auf deutschen Thesis-Auszügen nur knapp über Zufallsniveau lagen. Ein eigenes Forschungssystem erreichte auf frisch generierten deutschen Texten 97 Prozent, fiel bei umgeschriebenen aber auf 72 Prozent. Und eine spanische Studie zeigte, dass nicht-englische und gemischte Texte die generelle Schwachstelle aller geprüften Tools sind.

Der Grund ist immer derselbe. Detektoren messen, wie vorhersagbar ein Text statistisch ist, nicht, wer ihn geschrieben hat. Wer in einer Fremdsprache, mit begrenzterem Wortschatz oder in nüchterner Fachsprache schreibt, produziert vorhersagbareren Text und wird häufiger fälschlich als KI markiert. Die Stanford-Studie von 2023 hat das gemessen, über 61 Prozent der englischen Texte von Nicht-Muttersprachlern wurden falsch eingestuft, gegenüber rund 5 Prozent bei Muttersprachlern. Ein mehrsprachiger Vergleichstest von 2025 bestätigt den Effekt über viele Sprachen hinweg. Für deutschsprachige Studierende heißt das, dass ausgerechnet die, die sich sprachlich am meisten anstrengen, das höchste Risiko tragen.

Deutsch in der Sprachliste heißt nicht Deutsch im Training.

Belege (6)

[15]Turnitin Guides, „AI writing detection model“, Dokumentation der unterstützten Sprachen der KI-Erkennung (Englisch, Spanisch, Japanisch), andere Sprachen werden nicht verarbeitet, guides.turnitin.com.↩
[16]Fiedler, A., Döpke, J., „Do humans identify AI-generated text better than machines? Evidence based on excerpts from German theses“, International Review of Economics Education 49:100321, 2025, DOI 10.1016/j.iree.2025.100321, Open Access. Peer-reviewte Drittmessung. 63 Lehrende beurteilten 19 menschliche und 19 ChatGPT-generierte deutsche Textauszüge. Getestete KI-Detektoren lagen nur knapp über Zufallsniveau (Fisher-Test p gleich 0,08).↩
[17]Schaaff, K., Schlippe, T., Mindner, L., „Classification of human- and AI-generated texts for different languages and domains“, International Journal of Speech Technology 27:935–956, 2024, DOI 10.1007/s10772-024-10143-3, Konferenz-Vorversion ICNLSP 2023 arXiv:2312.04882. Peer-reviewed. Für deutsche Texte erreichte das eigene Klassifikationssystem 97 Prozent F1 bei von Grund auf KI-generierten Texten, aber nur 72 Prozent bei umgeschriebenen. Die Studie misst Accuracy und F1, KEINE isolierte Falsch-Positiv-Rate auf rein menschlichen deutschen Texten.↩
[18]Queralt, M. T., Esparcia, A. J. et al., „AI, Human, or Hybrid? Reliability of AI Detection Tools in Multi-Authored Texts“, INTELETICA 2(4):102–114, 2025, DOI 10.4114/INTELETICA.vol2iss4pp102-114. Peer-reviewte Drittmessung. Sample: 180 spanische Texte (menschlich, KI, hybrid), getestet Originality.ai, GPTZero und Copyleaks. Befund: hybride Texte aus menschlicher und KI-Arbeit sind die generelle Schwachstelle, nicht-englische und gemischte Autorschaft erhöhen die Fehlerquote.↩
[19]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sieben verbreitete Detektoren stuften im Schnitt 61,22 Prozent der englischen Texte von Nicht-Muttersprachlern fälschlich als KI ein, gegenüber 5,19 Prozent bei Muttersprachlern (Preprint-Werte; die Patterns-Fassung rundet auf 61,3 bzw. 5 Prozent).↩
[20]Wang, Y. et al., „GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection“, Proceedings of the 1st Workshop on GenAI Content Detection, COLING 2025, arXiv:2501.11012, aclanthology.org. Peer-reviewter multilingualer Benchmark. Selbst Forschungs-Detektoren erreichen hohe Trefferquoten nur bei einer fixen 5-Prozent-Falsch-Positiv-Schwelle, und nicht-muttersprachliche Texte werden überproportional markiert.↩

Was ist mit den deutschen Detektoren?

Wer gezielt nach einem deutschen KI-Detektor sucht, landet schnell bei Anbietern, die mit besserer Leistung auf Deutsch werben. Das klingt nach der naheliegenden Lösung für das eben beschriebene Sprach-Problem. Bei genauem Hinsehen wiederholt sich aber dieselbe Lücke zwischen Versprechen und Beleg, nur auf Deutsch.

Detectora.de wirbt als „#1 KI-Detektor für deutsche Texte“ mit 98 Prozent Genauigkeit. Bemerkenswert ist, womit der Anbieter diese Zahl belegt, nämlich mit der Masterarbeit des eigenen Tool-Entwicklers und nicht mit einer unabhängigen Messung. Die kostenlose Version erkennt zudem nur die alte Modell-Generation GPT-3.5, aktuelle Modelle wie GPT-4o, Claude und Gemini gibt es erst im Bezahl-Tarif ab 11,90 Euro im Monat.
Das Original stammt von der Fachhochschule Wedel. Dort entwickelte Tom Tlok 2023 in seiner Masterarbeit einen Detektor für deutsche Texte und baute dafür den ersten großen deutschsprachigen Datensatz auf. Das Tool ist kostenlos, datenschutzkonform und in seinen Grenzen ehrlich, es weist selbst darauf hin, dass es zuverlässig nur GPT-3.5-Texte erkennt und sein Ergebnis „ohne Gewähr“ ist.
isgen.ai wirbt mit 96,4 Prozent über mehr als 80 Sprachen, nennt dafür aber keine nachprüfbare Quelle, und hinter dem Tool steht eine britische Firma ohne öffentliche Gründungs- oder Standort-Angaben. Damit fehlt genau die Transparenz, die ein Werkzeug für eine Prüfungs-Entscheidung bräuchte.

Der gemeinsame Nenner ist ernüchternd. Die beste belegte Genauigkeitszahl für Deutsch stammt aus einer Masterarbeit von 2023 und bezieht sich auf eine KI-Generation, die heute kaum noch jemand nutzt. Eine peer-reviewte Untersuchung, die 14 Detektoren prüfte, kam unabhängig davon zum selben Gesamturteil, dass die Werkzeuge weder genau noch zuverlässig sind. Einen echten Vorteil haben die deutschen Anbieter trotzdem, und der liegt nicht bei der Genauigkeit, sondern beim Datenschutz. Detectora und das FH-Wedel-Tool verarbeiten Texte auf deutschen Servern, während die großen internationalen Tools meist außerhalb der EU liegen, mehr dazu gleich im nächsten Abschnitt.

Die beste deutsche Genauigkeitszahl stammt aus der Masterarbeit des Tool-Entwicklers selbst.

Belege (4)

[21]Tlok, T., „Robuste Erkennung KI-generierter Texte in deutscher Sprache“, Masterarbeit im Studiengang Data Science und Artificial Intelligence, Fachhochschule Wedel, 2023, ki.fh-wedel.de. Für die Arbeit entstand der erste deutschsprachige Datensatz dieser Art aus rund 70.000 menschlichen und 70.000 KI-generierten Texten, der Detektor erreichte ein F1-Maß von 97,89 Prozent. Die KI-Texte des Datensatzes wurden laut Arbeit mit GPT-3.5 erzeugt, GPT-4, Claude und Bard wurden für die Datenproduktion ausdrücklich nicht herangezogen.↩
[22]Detectora UG (Seevetal), „#1 KI-Detektor für deutsche Texte“, detectora.de (live abgerufen Juni 2026). Anbieter-Marketing: „98 % Genauigkeit“, als Beleg verlinkt der Anbieter die Masterarbeit des eigenen Tool-Entwicklers (Tlok, FH Wedel), nicht eine unabhängige Drittmessung. Die kostenlose Basis-Version erkennt GPT-3.5, moderne Modelle (GPT-4o, Claude 3.5, Gemini) erst im Pro-Tarif ab 11,90 Euro pro Monat. Verarbeitung laut Anbieter auf deutschen Azure-Servern.↩
[23]Isgen Ltd (Großbritannien), KI-Detektor, isgen.ai (live abgerufen Juni 2026). Anbieter-Marketing: „96,4 % Genauigkeit“ über mehr als 80 Sprachen, als Eigen-Benchmark ohne verlinkte unabhängige Quelle. Betreiber-Angaben bleiben knapp, auf der Über-uns-Seite finden sich weder Gründungs- noch Standort-Details.↩
[24]Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S., Foltýnek, T., Guerrero-Dib, J., Popoola, O., Šigut, P., Waddington, L., „Testing of detection tools for AI-generated text“, International Journal for Educational Integrity 19:26, 2023, DOI 10.1007/s40979-023-00146-z, Open Access, link.springer.com. Peer-reviewte Drittmessung von 12 frei verfügbaren Tools plus Turnitin und PlagiarismCheck. Befund: die Werkzeuge sind „weder genau noch zuverlässig“ und neigen dazu, Texte eher als menschlich einzustufen. Deutsche Texte wurden nur maschinenübersetzt geprüft, nicht im Original, der Befund gilt also nicht als Deutsch-Messung.↩

Wohin geht Ihr Text, wenn Sie ihn hochladen?

Eine Frage lassen fast alle Vergleichsseiten aus, obwohl sie für DACH-Studierende besonders zählt. Wenn Sie Ihre noch unveröffentlichte Haus- oder Abschlussarbeit in einen kostenlosen Detektor kopieren, geben Sie unveröffentlichtes geistiges Eigentum an einen meist außereuropäischen Anbieter weiter. Was danach mit dem Text geschieht, ob er gespeichert oder zum Training weiterverwendet wird, regeln die Anbieter höchst unterschiedlich, von ausdrücklichem Verzicht bis zu Datenschutzerklärungen, die dazu gar nichts sagen.

Studentin steht abends neben einem Drucker im Ausgangsbereich der Bibliothek und betrachtet nachdenklich die ausgedruckten Seiten ihrer Arbeit, hinter ihr Glastüren und gehende Personen.

Ihre unveröffentlichte Arbeit ist ein Prüfungsdokument, kein Testmaterial für einen fremden Server.

Ein voreiliger Upload kann mehr Probleme schaffen, als er löst, ohne dass Sie im Gegenzug ein verlässliches Ergebnis bekommen. Bevor Sie irgendein Tool nutzen, lohnt sich deshalb ein nüchterner Dreischritt.

Die Datenschutzerklärung des Tools lesen.
Den Serverstandort und eine mögliche Weiterverwendung zum Training klären.
Im Zweifel keinen sensiblen oder unveröffentlichten Text eingeben.

Nicht-kommerzielle, an Hochschulen entwickelte Werkzeuge sind hier oft transparenter als die Freemium-Tools mit den lautesten Genauigkeits-Versprechen.

Welches Tool Ihre Hochschule wirklich verwendet

Studierende suchen oft nach dem besten Consumer-Tool, obwohl die eigentliche Frage lautet, was die eigene Hochschule einsetzt. Die Antwort ist meist Turnitin, integriert in die Plagiatsprüfung, nur institutionell lizenziert. Das kostenlose Tool, das Sie selbst auf Ihren Text werfen, ist fast nie dasselbe, das Ihre Prüfungskommission verwendet.

Ein bestandener Selbst-Check beweist nichts, ein durchgefallener auch nicht.

Verlässt man sich auf die Verbreitung, relativiert sich das Bild zusätzlich. Laut dem KI-Monitor 2025 stellen erst 18 Prozent der befragten Hochschulen Detektoren zentral bereit, und einige Universitäten haben wieder zurückgerudert. Vanderbilt etwa schaltete Turnitins KI-Erkennung schon 2023 wieder ab, weil die angenommene Fehlerquote hochgerechnet auf die Masse der jährlich eingereichten Arbeiten zu viele ehrliche Texte getroffen hätte.

Belege (2)

[1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI Monitor 2025 stellen 18 Prozent der 92 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
[25]Vanderbilt University, Brightspace, „Guidance on AI Detection and Why We’re Disabling Turnitin’s AI Detector“, 16. August 2023, vanderbilt.edu. Rechnung der Universität: Bei Turnitins angegebener 1-Prozent-Falsch-Positiv-Rate und rund 75.000 im Jahr 2022 eingereichten Arbeiten wären etwa 750 studentische Arbeiten fälschlich markiert worden. Weitere Abschalt-Gründe: fehlende Transparenz und Bias gegen Nicht-Muttersprachler.↩

ZeroGPT ist nicht GPTZero

Die zwei meistverwechselten Namen der Branche gehören zu zwei verschiedenen Anbietern. GPTZero wurde 2023 bekannt und ist im US-Hochschulmarkt verbreitet, ZeroGPT ist ein separates kostenloses Massen-Tool. Wer im Forum liest, ein Detektor habe falsch gelegen, sollte also zuerst klären, von welchem der beiden überhaupt die Rede ist. An der grundsätzlichen Unzuverlässigkeit ändert die Verwechslung nichts, beide liefern in unabhängigen Tests stark schwankende Werte.

Fazit: die Frage nach dem besten Tool ist die falsche

Wer die Anbieter-Versprechen neben die unabhängigen Messungen legt, sieht ein klares Muster. Die 99 Prozent sind eine Laborzahl, die auf echten Texten zusammenbricht, die Tools widersprechen sich gegenseitig, und die Fehler treffen verletzliche Gruppen am härtesten. Selbst OpenAI, das Unternehmen hinter ChatGPT, nahm seinen eigenen Klassifikator 2023 nach wenigen Monaten wieder vom Netz, weil er zu oft danebenlag.

Kein Score allein darf über eine Täuschung entscheiden.

Daraus folgt keine Kaufempfehlung, sondern eine Grenze. Der Deutsche Ethikrat und das Hochschulforum Digitalisierung plädieren für transparente Regeln und geprüfte Eigenleistung statt für automatisierte Beweismittel. Wenn ein Detektor Ihre Arbeit falsch markiert hat, zählt nicht das nächste Tool, sondern wie Sie Ihre Urheberschaft belegen. Wie das geht, steht im Leitfaden zu ehrlich geschriebenen Texten, die als KI markiert werden, und die Mechanik dahinter erklärt der Überblick zu KI-Detektoren im Studium.

Wenn Sie unsicher sind, wie Sie Ihre Methodik und Ihren Arbeitsprozess so dokumentieren, dass er einem Verdacht standhält, kann eine persönliche Methodik-Beratung die nächsten Schritte sortieren, von der Gliederung bis zur nachvollziehbaren Quellenarbeit.

Belege (2)

[1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI Monitor 2025 stellen 18 Prozent der 92 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
[26]OpenAI, „New AI classifier for indicating AI-written text“, openai.com. Update vom 20. Juli 2023 auf derselben Seite: „As of July 20, 2023, the AI classifier is no longer available due to its low rate of accuracy.“ Zur Markteinführung im Januar 2023 nannte OpenAI dort nur 26 Prozent Trefferquote auf KI-Text und 9 Prozent Falsch-Positive auf menschlichem Text.↩

Alle 26 Quellen anzeigen

[1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI Monitor 2025 stellen 18 Prozent der 92 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
[2]Howard, F. M., Li, A., Riffon, M. F., Garrett-Mayer, E., Pearson, A. T., „Characterizing the Increase in Artificial Intelligence Content Detection in Oncology Scientific Abstracts“, JCO Clinical Cancer Informatics, 1. Juni 2024, DOI 10.1200/CCI.24.00077, PMC11371107. Peer-reviewte Drittmessung. Die Übereinstimmung dreier verbreiteter Detektoren am selben Korpus lag nur bei einer Spearman-Korrelation von 0,143 bis 0,471, die Tools sind also nicht austauschbar.↩
[3]Paustian, T., Slinger, B., „Students are using large language models and AI detectors can often detect their use“, Frontiers in Education 9:1374889, 2024, DOI 10.3389/feduc.2024.1374889, Open Access, frontiersin.org. Peer-reviewte Drittmessung. Sample 459 Texte von 153 Studierenden, die Falsch-Positiv-Rate wird auf den 153 unter Aufsicht geschriebenen menschlichen Essays gemessen, je Tool: ZeroGPT 9,8 Prozent, GPTZero 15,8 Prozent, Originality.ai 17,6 Prozent, Winston AI 45,8 Prozent.↩
[4]Originality.ai, Eigenangaben, „AI Checker Accuracy“, originality.ai (live abgerufen Juni 2026). Anbieter-Marketing: Modell Lite 99 Prozent Genauigkeit bei 0,5 Prozent Falsch-Positiven, Turbo 99 Prozent plus bei 1,5 Prozent, Multilingual 97,8 Prozent bei 2,4 Prozent. Der Anbieter mahnt selbst, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen.↩
[5]Deep, J., Edgington, T., Ghosh, S., „Evaluating the Effectiveness and Ethical Implications of AI Detection Tools in Higher Education“, Information (MDPI) 16(10):905, 2025, DOI 10.3390/info16100905, Open Access (CC BY), mdpi.com. Peer-reviewte Evidenz-Synthese, bespricht Turnitin AI, GPTZero, Copyleaks und ZeroGPT. Kernaussage: Detektoren produzieren häufig Falsch-Positive und sind intransparent, besonders bei mehrsprachigen und nicht-muttersprachlichen Texten.↩
[6]GPTZero, Eigenangaben auf Startseite und FAQ, gptzero.me (live abgerufen Juni 2026). Anbieter-Marketing: „99% accuracy“, Falsch-Positiv-Rate „1% of human texts as AI“. Deutsch in den FAQ als unterstützte Sprache genannt. Kostenloser Tarif mit 10.000 Wörtern pro Monat.↩
[7]Winston AI, Eigenangabe auf der Startseite, gowinston.ai (live abgerufen Juni 2026). Anbieter-Marketing: „99,98% accuracy“. Keine isolierte Falsch-Positiv-Rate angegeben. 14 Sprachen inklusive Deutsch. Kostenloser Probezugang.↩
[8]ZeroGPT, Eigenangaben, zerogpt.com (live abgerufen Juni 2026). Bewirbt ein „High Accuracy Model“ mit „DeepAnalyse“-Technologie, nennt aber keine konkrete Genauigkeitszahl. Kostenlos nutzbar plus kostenpflichtige Pläne. Mehrsprachig inklusive Deutsch. Nicht zu verwechseln mit GPTZero, das ist ein anderer Anbieter.↩
[9]Copyleaks, Eigenangabe, „AI Content Detector“, copyleaks.com (live abgerufen Juni 2026). Anbieter-Marketing: „over 99% accuracy“, beruft sich dabei auf „independent third-party studies“. Über 30 Sprachen inklusive Deutsch, niedrige Falsch-Positiv-Rate für nicht-muttersprachliche Texte beworben. Kostenloser Tarif.↩
[10]Turnitin Guides, „Turnitin’s AI writing detection capabilities FAQs“, guides.turnitin.com. Anbieter-Disclaimer: die KI-Erkennung solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. Das Ziel von unter 1 Prozent Falsch-Positiven gilt nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden. Turnitin wird nur institutionell lizenziert, nicht für den Einzelkauf.↩
[11]Hadra, M., Cambridge, K., Mesbah, M., „Evaluating the accuracy and reliability of AI content detectors in academic contexts“, International Journal for Educational Integrity (Springer), 2. Februar 2026, DOI 10.1007/s40979-026-00213-1, link.springer.com. Peer-reviewte Drittmessung. Sample: 192 Texte, getestet Turnitin und Originality.ai. Gesamtgenauigkeit Originality.ai 0,69 gegenüber Turnitin 0,61, beide mit erheblicher Schwäche bei hybriden, also teils menschlich und teils KI-verfassten Texten.↩
[12]Pudasaini, S., Miralles-Pechuán, L., Lillis, D., Llorens Salvador, M., „Why AI-Generated Text Detection Fails. Evidence from Explainable AI Beyond Benchmark Accuracy“, arXiv:2603.23146, 2026, arxiv.org/abs/2603.23146 (Preprint). Methodik: erklärbare KI auf den Benchmarks PAN-CLEF 2025 und COLING 2025, F1 0,9734 im eigenen Datensatz. Befund: Detektoren stützen sich auf datensatz-spezifische Stil-Artefakte statt auf stabile Autorschafts-Merkmale, daher massives Versagen bei Wechsel von Textsorte, Länge oder Domäne. Der kritischste Fehler im Bildungskontext sei das Falsch-Positiv.↩
[13]Tufts, B., Zhao, X., Li, L., „A Practical Examination of AI-Generated Text Detectors“, Findings of NAACL 2025, aclanthology.org/2025.findings-naacl.271 (arXiv:2412.05139). Peer-reviewed. Befund bei der fairen Metrik Trefferquote bei 1 Prozent Falsch-Positiv-Rate: mehrere Detektoren fallen auf bis zu 0 Prozent. Eine niedrige Falsch-Positiv-Rate und eine hohe Trefferquote sind nicht gleichzeitig erreichbar, und schon moderate Veränderungen umgehen die Erkennung.↩
[14]Perkins, M., Roe, J., Postma, D., McGaughran, J., Hickerson, D., „Detection of GPT-4 generated text in higher education“, International Journal for Educational Technology in Higher Education 21:31, 2024, DOI 10.1186/s41239-024-00487-w, arXiv:2403.19148, springeropen.com. Peer-reviewte Drittmessung. Die Erkennungsgenauigkeit fiel von 39,5 auf 17,4 Prozent, sobald einfache Verschleierungs-Techniken angewendet wurden, und rund 15 Prozent menschlicher Texte wurden fälschlich als KI markiert.↩
[15]Turnitin Guides, „AI writing detection model“, Dokumentation der unterstützten Sprachen der KI-Erkennung (Englisch, Spanisch, Japanisch), andere Sprachen werden nicht verarbeitet, guides.turnitin.com.↩
[16]Fiedler, A., Döpke, J., „Do humans identify AI-generated text better than machines? Evidence based on excerpts from German theses“, International Review of Economics Education 49:100321, 2025, DOI 10.1016/j.iree.2025.100321, Open Access. Peer-reviewte Drittmessung. 63 Lehrende beurteilten 19 menschliche und 19 ChatGPT-generierte deutsche Textauszüge. Getestete KI-Detektoren lagen nur knapp über Zufallsniveau (Fisher-Test p gleich 0,08).↩
[17]Schaaff, K., Schlippe, T., Mindner, L., „Classification of human- and AI-generated texts for different languages and domains“, International Journal of Speech Technology 27:935–956, 2024, DOI 10.1007/s10772-024-10143-3, Konferenz-Vorversion ICNLSP 2023 arXiv:2312.04882. Peer-reviewed. Für deutsche Texte erreichte das eigene Klassifikationssystem 97 Prozent F1 bei von Grund auf KI-generierten Texten, aber nur 72 Prozent bei umgeschriebenen. Die Studie misst Accuracy und F1, KEINE isolierte Falsch-Positiv-Rate auf rein menschlichen deutschen Texten.↩
[18]Queralt, M. T., Esparcia, A. J. et al., „AI, Human, or Hybrid? Reliability of AI Detection Tools in Multi-Authored Texts“, INTELETICA 2(4):102–114, 2025, DOI 10.4114/INTELETICA.vol2iss4pp102-114. Peer-reviewte Drittmessung. Sample: 180 spanische Texte (menschlich, KI, hybrid), getestet Originality.ai, GPTZero und Copyleaks. Befund: hybride Texte aus menschlicher und KI-Arbeit sind die generelle Schwachstelle, nicht-englische und gemischte Autorschaft erhöhen die Fehlerquote.↩
[19]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sieben verbreitete Detektoren stuften im Schnitt 61,22 Prozent der englischen Texte von Nicht-Muttersprachlern fälschlich als KI ein, gegenüber 5,19 Prozent bei Muttersprachlern (Preprint-Werte; die Patterns-Fassung rundet auf 61,3 bzw. 5 Prozent).↩
[20]Wang, Y. et al., „GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection“, Proceedings of the 1st Workshop on GenAI Content Detection, COLING 2025, arXiv:2501.11012, aclanthology.org. Peer-reviewter multilingualer Benchmark. Selbst Forschungs-Detektoren erreichen hohe Trefferquoten nur bei einer fixen 5-Prozent-Falsch-Positiv-Schwelle, und nicht-muttersprachliche Texte werden überproportional markiert.↩
[21]Tlok, T., „Robuste Erkennung KI-generierter Texte in deutscher Sprache“, Masterarbeit im Studiengang Data Science und Artificial Intelligence, Fachhochschule Wedel, 2023, ki.fh-wedel.de. Für die Arbeit entstand der erste deutschsprachige Datensatz dieser Art aus rund 70.000 menschlichen und 70.000 KI-generierten Texten, der Detektor erreichte ein F1-Maß von 97,89 Prozent. Die KI-Texte des Datensatzes wurden laut Arbeit mit GPT-3.5 erzeugt, GPT-4, Claude und Bard wurden für die Datenproduktion ausdrücklich nicht herangezogen.↩
[22]Detectora UG (Seevetal), „#1 KI-Detektor für deutsche Texte“, detectora.de (live abgerufen Juni 2026). Anbieter-Marketing: „98 % Genauigkeit“, als Beleg verlinkt der Anbieter die Masterarbeit des eigenen Tool-Entwicklers (Tlok, FH Wedel), nicht eine unabhängige Drittmessung. Die kostenlose Basis-Version erkennt GPT-3.5, moderne Modelle (GPT-4o, Claude 3.5, Gemini) erst im Pro-Tarif ab 11,90 Euro pro Monat. Verarbeitung laut Anbieter auf deutschen Azure-Servern.↩
[23]Isgen Ltd (Großbritannien), KI-Detektor, isgen.ai (live abgerufen Juni 2026). Anbieter-Marketing: „96,4 % Genauigkeit“ über mehr als 80 Sprachen, als Eigen-Benchmark ohne verlinkte unabhängige Quelle. Betreiber-Angaben bleiben knapp, auf der Über-uns-Seite finden sich weder Gründungs- noch Standort-Details.↩
[24]Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S., Foltýnek, T., Guerrero-Dib, J., Popoola, O., Šigut, P., Waddington, L., „Testing of detection tools for AI-generated text“, International Journal for Educational Integrity 19:26, 2023, DOI 10.1007/s40979-023-00146-z, Open Access, link.springer.com. Peer-reviewte Drittmessung von 12 frei verfügbaren Tools plus Turnitin und PlagiarismCheck. Befund: die Werkzeuge sind „weder genau noch zuverlässig“ und neigen dazu, Texte eher als menschlich einzustufen. Deutsche Texte wurden nur maschinenübersetzt geprüft, nicht im Original, der Befund gilt also nicht als Deutsch-Messung.↩
[25]Vanderbilt University, Brightspace, „Guidance on AI Detection and Why We’re Disabling Turnitin’s AI Detector“, 16. August 2023, vanderbilt.edu. Rechnung der Universität: Bei Turnitins angegebener 1-Prozent-Falsch-Positiv-Rate und rund 75.000 im Jahr 2022 eingereichten Arbeiten wären etwa 750 studentische Arbeiten fälschlich markiert worden. Weitere Abschalt-Gründe: fehlende Transparenz und Bias gegen Nicht-Muttersprachler.↩
[26]OpenAI, „New AI classifier for indicating AI-written text“, openai.com. Update vom 20. Juli 2023 auf derselben Seite: „As of July 20, 2023, the AI classifier is no longer available due to its low rate of accuracy.“ Zur Markteinführung im Januar 2023 nannte OpenAI dort nur 26 Prozent Trefferquote auf KI-Text und 9 Prozent Falsch-Positive auf menschlichem Text.↩

Häufige Fragen zum KI-Detektor-Vergleich

Über den Autor: Daniel M. Greiner

Gründer · Editor-in-Chief von ManuskriptMentor

Daniel Greiner gründete ManuskriptMentor 2025 als Plattform für wissenschaftliches Arbeiten. Mit M.A. und B.A. in Medienwissenschaft (Universität Siegen) und über zehn Jahren Führungserfahrung verantwortet er die redaktionellen Inhalte und prüft jeden Methodik-Artikel persönlich.

M.A. MedienwissenschaftSpezialist für Abschlussarbeiten

Autoren-Profil iDORCID LinkedIn cbCrunchbase