KI-Detektoren im Vergleich: wie zuverlässig sind sie wirklich?
Sechs Tools, sechsmal das Versprechen von 99 Prozent. Was unabhängige Studien messen und welche Zahl Sie glauben können.


bis 99,98 %
Anbieter-Versprechen
70–80 %
unabhängig gemessen
bis 46 %
Fehlalarm im Test
26
Quellen belegt
„Welcher KI-Detektor ist der beste?“ ist die meistgestellte Frage zum Thema und zugleich die falsche. Denn alle behaupten, der genaueste zu sein, und keine dieser Zahlen hält einer unabhängigen Prüfung stand.
Das Wichtigste in Kürze
- Die Anbieter-Werte und die Forschung liegen meilenweit auseinander. Hersteller werben mit 95 bis 99,98 Prozent, unabhängige Messungen auf echten Studi-Texten landen bei 70 bis 80 Prozent[1].
- Dasselbe Tool urteilt nicht wie das nächste. Drei verbreitete Detektoren stimmten am selben Text nur zu 0,14 bis 0,47 überein[2].
- Die Falsch-Positiv-Raten treffen die Falschen. Auf beaufsichtigt geschriebenen Texten markierten Tools zwischen 9,8 und 45,8 Prozent der menschlichen Arbeiten fälschlich als KI[3].
- Kein Tool ist als alleiniges Beweismittel tauglich, und für Deutsch fehlt bis heute eine belastbare unabhängige Messung der kommerziellen Detektoren.
Zwei Zahlen für dasselbe Tool, die nicht zusammenpassen
Wer nach einem KI-Detektor-Vergleich sucht, landet in einer Zahlen-Schlacht. GPTZero nennt 99 Prozent Genauigkeit, Winston AI 99,98 Prozent, Copyleaks über 99 Prozent. Jeder Anbieter erklärt sich zum Genauesten, und die meisten Vergleichsseiten übernehmen diese Werte, als wären es Messergebnisse. Es sind aber Eigenangaben aus internen Tests, die niemand von außen reproduziert hat.
Sobald unabhängige Forschung dieselben Tools auf echten Studierenden-Texten prüft, schrumpfen die Zahlen drastisch. Statt 99 Prozent stehen dann 70 bis 80 Prozent Trefferquote im Raum, und auf bestimmten Aufgaben markieren Detektoren bis zu jede zweite menschliche Arbeit fälschlich als KI. Eine peer-reviewte Übersichtsstudie aus 2026 fasst für genau die hier verglichenen Tools zusammen, dass sie häufig Falsch-Positive produzieren und intransparent bleiben, besonders bei mehrsprachigen und nicht-muttersprachlichen Texten.
Bemerkenswert ehrlich ist ausgerechnet ein Anbieter selbst. Originality.ai schreibt in der eigenen Genauigkeits-Dokumentation, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen. Das Hochschulforum Digitalisierung formuliert es 2026 noch deutlicher und hält fest, dass die Prozentangaben eine Genauigkeit vortäuschen, die faktisch nicht gegeben ist.
Dasselbe Tool trägt zwei Zahlen, rund 99 Prozent im eigenen Test und 70 bis 80 Prozent in unabhängiger Messung.
Dieser Artikel macht die Diskrepanz sichtbar, statt sie zu verschweigen. In der folgenden Tabelle steht neben jedem Anbieter-Versprechen, was unabhängige Messungen für dasselbe Tool ergeben haben, mit Quelle zu jeder Zahl.
Belege (3)
- [1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI-Monitor 2025 stellen 18 Prozent der 93 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
- [4]Originality.ai, Eigenangaben, „AI Checker Accuracy“, originality.ai (live abgerufen Juni 2026). Anbieter-Marketing: Modell Lite 99 Prozent Genauigkeit bei 0,5 Prozent Falsch-Positiven, Turbo 99 Prozent plus bei 1,5 Prozent, Multilingual 97,8 Prozent bei 2,4 Prozent. Der Anbieter mahnt selbst, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen.↩
- [5]Deep, J., Edgington, T., Ghosh, S., „Evaluating the Effectiveness and Ethical Implications of AI Detection Tools in Higher Education“, Information (MDPI) 16(10):905, 2025, DOI 10.3390/info16100905, Open Access (CC BY), mdpi.com. Peer-reviewte Evidenz-Synthese, bespricht Turnitin AI, GPTZero, Copyleaks und ZeroGPT. Kernaussage: Detektoren produzieren häufig Falsch-Positive und sind intransparent, besonders bei mehrsprachigen und nicht-muttersprachlichen Texten.↩
Sechs Detektoren: was sie behaupten, was gemessen wurde
Verglichen werden die Tools, die Studierenden im DACH-Raum am häufigsten begegnen, das institutionelle Turnitin ebenso wie die kostenlosen Massen-Tools, die man panisch selbst auf den eigenen Text wirft. Am meisten zählt für die Praxis eine einzige Frage: wie oft markiert ein Tool eine ehrlich geschriebene Arbeit fälschlich als KI?
Fehlalarme im Test
Von 100 selbst geschriebenen Arbeiten: wie viele jedes Tool fälschlich als KI markierte
Versprochen ist höchstens 1 von 100. Unabhängig gemessen an 459 von Studierenden unter Aufsicht geschriebenen Texten.
Für Turnitin nennt das Hochschulforum Digitalisierung je nach Aufgabe bis zu 50 von 100 als möglich, für Copyleaks gibt es keine unabhängige Messung.
Vier Dinge fallen beim direkten Vergleich auf.
- Die größte Lücke klafft bei Winston AI, das mit 99,98 Prozent wirbt, während eine unabhängige Studie 45,8 Prozent Falsch-Positive auf echten Studi-Texten maß, also fast jede zweite menschliche Arbeit fälschlich markierte. Originality.ai verspricht 0,5 Prozent Falsch-Positive und liegt gemessen bei 17,6 Prozent. Selbst im günstigsten Fall bleibt der Abstand zwischen Versprechen und Messung groß.
- ZeroGPT, das von Studierenden meistgenutzte Gratis-Tool, nennt auf der eigenen Seite gar keine konkrete Genauigkeitszahl und bewirbt nur ein „High Accuracy Model“. Wer hier eine belastbare Angabe sucht, findet Marketing-Vokabular statt einer Zahl.
- Turnitin ist ein Sonderfall. Die viel zitierte Marke von unter 1 Prozent Falsch-Positiven gilt laut Turnitins eigener Dokumentation nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden, und der Anbieter schreibt ausdrücklich, das Ergebnis solle nicht alleinige Grundlage für Maßnahmen gegen Studierende sein. In einer unabhängigen Messung kam Turnitin auf eine Gesamtgenauigkeit von 0,61.
- Teurer heißt nicht zuverlässiger. Das meistgenutzte Gratis-Tool ZeroGPT schnitt bei den Fehlalarmen sogar besser ab als die kostenpflichtigen Originality.ai und Winston AI. Ein Abo kauft mehr Volumen und Komfort, aber keine verlässlichere Erkennung.
Wo unabhängig gemessen wurde, hält kein Tool, was es im eigenen Test verspricht.
Alle Angaben im Detail
Wer die ganze Bandbreite sehen will, findet sie hier: jedem Anbieter-Versprechen ist gegenübergestellt, was unabhängige Studien für dasselbe Tool gemessen haben, dazu Sprache, Kosten und Quelle zu jeder Zahl. Die Spalte „Anbieter behauptet“ ist Marketing, die Spalte „Unabhängig gemessen“ stammt aus peer-reviewten Studien.
| Tool | Deutsch | Kosten | Anbieter behauptet | Unabhängig gemessen |
|---|---|---|---|---|
| Turnitininstitutionell | offiziell nur EN/ES/JP | nur Hochschul-Lizenz | unter 1 % Falsch-Positive, aber nur ab 20 % KI-Anteil | Gesamtgenauigkeit 0,61 (Hadra 2026); FP bis 50 % möglich (HFD) |
| GPTZero | beworben | gratis + ab ~15 $/Mo | 99 % Genauigkeit, 1 % Falsch-Positive | 15,8 % FP auf Studi-Texten (Paustian 2024) |
| Originality.ai | 30+ Sprachen | kein Gratis-Tarif | 99 % Genauigkeit, 0,5 % Falsch-Positive | 17,6 % FP (Paustian); Gesamtgenauigkeit 0,69 (Hadra) |
| Winston AI | 14 Sprachen | gratis-Trial + ab ~18 $/Mo | 99,98 % Genauigkeit | 45,8 % FP auf Studi-Texten (Paustian 2024) |
| ZeroGPTnicht GPTZero | mehrsprachig | gratis + Premium | „hohe Genauigkeit“, ohne Zahl | 9,8 % FP (Paustian); widersprüchlich (Howard) |
| Copyleaks | 30+ Sprachen | gratis + ab ~11 $/Mo | über 99 % Genauigkeit | keine unabhängige Bestätigung; Tools korrelieren nur 0,14–0,47 (Howard) |
Spalte „Anbieter behauptet“: Eigenangaben der Hersteller-Webseiten, live abgerufen im Juni 2026, also Marketing und nicht unabhängig reproduziert. Spalte „Unabhängig gemessen“: peer-reviewte Drittmessungen auf echten Studierenden-Texten. FP steht für Falsch-Positiv-Rate, also den Anteil menschlicher Texte, die fälschlich als KI markiert wurden.
Belege (8)
- [3]Paustian, T., Slinger, B., „Students are using large language models and AI detectors can often detect their use“, Frontiers in Education 9:1374889, 2024, DOI 10.3389/feduc.2024.1374889, Open Access, frontiersin.org. Peer-reviewte Drittmessung. Falsch-Positiv-Rate auf 459 beaufsichtigt geschriebenen Studi-Texten je Tool: ZeroGPT 9,8 Prozent, GPTZero 15,8 Prozent, Originality.ai 17,6 Prozent, Winston AI 45,8 Prozent.↩
- [4]Originality.ai, Eigenangaben, „AI Checker Accuracy“, originality.ai (live abgerufen Juni 2026). Anbieter-Marketing: Modell Lite 99 Prozent Genauigkeit bei 0,5 Prozent Falsch-Positiven, Turbo 99 Prozent plus bei 1,5 Prozent, Multilingual 97,8 Prozent bei 2,4 Prozent. Der Anbieter mahnt selbst, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen.↩
- [6]GPTZero, Eigenangaben auf Startseite und FAQ, gptzero.me (live abgerufen Juni 2026). Anbieter-Marketing: „99% accuracy“, Falsch-Positiv-Rate „1% of human texts as AI“. Deutsch in den FAQ als unterstützte Sprache genannt. Kostenloser Tarif mit 10.000 Wörtern pro Monat.↩
- [7]Winston AI, Eigenangabe auf der Startseite, gowinston.ai (live abgerufen Juni 2026). Anbieter-Marketing: „99,98% accuracy“. Keine isolierte Falsch-Positiv-Rate angegeben. 14 Sprachen inklusive Deutsch. Kostenloser Probezugang.↩
- [8]ZeroGPT, Eigenangaben, zerogpt.com (live abgerufen Juni 2026). Bewirbt ein „High Accuracy Model“ mit „DeepAnalyse“-Technologie, nennt aber keine konkrete Genauigkeitszahl. Kostenlos nutzbar plus kostenpflichtige Pläne. Mehrsprachig inklusive Deutsch. Nicht zu verwechseln mit GPTZero, das ist ein anderer Anbieter.↩
- [9]Copyleaks, Eigenangabe, „AI Content Detector“, copyleaks.com (live abgerufen Juni 2026). Anbieter-Marketing: „over 99% accuracy“, beruft sich dabei auf „independent third-party studies“. Über 30 Sprachen inklusive Deutsch, niedrige Falsch-Positiv-Rate für nicht-muttersprachliche Texte beworben. Kostenloser Tarif.↩
- [10]Turnitin Guides, „Turnitin’s AI writing detection capabilities FAQs“, guides.turnitin.com. Anbieter-Disclaimer: die KI-Erkennung solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. Das Ziel von unter 1 Prozent Falsch-Positiven gilt nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden. Turnitin wird nur institutionell lizenziert, nicht für den Einzelkauf.↩
- [11]Hadra, M., Cambridge, K., Mesbah, M., „Evaluating the accuracy and reliability of AI content detectors in academic contexts“, International Journal for Educational Integrity (Springer), 2. Februar 2026, DOI 10.1007/s40979-026-00213-1, link.springer.com. Peer-reviewte Drittmessung. Sample: 192 Texte, getestet Turnitin und Originality.ai. Gesamtgenauigkeit Originality.ai 0,69 gegenüber Turnitin 0,61, beide mit erheblicher Schwäche bei hybriden, also teils menschlich und teils KI-verfassten Texten.↩
Was die Tools kosten
Bei den Preisen lassen sich vier Muster unterscheiden, die genauen Tarife stehen in der Tabelle darüber.
- Ganz kostenlos. Das nicht-kommerzielle FH-Wedel-Tool läuft ohne Anmeldung und ohne Bezahlschranke.
- Gratis mit Limit, Rest im Abo. ZeroGPT, GPTZero, Copyleaks und Detectora bieten eine kostenlose Basis-Stufe, die volle Funktion gibt es im Abo ab dem niedrigen zweistelligen Bereich pro Monat.
- Nur kostenpflichtig. Originality.ai hat keine echte Gratis-Stufe, der Einstieg läuft über ein Abo oder ein Einmal-Guthaben.
- Nur über die Hochschule. Turnitin gibt es nicht im Einzelkauf, sondern ausschließlich als institutionelle Lizenz.
Für einen einzelnen Selbst-Check reicht fast immer eine der kostenlosen Stufen. Wer regelmäßig prüft, zahlt meist nach Wortkontingent.
Warum die 99 Prozent im echten Text zusammenbrechen
Die hohen Anbieter-Werte sind nicht frei erfunden, sie entstehen aber in einem kontrollierten Labor. Ein Detektor wird auf einem bestimmten Datensatz getestet, lernt dort die typischen Spuren und erkennt sie zuverlässig wieder. Eine Arbeit von 2026 hat mit erklärbarer KI offengelegt, was dabei wirklich passiert. Die Detektoren stützen sich auf datensatz-spezifische Stil-Artefakte, nicht auf stabile Merkmale von Autorschaft. Wechselt die Textsorte, die Länge oder die Sprache, bricht die Leistung ein. Im Test top, am echten Studi-Text daneben. Wie wenig dazu nötig ist, zeigte eine Untersuchung von 2024, in der die Erkennungsgenauigkeit von 39,5 auf 17,4 Prozent fiel, sobald simple Verschleierungs-Techniken angewendet wurden.
Dazu kommt ein Zielkonflikt, der sich nicht auflösen lässt. Misst man Detektoren mit der fairen Metrik, wie viel KI sie bei nur einem Prozent Falsch-Positiven noch erkennen, fallen mehrere auf bis zu null Prozent. Hält man die Quote fälschlich beschuldigter Menschen niedrig, erkennen die Tools kaum noch KI. Erkennen sie viel KI, beschuldigen sie zu viele Unschuldige. Beides gleichzeitig geht nicht.
Wenige Fehlbeschuldigungen und viele erkannte KI-Texte sind nicht gleichzeitig zu haben.
Und weil keiner der Detektoren die Wahrheit über die Herkunft eines Textes kennt, widersprechen sie sich gegenseitig. Drei verbreitete Tools waren sich an denselben Texten kaum einig, ihre Ergebnisse überschnitten sich nur schwach. Studierende erleben das regelmäßig, wenn dieselbe Arbeit bei einem Tool unauffällig bleibt und beim nächsten fast vollständig als KI gilt. Diese Widersprüchlichkeit ist kein Werkzeug, mit dem man sich freitesten kann, sondern das stärkste Argument gegen die Beweiskraft eines einzelnen Scores.
Belege (4)
- [2]Howard, F. M., Li, A., Riffon, M. F., Garrett-Mayer, E., Pearson, A. T., „Characterizing the Increase in Artificial Intelligence Content Detection in Oncology Scientific Abstracts“, JCO Clinical Cancer Informatics, 1. Juni 2024, DOI 10.1200/CCI.24.00077, PMC11371107. Peer-reviewte Drittmessung. Die Übereinstimmung dreier verbreiteter Detektoren am selben Korpus lag nur bei einer Spearman-Korrelation von 0,143 bis 0,471, die Tools sind also nicht austauschbar.↩
- [12]Pudasaini, S., Miralles-Pechuán, L., Lillis, D., Llorens Salvador, M., „Why AI-Generated Text Detection Fails. Evidence from Explainable AI Beyond Benchmark Accuracy“, arXiv:2603.23146, 2026, arxiv.org/abs/2603.23146 (Preprint). Methodik: erklärbare KI auf den Benchmarks PAN-CLEF 2025 und COLING 2025, F1 0,9734 im eigenen Datensatz. Befund: Detektoren stützen sich auf datensatz-spezifische Stil-Artefakte statt auf stabile Autorschafts-Merkmale, daher massives Versagen bei Wechsel von Textsorte, Länge oder Domäne. Der kritischste Fehler im Bildungskontext sei das Falsch-Positiv.↩
- [13]Tufts, B., Zhao, X., Li, L., „A Practical Examination of AI-Generated Text Detectors“, Findings of NAACL 2025, aclanthology.org/2025.findings-naacl.271 (arXiv:2412.05139). Peer-reviewed. Befund bei der fairen Metrik Trefferquote bei 1 Prozent Falsch-Positiv-Rate: mehrere Detektoren fallen auf bis zu 0 Prozent. Eine niedrige Falsch-Positiv-Rate und eine hohe Trefferquote sind nicht gleichzeitig erreichbar, und schon moderate Veränderungen umgehen die Erkennung.↩
- [14]Perkins, M., Roe, J., Postma, D., McGaughran, J., Hickerson, D., „Detection of GPT-4 generated text in higher education“, International Journal for Educational Technology in Higher Education 21:31, 2024, DOI 10.1186/s41239-024-00487-w, arXiv:2403.19148, springeropen.com. Peer-reviewte Drittmessung. Die Erkennungsgenauigkeit fiel von 39,5 auf 17,4 Prozent, sobald einfache Verschleierungs-Techniken angewendet wurden, und rund 15 Prozent menschlicher Texte wurden fälschlich als KI markiert.↩
Das Deutsch-Problem, das keine Tool-Liste verrät
Jedes Tool führt Deutsch in seiner Sprachliste, manche werben mit 30 oder mehr Sprachen. Das klingt beruhigend und verschweigt das Eigentliche. Trainiert wurden diese Modelle überwiegend auf englischen Daten, und Turnitin nennt die nicht-englische Erkennung in der eigenen Dokumentation nur eingeschränkt unterstützt. Deutsch zu unterstützen heißt nicht, auf Deutsch zuverlässig zu sein.

Belastbar messen lässt sich das bislang kaum. Es gibt keine peer-reviewte Studie, die für deutschsprachige Texte eine Falsch-Positiv-Rate der gängigen kommerziellen Detektoren ausweist. Die nächstbesten Annäherungen zeigen aber die Richtung. Eine deutsche Untersuchung fand, dass die getesteten Detektoren auf deutschen Thesis-Auszügen nur knapp über Zufallsniveau lagen. Ein eigenes Forschungssystem erreichte auf frisch generierten deutschen Texten 97 Prozent, fiel bei umgeschriebenen aber auf 72 Prozent. Und eine spanische Studie zeigte, dass nicht-englische und gemischte Texte die generelle Schwachstelle aller geprüften Tools sind.
Der Grund ist immer derselbe. Detektoren messen, wie vorhersagbar ein Text statistisch ist, nicht, wer ihn geschrieben hat. Wer in einer Fremdsprache, mit begrenzterem Wortschatz oder in nüchterner Fachsprache schreibt, produziert vorhersagbareren Text und wird häufiger fälschlich als KI markiert. Die Stanford-Studie von 2023 hat das gemessen, über 61 Prozent der englischen Texte von Nicht-Muttersprachlern wurden falsch eingestuft, gegenüber rund 5 Prozent bei Muttersprachlern. Ein mehrsprachiger Vergleichstest von 2025 bestätigt den Effekt über viele Sprachen hinweg. Für deutschsprachige Studierende heißt das, dass ausgerechnet die, die sich sprachlich am meisten anstrengen, das höchste Risiko tragen.
Deutsch in der Sprachliste heißt nicht Deutsch im Training.
Belege (6)
- [15]Turnitin Guides, „AI writing detection model“, Dokumentation der unterstützten Sprachen der KI-Erkennung (Englisch, Spanisch, Japanisch), andere Sprachen werden nicht verarbeitet, guides.turnitin.com.↩
- [16]Fiedler, A., Döpke, J., „Do humans identify AI-generated text better than machines? Evidence based on excerpts from German theses“, International Review of Economics Education 49:100321, 2025, DOI 10.1016/j.iree.2025.100321, Open Access. Peer-reviewte Drittmessung. 63 Lehrende beurteilten 19 menschliche und 19 ChatGPT-generierte deutsche Textauszüge. Getestete KI-Detektoren lagen nur knapp über Zufallsniveau (Fisher-Test p gleich 0,08).↩
- [17]Schaaff, K., Schlippe, T., Mindner, L., „Classification of human- and AI-generated texts for different languages and domains“, International Journal of Speech Technology 27:935–956, 2024, DOI 10.1007/s10772-024-10143-3, Konferenz-Vorversion ICNLSP 2023 arXiv:2312.04882. Peer-reviewed. Für deutsche Texte erreichte das eigene Klassifikationssystem 97 Prozent F1 bei von Grund auf KI-generierten Texten, aber nur 72 Prozent bei umgeschriebenen. Die Studie misst Accuracy und F1, KEINE isolierte Falsch-Positiv-Rate auf rein menschlichen deutschen Texten.↩
- [18]Queralt, M. T., Esparcia, A. J. et al., „AI, Human, or Hybrid? Reliability of AI Detection Tools in Multi-Authored Texts“, INTELETICA 2(4):102–114, 2025, DOI 10.4114/INTELETICA.vol2iss4pp102-114. Peer-reviewte Drittmessung. Sample: 180 spanische Texte (menschlich, KI, hybrid), getestet Originality.ai, GPTZero und Copyleaks. Befund: hybride Texte aus menschlicher und KI-Arbeit sind die generelle Schwachstelle, nicht-englische und gemischte Autorschaft erhöhen die Fehlerquote.↩
- [19]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sieben verbreitete Detektoren stuften im Schnitt 61,22 Prozent der englischen Texte von Nicht-Muttersprachlern fälschlich als KI ein, gegenüber 5,19 Prozent bei Muttersprachlern (Preprint-Werte; die Patterns-Fassung rundet auf 61,3 bzw. 5 Prozent).↩
- [20]Wang, Y. et al., „GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection“, Proceedings of the 1st Workshop on GenAI Content Detection, COLING 2025, arXiv:2501.11012, aclanthology.org. Peer-reviewter multilingualer Benchmark. Selbst Forschungs-Detektoren erreichen hohe Trefferquoten nur bei einer fixen 5-Prozent-Falsch-Positiv-Schwelle, und nicht-muttersprachliche Texte werden überproportional markiert.↩
Was ist mit den deutschen Detektoren?
Wer gezielt nach einem deutschen KI-Detektor sucht, landet schnell bei Anbietern, die mit besserer Leistung auf Deutsch werben. Das klingt nach der naheliegenden Lösung für das eben beschriebene Sprach-Problem. Bei genauem Hinsehen wiederholt sich aber dieselbe Lücke zwischen Versprechen und Beleg, nur auf Deutsch.
- Detectora.de wirbt als „#1 KI-Detektor für deutsche Texte“ mit 98 Prozent Genauigkeit. Bemerkenswert ist, womit der Anbieter diese Zahl belegt, nämlich mit der Masterarbeit des eigenen Tool-Entwicklers und nicht mit einer unabhängigen Messung. Die kostenlose Version erkennt zudem nur die alte Modell-Generation GPT-3.5, aktuelle Modelle wie GPT-4o, Claude und Gemini gibt es erst im Bezahl-Tarif ab 11,90 Euro im Monat.
- Das Original stammt von der Fachhochschule Wedel. Dort entwickelte Tom Tlok 2023 in seiner Masterarbeit einen Detektor für deutsche Texte und baute dafür den ersten großen deutschsprachigen Datensatz auf. Das Tool ist kostenlos, datenschutzkonform und in seinen Grenzen ehrlich, es weist selbst darauf hin, dass es zuverlässig nur GPT-3.5-Texte erkennt und sein Ergebnis „ohne Gewähr“ ist.
- isgen.ai wirbt mit 96,4 Prozent über mehr als 80 Sprachen, nennt dafür aber keine nachprüfbare Quelle, und hinter dem Tool steht eine britische Firma ohne öffentliche Gründungs- oder Standort-Angaben. Damit fehlt genau die Transparenz, die ein Werkzeug für eine Prüfungs-Entscheidung bräuchte.
Der gemeinsame Nenner ist ernüchternd. Die beste belegte Genauigkeitszahl für Deutsch stammt aus einer Masterarbeit von 2023 und bezieht sich auf eine KI-Generation, die heute kaum noch jemand nutzt. Eine peer-reviewte Untersuchung, die 14 Detektoren prüfte, kam unabhängig davon zum selben Gesamturteil, dass die Werkzeuge weder genau noch zuverlässig sind. Einen echten Vorteil haben die deutschen Anbieter trotzdem, und der liegt nicht bei der Genauigkeit, sondern beim Datenschutz. Detectora und das FH-Wedel-Tool verarbeiten Texte auf deutschen Servern, während die großen internationalen Tools meist außerhalb der EU liegen, mehr dazu gleich im nächsten Abschnitt.
Die beste deutsche Genauigkeitszahl stammt aus der Masterarbeit des Tool-Entwicklers selbst.
Belege (4)
- [21]Tlok, T., „Robuste Erkennung KI-generierter Texte in deutscher Sprache“, Masterarbeit im Studiengang Data Science und Artificial Intelligence, Fachhochschule Wedel, 2023, ki.fh-wedel.de. Für die Arbeit entstand der erste deutschsprachige Datensatz dieser Art aus rund 70.000 menschlichen und 70.000 KI-generierten Texten, der Detektor erreichte ein F1-Maß von 97,89 Prozent. Die KI-Texte des Datensatzes wurden laut Arbeit mit GPT-3.5 erzeugt, GPT-4, Claude und Bard wurden für die Datenproduktion ausdrücklich nicht herangezogen.↩
- [22]Detectora UG (Seevetal), „#1 KI-Detektor für deutsche Texte“, detectora.de (live abgerufen Juni 2026). Anbieter-Marketing: „98 % Genauigkeit“, als Beleg verlinkt der Anbieter die Masterarbeit des eigenen Tool-Entwicklers (Tlok, FH Wedel), nicht eine unabhängige Drittmessung. Die kostenlose Basis-Version erkennt GPT-3.5, moderne Modelle (GPT-4o, Claude 3.5, Gemini) erst im Pro-Tarif ab 11,90 Euro pro Monat. Verarbeitung laut Anbieter auf deutschen Azure-Servern.↩
- [23]Isgen Ltd (Großbritannien), KI-Detektor, isgen.ai (live abgerufen Juni 2026). Anbieter-Marketing: „96,4 % Genauigkeit“ über mehr als 80 Sprachen, als Eigen-Benchmark ohne verlinkte unabhängige Quelle. Betreiber-Angaben bleiben knapp, auf der Über-uns-Seite finden sich weder Gründungs- noch Standort-Details.↩
- [24]Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S., Foltýnek, T., Guerrero-Dib, J., Popoola, O., Šigut, P., Waddington, L., „Testing of detection tools for AI-generated text“, International Journal for Educational Integrity 19:26, 2023, DOI 10.1007/s40979-023-00146-z, Open Access, link.springer.com. Peer-reviewte Drittmessung von 12 frei verfügbaren Tools plus Turnitin und PlagiarismCheck. Befund: die Werkzeuge sind „weder genau noch zuverlässig“ und neigen dazu, Texte eher als menschlich einzustufen. Deutsche Texte wurden nur maschinenübersetzt geprüft, nicht im Original, der Befund gilt also nicht als Deutsch-Messung.↩
Wohin geht Ihr Text, wenn Sie ihn hochladen?
Eine Frage lassen fast alle Vergleichsseiten aus, obwohl sie für DACH-Studierende besonders zählt. Wenn Sie Ihre noch unveröffentlichte Haus- oder Abschlussarbeit in einen kostenlosen Detektor kopieren, geben Sie unveröffentlichtes geistiges Eigentum an einen meist außereuropäischen Anbieter weiter. Was danach mit dem Text geschieht, ob er gespeichert oder zum Training weiterverwendet wird, regeln die Anbieter höchst unterschiedlich, von ausdrücklichem Verzicht bis zu Datenschutzerklärungen, die dazu gar nichts sagen.

Ihre unveröffentlichte Arbeit ist ein Prüfungsdokument, kein Testmaterial für einen fremden Server.
Ein voreiliger Upload kann mehr Probleme schaffen, als er löst, ohne dass Sie im Gegenzug ein verlässliches Ergebnis bekommen. Bevor Sie irgendein Tool nutzen, lohnt sich deshalb ein nüchterner Dreischritt.
- Die Datenschutzerklärung des Tools lesen.
- Den Serverstandort und eine mögliche Weiterverwendung zum Training klären.
- Im Zweifel keinen sensiblen oder unveröffentlichten Text eingeben.
Nicht-kommerzielle, an Hochschulen entwickelte Werkzeuge sind hier oft transparenter als die Freemium-Tools mit den lautesten Genauigkeits-Versprechen.
Welches Tool Ihre Hochschule wirklich verwendet
Studierende suchen oft nach dem besten Consumer-Tool, obwohl die eigentliche Frage lautet, was die eigene Hochschule einsetzt. Die Antwort ist meist Turnitin, integriert in die Plagiatsprüfung, nur institutionell lizenziert. Das kostenlose Tool, das Sie selbst auf Ihren Text werfen, ist fast nie dasselbe, das Ihre Prüfungskommission verwendet.
Ein bestandener Selbst-Check beweist nichts, ein durchgefallener auch nicht.
Verlässt man sich auf die Verbreitung, relativiert sich das Bild zusätzlich. Laut dem KI-Monitor 2025 stellen erst 18 Prozent der befragten Hochschulen Detektoren zentral bereit, und einige Universitäten haben wieder zurückgerudert. Vanderbilt schaltete Turnitins KI-Erkennung 2023 ab, mit der Rechnung, dass bei einer Ein-Prozent-Fehlerrate und rund 75.000 jährlich eingereichten Arbeiten etwa 750 ehrliche Arbeiten fälschlich markiert worden wären.
Belege (2)
- [1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI-Monitor 2025 stellen 18 Prozent der 93 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
- [25]Vanderbilt University, Brightspace, „Guidance on AI Detection and Why We’re Disabling Turnitin’s AI Detector“, 16. August 2023, vanderbilt.edu. Rechnung der Universität: Bei Turnitins angegebener 1-Prozent-Falsch-Positiv-Rate und rund 75.000 im Jahr 2022 eingereichten Arbeiten wären etwa 750 studentische Arbeiten fälschlich markiert worden. Weitere Abschalt-Gründe: fehlende Transparenz und Bias gegen Nicht-Muttersprachler.↩
ZeroGPT ist nicht GPTZero
Die zwei meistverwechselten Namen der Branche gehören zu zwei verschiedenen Anbietern. GPTZero wurde 2023 bekannt und ist im US-Hochschulmarkt verbreitet, ZeroGPT ist ein separates kostenloses Massen-Tool. Wer im Forum liest, ein Detektor habe falsch gelegen, sollte also zuerst klären, von welchem der beiden überhaupt die Rede ist. An der grundsätzlichen Unzuverlässigkeit ändert die Verwechslung nichts, beide liefern in unabhängigen Tests stark schwankende Werte.
Fazit: die Frage nach dem besten Tool ist die falsche
Wer die Anbieter-Versprechen neben die unabhängigen Messungen legt, sieht ein klares Muster. Die 99 Prozent sind eine Laborzahl, die auf echten Texten zusammenbricht, die Tools widersprechen sich gegenseitig, und die Fehler treffen verletzliche Gruppen am härtesten. Selbst OpenAI, der Hersteller von ChatGPT, hat den eigenen Detektor 2023 wegen niedriger Treffgenauigkeit wieder eingestellt.
Kein Score allein darf über eine Täuschung entscheiden.
Daraus folgt keine Kaufempfehlung, sondern eine Grenze. Der Deutsche Ethikrat und das Hochschulforum Digitalisierung plädieren für transparente Regeln und geprüfte Eigenleistung statt für automatisierte Beweismittel. Wenn ein Detektor Ihre Arbeit falsch markiert hat, zählt nicht das nächste Tool, sondern wie Sie Ihre Urheberschaft belegen. Wie das geht, steht im Leitfaden zu ehrlich geschriebenen Texten, die als KI markiert werden, und die Mechanik dahinter erklärt der Überblick zu KI-Detektoren im Studium.
Wenn Sie unsicher sind, wie Sie Ihre Methodik und Ihren Arbeitsprozess so dokumentieren, dass er einem Verdacht standhält, kann eine persönliche Methodik-Beratung die nächsten Schritte sortieren, von der Gliederung bis zur nachvollziehbaren Quellenarbeit.
Belege (2)
- [1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI-Monitor 2025 stellen 18 Prozent der 93 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
- [26]OpenAI, „New AI classifier for indicating AI-written text“, openai.com. Update vom 20. Juli 2023 auf derselben Seite: „As of July 20, 2023, the AI classifier is no longer available due to its low rate of accuracy.“ Zur Markteinführung im Januar 2023 nannte OpenAI dort nur 26 Prozent Trefferquote auf KI-Text und 9 Prozent Falsch-Positive auf menschlichem Text.↩
Alle 26 Quellen anzeigen
- [1]Gostmann, I., Hildermeier, L. (Hochschulforum Digitalisierung am CHE), „KI prüft KI, und scheitert? Über Bias-Effekte und Verzerrungen in KI-Detektoren“, 12. Februar 2026, hochschulforumdigitalisierung.de, CC BY-SA. Institutionelle Einordnung. Kernaussagen: Detektoren liefern keine verlässlichen Ergebnisse, die Falsch-Positiv-Rate liegt je nach Aufgabe bei bis zu 50 Prozent, bei Nicht-Muttersprachlern über 60 Prozent. Laut KI-Monitor 2025 stellen 18 Prozent der 93 befragten Hochschulen Detektoren zentral bereit. Der Deutsche Ethikrat plädiert für transparente Regeln statt automatisierter Beweismittel.↩
- [2]Howard, F. M., Li, A., Riffon, M. F., Garrett-Mayer, E., Pearson, A. T., „Characterizing the Increase in Artificial Intelligence Content Detection in Oncology Scientific Abstracts“, JCO Clinical Cancer Informatics, 1. Juni 2024, DOI 10.1200/CCI.24.00077, PMC11371107. Peer-reviewte Drittmessung. Die Übereinstimmung dreier verbreiteter Detektoren am selben Korpus lag nur bei einer Spearman-Korrelation von 0,143 bis 0,471, die Tools sind also nicht austauschbar.↩
- [3]Paustian, T., Slinger, B., „Students are using large language models and AI detectors can often detect their use“, Frontiers in Education 9:1374889, 2024, DOI 10.3389/feduc.2024.1374889, Open Access, frontiersin.org. Peer-reviewte Drittmessung. Falsch-Positiv-Rate auf 459 beaufsichtigt geschriebenen Studi-Texten je Tool: ZeroGPT 9,8 Prozent, GPTZero 15,8 Prozent, Originality.ai 17,6 Prozent, Winston AI 45,8 Prozent.↩
- [4]Originality.ai, Eigenangaben, „AI Checker Accuracy“, originality.ai (live abgerufen Juni 2026). Anbieter-Marketing: Modell Lite 99 Prozent Genauigkeit bei 0,5 Prozent Falsch-Positiven, Turbo 99 Prozent plus bei 1,5 Prozent, Multilingual 97,8 Prozent bei 2,4 Prozent. Der Anbieter mahnt selbst, eine einzelne Zahl genüge angesichts der Folgen nicht und man könne von automatischer Erkennung keine Perfektion annehmen.↩
- [5]Deep, J., Edgington, T., Ghosh, S., „Evaluating the Effectiveness and Ethical Implications of AI Detection Tools in Higher Education“, Information (MDPI) 16(10):905, 2025, DOI 10.3390/info16100905, Open Access (CC BY), mdpi.com. Peer-reviewte Evidenz-Synthese, bespricht Turnitin AI, GPTZero, Copyleaks und ZeroGPT. Kernaussage: Detektoren produzieren häufig Falsch-Positive und sind intransparent, besonders bei mehrsprachigen und nicht-muttersprachlichen Texten.↩
- [6]GPTZero, Eigenangaben auf Startseite und FAQ, gptzero.me (live abgerufen Juni 2026). Anbieter-Marketing: „99% accuracy“, Falsch-Positiv-Rate „1% of human texts as AI“. Deutsch in den FAQ als unterstützte Sprache genannt. Kostenloser Tarif mit 10.000 Wörtern pro Monat.↩
- [7]Winston AI, Eigenangabe auf der Startseite, gowinston.ai (live abgerufen Juni 2026). Anbieter-Marketing: „99,98% accuracy“. Keine isolierte Falsch-Positiv-Rate angegeben. 14 Sprachen inklusive Deutsch. Kostenloser Probezugang.↩
- [8]ZeroGPT, Eigenangaben, zerogpt.com (live abgerufen Juni 2026). Bewirbt ein „High Accuracy Model“ mit „DeepAnalyse“-Technologie, nennt aber keine konkrete Genauigkeitszahl. Kostenlos nutzbar plus kostenpflichtige Pläne. Mehrsprachig inklusive Deutsch. Nicht zu verwechseln mit GPTZero, das ist ein anderer Anbieter.↩
- [9]Copyleaks, Eigenangabe, „AI Content Detector“, copyleaks.com (live abgerufen Juni 2026). Anbieter-Marketing: „over 99% accuracy“, beruft sich dabei auf „independent third-party studies“. Über 30 Sprachen inklusive Deutsch, niedrige Falsch-Positiv-Rate für nicht-muttersprachliche Texte beworben. Kostenloser Tarif.↩
- [10]Turnitin Guides, „Turnitin’s AI writing detection capabilities FAQs“, guides.turnitin.com. Anbieter-Disclaimer: die KI-Erkennung solle nicht als alleinige Grundlage für Maßnahmen gegen Studierende dienen. Das Ziel von unter 1 Prozent Falsch-Positiven gilt nur für Dokumente, bei denen mindestens 20 Prozent des Textes als KI vorhergesagt werden. Turnitin wird nur institutionell lizenziert, nicht für den Einzelkauf.↩
- [11]Hadra, M., Cambridge, K., Mesbah, M., „Evaluating the accuracy and reliability of AI content detectors in academic contexts“, International Journal for Educational Integrity (Springer), 2. Februar 2026, DOI 10.1007/s40979-026-00213-1, link.springer.com. Peer-reviewte Drittmessung. Sample: 192 Texte, getestet Turnitin und Originality.ai. Gesamtgenauigkeit Originality.ai 0,69 gegenüber Turnitin 0,61, beide mit erheblicher Schwäche bei hybriden, also teils menschlich und teils KI-verfassten Texten.↩
- [12]Pudasaini, S., Miralles-Pechuán, L., Lillis, D., Llorens Salvador, M., „Why AI-Generated Text Detection Fails. Evidence from Explainable AI Beyond Benchmark Accuracy“, arXiv:2603.23146, 2026, arxiv.org/abs/2603.23146 (Preprint). Methodik: erklärbare KI auf den Benchmarks PAN-CLEF 2025 und COLING 2025, F1 0,9734 im eigenen Datensatz. Befund: Detektoren stützen sich auf datensatz-spezifische Stil-Artefakte statt auf stabile Autorschafts-Merkmale, daher massives Versagen bei Wechsel von Textsorte, Länge oder Domäne. Der kritischste Fehler im Bildungskontext sei das Falsch-Positiv.↩
- [13]Tufts, B., Zhao, X., Li, L., „A Practical Examination of AI-Generated Text Detectors“, Findings of NAACL 2025, aclanthology.org/2025.findings-naacl.271 (arXiv:2412.05139). Peer-reviewed. Befund bei der fairen Metrik Trefferquote bei 1 Prozent Falsch-Positiv-Rate: mehrere Detektoren fallen auf bis zu 0 Prozent. Eine niedrige Falsch-Positiv-Rate und eine hohe Trefferquote sind nicht gleichzeitig erreichbar, und schon moderate Veränderungen umgehen die Erkennung.↩
- [14]Perkins, M., Roe, J., Postma, D., McGaughran, J., Hickerson, D., „Detection of GPT-4 generated text in higher education“, International Journal for Educational Technology in Higher Education 21:31, 2024, DOI 10.1186/s41239-024-00487-w, arXiv:2403.19148, springeropen.com. Peer-reviewte Drittmessung. Die Erkennungsgenauigkeit fiel von 39,5 auf 17,4 Prozent, sobald einfache Verschleierungs-Techniken angewendet wurden, und rund 15 Prozent menschlicher Texte wurden fälschlich als KI markiert.↩
- [15]Turnitin Guides, „AI writing detection model“, Dokumentation der unterstützten Sprachen der KI-Erkennung (Englisch, Spanisch, Japanisch), andere Sprachen werden nicht verarbeitet, guides.turnitin.com.↩
- [16]Fiedler, A., Döpke, J., „Do humans identify AI-generated text better than machines? Evidence based on excerpts from German theses“, International Review of Economics Education 49:100321, 2025, DOI 10.1016/j.iree.2025.100321, Open Access. Peer-reviewte Drittmessung. 63 Lehrende beurteilten 19 menschliche und 19 ChatGPT-generierte deutsche Textauszüge. Getestete KI-Detektoren lagen nur knapp über Zufallsniveau (Fisher-Test p gleich 0,08).↩
- [17]Schaaff, K., Schlippe, T., Mindner, L., „Classification of human- and AI-generated texts for different languages and domains“, International Journal of Speech Technology 27:935–956, 2024, DOI 10.1007/s10772-024-10143-3, Konferenz-Vorversion ICNLSP 2023 arXiv:2312.04882. Peer-reviewed. Für deutsche Texte erreichte das eigene Klassifikationssystem 97 Prozent F1 bei von Grund auf KI-generierten Texten, aber nur 72 Prozent bei umgeschriebenen. Die Studie misst Accuracy und F1, KEINE isolierte Falsch-Positiv-Rate auf rein menschlichen deutschen Texten.↩
- [18]Queralt, M. T., Esparcia, A. J. et al., „AI, Human, or Hybrid? Reliability of AI Detection Tools in Multi-Authored Texts“, INTELETICA 2(4):102–114, 2025, DOI 10.4114/INTELETICA.vol2iss4pp102-114. Peer-reviewte Drittmessung. Sample: 180 spanische Texte (menschlich, KI, hybrid), getestet Originality.ai, GPTZero und Copyleaks. Befund: hybride Texte aus menschlicher und KI-Arbeit sind die generelle Schwachstelle, nicht-englische und gemischte Autorschaft erhöhen die Fehlerquote.↩
- [19]Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., Zou, J., „GPT detectors are biased against non-native English writers“, arXiv:2304.02819, 2023, arxiv.org/abs/2304.02819, peer-reviewed publiziert in Patterns (Cell Press) 4(7):100779, DOI 10.1016/j.patter.2023.100779. Sieben verbreitete Detektoren stuften im Schnitt 61,22 Prozent der englischen Texte von Nicht-Muttersprachlern fälschlich als KI ein, gegenüber 5,19 Prozent bei Muttersprachlern (Preprint-Werte; die Patterns-Fassung rundet auf 61,3 bzw. 5 Prozent).↩
- [20]Wang, Y. et al., „GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection“, Proceedings of the 1st Workshop on GenAI Content Detection, COLING 2025, arXiv:2501.11012, aclanthology.org. Peer-reviewter multilingualer Benchmark. Selbst Forschungs-Detektoren erreichen hohe Trefferquoten nur bei einer fixen 5-Prozent-Falsch-Positiv-Schwelle, und nicht-muttersprachliche Texte werden überproportional markiert.↩
- [21]Tlok, T., „Robuste Erkennung KI-generierter Texte in deutscher Sprache“, Masterarbeit im Studiengang Data Science und Artificial Intelligence, Fachhochschule Wedel, 2023, ki.fh-wedel.de. Für die Arbeit entstand der erste deutschsprachige Datensatz dieser Art aus rund 70.000 menschlichen und 70.000 KI-generierten Texten, der Detektor erreichte ein F1-Maß von 97,89 Prozent. Die KI-Texte des Datensatzes wurden laut Arbeit mit GPT-3.5 erzeugt, GPT-4, Claude und Bard wurden für die Datenproduktion ausdrücklich nicht herangezogen.↩
- [22]Detectora UG (Seevetal), „#1 KI-Detektor für deutsche Texte“, detectora.de (live abgerufen Juni 2026). Anbieter-Marketing: „98 % Genauigkeit“, als Beleg verlinkt der Anbieter die Masterarbeit des eigenen Tool-Entwicklers (Tlok, FH Wedel), nicht eine unabhängige Drittmessung. Die kostenlose Basis-Version erkennt GPT-3.5, moderne Modelle (GPT-4o, Claude 3.5, Gemini) erst im Pro-Tarif ab 11,90 Euro pro Monat. Verarbeitung laut Anbieter auf deutschen Azure-Servern.↩
- [23]Isgen Ltd (Großbritannien), KI-Detektor, isgen.ai (live abgerufen Juni 2026). Anbieter-Marketing: „96,4 % Genauigkeit“ über mehr als 80 Sprachen, als Eigen-Benchmark ohne verlinkte unabhängige Quelle. Betreiber-Angaben bleiben knapp, auf der Über-uns-Seite finden sich weder Gründungs- noch Standort-Details.↩
- [24]Weber-Wulff, D., Anohina-Naumeca, A., Bjelobaba, S., Foltýnek, T., Guerrero-Dib, J., Popoola, O., Šigut, P., Waddington, L., „Testing of detection tools for AI-generated text“, International Journal for Educational Integrity 19:26, 2023, DOI 10.1007/s40979-023-00146-z, Open Access, link.springer.com. Peer-reviewte Drittmessung von 12 frei verfügbaren Tools plus Turnitin und PlagiarismCheck. Befund: die Werkzeuge sind „weder genau noch zuverlässig“ und neigen dazu, Texte eher als menschlich einzustufen. Deutsche Texte wurden nur maschinenübersetzt geprüft, nicht im Original, der Befund gilt also nicht als Deutsch-Messung.↩
- [25]Vanderbilt University, Brightspace, „Guidance on AI Detection and Why We’re Disabling Turnitin’s AI Detector“, 16. August 2023, vanderbilt.edu. Rechnung der Universität: Bei Turnitins angegebener 1-Prozent-Falsch-Positiv-Rate und rund 75.000 im Jahr 2022 eingereichten Arbeiten wären etwa 750 studentische Arbeiten fälschlich markiert worden. Weitere Abschalt-Gründe: fehlende Transparenz und Bias gegen Nicht-Muttersprachler.↩
- [26]OpenAI, „New AI classifier for indicating AI-written text“, openai.com. Update vom 20. Juli 2023 auf derselben Seite: „As of July 20, 2023, the AI classifier is no longer available due to its low rate of accuracy.“ Zur Markteinführung im Januar 2023 nannte OpenAI dort nur 26 Prozent Trefferquote auf KI-Text und 9 Prozent Falsch-Positive auf menschlichem Text.↩
Häufige Fragen zum KI-Detektor-Vergleich
Über den Autor: Daniel M. Greiner
Gründer · Editor-in-Chief von ManuskriptMentor
Daniel Greiner gründete ManuskriptMentor 2025 als Plattform für wissenschaftliches Arbeiten. Mit M.A. und B.A. in Medienwissenschaft (Universität Siegen) und über zehn Jahren Führungserfahrung verantwortet er die redaktionellen Inhalte und prüft jeden Methodik-Artikel persönlich.
