Zum Hauptinhalt

Wozu noch selbst schreiben, wenn KI alles kann?

Daniel M. Greiner6. Juni 202618 Min. Lesezeit

KI schreibt die Hausarbeit, und die Detektoren erkennen es nicht zuverlässig. Warum trotzdem Ihre eigene, belegbare Leistung zählt, und wie Hochschulen das Prüfen gerade neu denken.

Eine Studentin steht an einem Whiteboard mit der Skizze eines Forschungsprozesses und erläutert ihre Arbeit zwei Zuhörenden, die mit einem Laptop am Tisch sitzen; im Hintergrund eine Fensterfront mit Bäumen.

Ein Sprachmodell kann heute eine ordentliche Hausarbeit in einer Sitzung erzeugen, und der Detektor, der das aufdecken soll, liegt regelmäßig daneben. Die übliche Reaktion ist, schärfer zu kontrollieren. Die produktivere ist, die Frage zu wechseln: nicht mehr, ob ein Text von einer KI stammt, sondern ob Sie hinter ihm stehen können.

Das Wichtigste in Kürze

  • Detektoren lösen das Problem nicht. Dass die Erkennung technisch, rechtlich und ökonomisch nicht trägt, ist im Detail an anderer Stelle belegt. Dieser Beitrag setzt dort an, was an ihre Stelle tritt.
  • Was kollabiert ist, ist der Stellvertreter. Das fertige Dokument galt als Beweis für Können. Wenn KI das Dokument liefert, misst die Bewertung nichts mehr.
  • KI verschiebt die Schwelle, statt sie abzuschaffen. Reproduktion und Erstentwurf sind Massenware geworden, eigene Daten, Methodik-Urteil und mündliche Verteidigung nicht.
  • Der Vorschlag ist ein Tausch: KI offen erlauben und KI-Kompetenz vermitteln, im Gegenzug die Anforderung auf echt eigenständige Arbeit heben, schon im Bachelor.

Die Detektor-Frage ist die falsche Frage

Die meiste Energie in der Debatte um KI im Studium fließt in eine einzige Frage: Stammt dieser Text von einer Maschine? Ganze Produkte, Verträge und Verdachtsverfahren hängen an ihr. Sie lässt sich nur leider nicht zuverlässig beantworten, und selbst wenn, wäre damit das eigentliche Problem nicht gelöst.

Dass KI-Detektoren auf realen Studi-Texten unzuverlässig sind, ehrliche Arbeiten fälschlich markieren, vor Gericht nur als Indiz taugen und einen Markt bedienen, der vom Misstrauen lebt, ist ausführlich dokumentiert. Wer die Belege im Einzelnen sehen will, findet sie im Überblick zu KI-Detektoren im Studium und in der Analyse, wer am Misstrauen verdient. Hier ist das die Ausgangslage, nicht das Thema.

Denn auch ein perfekter Detektor würde nur feststellen, womit ein Text entstanden ist, nicht ob die Person dahinter etwas gelernt hat. Genau das aber soll eine Prüfung messen. Die Fixierung auf die Herkunft des Texts verstellt den Blick auf die Frage, die zählt: Kann die oder der Studierende die Arbeit erklären, begründen und verteidigen?

Ein Detektor sagt Ihnen, womit ein Text entstand. Eine Prüfung sollte sagen, was ein Mensch kann.

Was kollabiert ist: der Stellvertreter, nicht die Prüfung

Eine schriftliche Arbeit war nie der Zweck einer Prüfung, sie war ein Stellvertreter. Wer eine gute Hausarbeit ablieferte, hatte vermutlich recherchiert, verstanden und formuliert. Der Wirtschaftsinformatiker Mark Spektor von der Universität Hamburg bringt die Lage auf einen Punkt: Der Proxy ist kollabiert[1]. Sobald ein Sprachmodell dasselbe Dokument erzeugt, beweist das Dokument nichts mehr.

Die Bewertungsforschung hatte denselben Befund schon vorher. Phillip Dawson und Kolleginnen argumentieren, die richtige Frage sei nicht, ob jemand getäuscht habe, sondern ob eine Prüfung überhaupt noch valide messe, was eine Person kann, wenn ein überzeugendes Produkt auch von einer Maschine stammen kann[2]. Eine Arbeitsgruppe um Igor Chirikov hat diese Verschiebung 2026 in der Fachzeitschrift Science zugespitzt: KI-Missbrauch sei zuerst ein Problem der Prüfungs-Validität, und das wiederum ein Problem für die Glaubwürdigkeit von Abschlüssen[3]. Die Frage der Täuschung ist nur die Oberfläche der Frage, ob ein Zeugnis noch etwas aussagt.

Die Lücke zwischen Regel und Struktur

Die deutschen Hochschulen haben auf die Lage reagiert, aber an der falschen Stelle. Nach dem KI-Monitor 2025 des Stifterverbands befassen sich 97 Prozent der Hochschulen mit dem Druck, den KI auf Prüfungen ausübt, und 87 Prozent haben ihre Eigenständigkeitserklärung angepasst. Die Prüfungsordnung, also das, was tatsächlich gefordert und bewertet wird, haben nur 43 Prozent angefasst[4]. Eine Analyse in Forschung & Lehre kommt zum gleichen Schluss: Kompetenzorientierte, KI-feste Prüfungsformate sind bislang kaum beschrieben[5].

Deutsche Hochschulen 2025: Regel angepasst, Struktur nicht
befassen sich mit dem Prüfungs-Druck durch KI97 %
haben die Eigenständigkeitserklärung angepasst87 %
haben die Prüfungsordnung angepasst43 %

Werte aus dem KI-Monitor 2025 des Stifterverbands. Die Norm wurde nachgeschärft, die Bewertungs-Struktur kaum.

Man hat also die Unterschrift verschärft, mit der Studierende ihre Eigenständigkeit versichern, und die Aufgabe gelassen, wie sie war. Das ist Symbolpolitik, kein Umbau. Die Mehrheit der Studierenden nutzt KI längst in einer Grauzone, irgendwo zwischen Rechtschreibhilfe und Mitformulieren, und kaum jemand deklariert das vollständig. Das ist weniger ein moralisches Versagen der Einzelnen als ein Konstruktionsfehler einer Bewertung, die noch immer am Endprodukt hängt.

Man hat die Unterschrift verschärft und die Aufgabe gelassen, wie sie war.

Belege (5)
  1. [1]Spektor, M. (Universität Hamburg, WiSo-Fakultät), „Die falsche Frage: Zur Neuarchitektur universitärer Prüfungsformate“, Fakultäts-Blog, 2. April 2026, dl-wiso.blogs.uni-hamburg.de. Sinngemäß: Integrität entstehe durch Prüfungsdesign, nicht durch forensische Algorithmen im Nachhinein; der fertige Text als Stellvertreter für Können sei kollabiert.
  2. [2]Dawson, P., Bearman, M., Dollinger, M., Boud, D., „Validity matters more than cheating“, Assessment & Evaluation in Higher Education 49(7), 2024, DOI 10.1080/02602938.2024.2386662, doi.org. Peer-reviewed. Argumentiert, dass die eigentliche Frage nicht „hat jemand getäuscht?“ ist, sondern ob eine Prüfung überhaupt noch valide misst, was die oder der Studierende kann, sobald ein fertiges Produkt auch von einer KI stammen kann.
  3. [3]Chirikov, I., Smirnov, I., Kizilcec, R. F., „Generative AI use and misuse call for assessment reform in higher education“, Science, 2026, DOI 10.1126/science.aec5115, doi.org. Peer-reviewed. Ordnet KI-Missbrauch als Problem der Prüfungs-Validität ein, das die Glaubwürdigkeit von Abschlüssen bedroht, und nennt drei Wege: kontrollierte Prüfung, klare Nutzungsregeln, professionelle Integration. Warnt zugleich, dass Reform Ungleichheit verschärfen kann.
  4. [4]Stifterverband & Heinz Nixdorf Stiftung, „KI-Monitor 2025“ (Erhebung Mai bis Juni 2025), Pressemitteilung 4. September 2025, stifterverband.org. 97 Prozent der befragten Hochschulen befassen sich mit den Auswirkungen von KI auf Prüfungen, 87 Prozent haben ihre Eigenständigkeitserklärung angepasst, aber nur 43 Prozent die Prüfungsordnung.
  5. [5]Albrecht, Borkowski, König, „Deutsche Hochschulen wagen erste Regulationsschritte“, Forschung & Lehre, 23. Juli 2024, forschung-und-lehre.de. Analyse von 14 deutschen Hochschulen: Bislang sind keine KI-basierten, kompetenzorientierten Prüfungsformate beschrieben, die Regelungen bleiben weitgehend formal statt strukturell.

Was KI mühelos kann, und was Ihre Leistung bleibt

Wenn die Antwort nicht schärfere Kontrolle ist, muss man wissen, wo die Grenze der Maschine tatsächlich verläuft. Sie verläuft nicht dort, wo viele sie vermuten. Reproduzieren, zusammenfassen, einen flüssigen Erstentwurf liefern: Das ist für ein gutes Sprachmodell heute Routine. Schwieriger wird es, je näher eine Aufgabe an originärer, situierter Eigenleistung liegt.

Eine Untersuchung in Educational and Psychological Measurement zeigt die Trennlinie an einem konkreten Fall. ChatGPT-4o erledigte die rein rechnerischen Schritte einer Datenauswertung zuverlässig, zeigte aber Verzerrungen, sobald die Aufgabe theoretisches Urteil verlangte[6]. Die Rechnung ist Massenware, das methodische Urteil darüber nicht. Eine Studie in PNAS Nexus fügt eine zweite Grenze hinzu: Über mehrere Kreativitäts-Tests hinweg war die Vielfalt der KI-Antworten deutlich geringer als die menschliche, die Modelle ähneln einander stärker, als Menschen einander ähneln[7]. Wer eine Maschine als Ko-Autor nutzt, driftet tendenziell zur Mitte, nicht zur eigenen Frage.

Was KI mühelos liefert

  • Wissen reproduzieren und zusammenfassen
  • Literatur referieren
  • einen flüssigen Erstentwurf liefern
  • generischen Code und Standard-Formulierungen

Was Ihre Eigenleistung bleibt

  • eigene Daten erheben und auswerten
  • eine Methodik begründen und gegen Alternativen abwägen
  • eine bestehende Studie replizieren
  • die eigene Argumentation im Gespräch verteidigen

Aus dieser Trennlinie folgt, was eine Arbeit auch in einer Welt mit KI zu einer Eigenleistung macht. Drei Dinge bleiben dort, wo die Maschine nicht für Sie einspringt: eine eigene Datenerhebung, eine echte Replikation und die mündliche Verteidigung jeder einzelnen Argumentationsfigur.

Eine Einschränkung gehört dazu, weil sie oft zu schnell behauptet wird. Dass KI bei den höheren Stufen des Denkens, also beim Analysieren, Bewerten und Erschaffen, grundsätzlich schwach sei, ist in der didaktischen Literatur ein verbreitetes Argument, aber kein sauber gemessener Befund. Belastbar ist das Engere: Berechnung ist automatisiert, situiertes Urteil und originäre Empirie sind es nicht.

Je näher eine Aufgabe an eigener Empirie liegt, desto weniger nimmt die Maschine sie Ihnen ab.

Belege (2)
  1. [6]Koçak, D., „Examination of ChatGPT's Performance as a Data Analysis Tool“, Educational and Psychological Measurement 85(4), 2025, DOI 10.1177/00131644241302721, doi.org. Peer-reviewed. ChatGPT-4o lieferte gute Ergebnisse bei rein rechnerischen Schritten ohne Bewertungsspielraum, zeigte aber Verzerrungen, sobald die Aufgabe theoretisches Urteil verlangte. Berechnung ist automatisierbar, methodisches Urteil nicht.
  2. [7]Wenger, E., Kenett, Y. N., „Large language models are homogeneously creative“, PNAS Nexus 5(3), 2026, DOI 10.1093/pnasnexus/pgag042, doi.org. Peer-reviewed. Über drei Kreativitäts-Tests und 22 Modelle gegen 102 Menschen lag die Vielfalt der KI-Antworten deutlich unter der menschlichen; KI-Ausgaben ähneln einander stärker, als Menschen einander ähneln.

KI-Kompetenz ist nicht vage, sie ist ausbuchstabiert

Die erste Hälfte des Tauschs heißt: KI nicht verbieten, sondern den kompetenten Umgang mit ihr vermitteln. Der häufigste Einwand dagegen ist, KI-Kompetenz sei ein Schlagwort ohne Inhalt. Das stimmt nicht mehr. Mehrere benannte Frameworks definieren sie konkret, und sie überschneiden sich in ihrem Kern.

Die meistzitierte wissenschaftliche Definition von Long und Magerko fasst KI-Kompetenz als die Fähigkeit, KI kritisch zu bewerten, mit ihr zu kommunizieren und sie als Werkzeug einzusetzen[8]. Die UNESCO-Leitlinie zu generativer KI hält ausdrücklich fest, man müsse neu denken, was gelernt und wie es geprüft werde, und nennt die kritische Bewertung von KI-Ausgaben als künftiges Lernziel[9]. Und der Stifterverband führt AI Literacy in seinem Framework für Zukunftskompetenzen als eigene Kompetenz: KI verstehen, produktiv nutzen und Chancen wie Risiken kritisch hinterfragen[10].

Übersetzt in den Studi-Alltag heißt das fünf konkrete Dinge:

  1. Verstehen, wie das Werkzeug arbeitet. Ein Sprachmodell sagt das wahrscheinlichste nächste Wort voraus, es ruft keine Datenbank ab. Deshalb klingt eine erfundene Quelle so echt wie eine reale.
  2. Ergebnisse kritisch prüfen, statt sie zu übernehmen, gerade dort, wo sie plausibel wirken.
  3. Quellen und Fakten verifizieren, jede Angabe selbst nachschlagen, bevor sie in die Arbeit wandert.
  4. Verzerrungen erkennen, sowohl im Output des Modells als auch in den eigenen Annahmen beim Prompten.
  5. Die eigene Nutzung offenlegen, transparent statt verdeckt.

Das ist keine ferne Vision. Seit dem 2. Februar 2025 verpflichtet Artikel 4 der EU-KI-Verordnung Betreiber von KI-Systemen, und damit auch Hochschulen, ein ausreichendes Niveau an KI-Kompetenz sicherzustellen[11]. Eine Hochschule, die lieber überwacht als bildet, ist damit eher im Widerspruch zu ihrer eigenen Pflicht als auf der sicheren Seite.

Kompetenz heißt nicht, KI zu meiden, sondern ihr nicht blind zu glauben.

Belege (4)
  1. [8]Long, D., Magerko, B., „What is AI Literacy? Competencies and Design Considerations“, Proceedings der CHI 2020, DOI 10.1145/3313831.3376727, doi.org. Peer-reviewed, meistzitierte Definition. KI-Kompetenz ist die Fähigkeit, KI-Technologien kritisch zu bewerten, mit ihnen zu kommunizieren und sie als Werkzeug einzusetzen, gefasst in 17 Kompetenzen.
  2. [9]Miao, F., Holmes, W. (UNESCO), „Guidance for generative AI in education and research“, 2023, unesco.org. Intergouvernementale Leitlinie. Hält in der Sektion zu Prüfung fest, dass man angesichts generativer KI neu denken müsse, was genau gelernt und wie es geprüft und validiert wird, und nennt die kritische Bewertung von KI-Ausgaben als künftiges Lernziel.
  3. [10]Stifterverband, „Future Skills 2030. Ein aktualisiertes Framework für Zukunftskompetenzen“, 16. Dezember 2025, stifterverband.org (PDF). Führt „AI Literacy“ als eigene digitale Zukunftskompetenz: die Fähigkeit, KI und ihre Anwendung zu verstehen, KI-Systeme produktiv zu nutzen und Chancen und Risiken kritisch zu hinterfragen.
  4. [11]Verordnung (EU) 2024/1689 (KI-Verordnung), Artikel 4 „KI-Kompetenz“, in Kraft seit 2. Februar 2025, mit Operationalisierung über die FAQ der Europäischen Kommission, artificialintelligenceact.eu. Betreiber von KI-Systemen, also auch Hochschulen, müssen ein ausreichendes Niveau an KI-Kompetenz bei ihrem Personal sicherstellen. Die Pflicht gilt seit Februar 2025, die Durchsetzung greift ab 2. August 2026.

Der neue Weg: offene KI gegen echte Eigenleistung

Wenn das Endprodukt als Beweis ausfällt, gibt es zwei Stellschrauben. Die eine ist die Form der Prüfung, die andere ihr Anspruch. Beide zusammen ergeben einen Tausch, der das Wettrüsten zwischen Detektoren und Umgehungswerkzeugen beendet, statt es weiterzudrehen.

Erstens: die Prüfung sichern, nicht den Text kontrollieren

Phillip Dawson hat dafür den Begriff der assessment security geprägt, der Prüfungs-Sicherheit. Eine Prüfung wird nicht dadurch verteidigt, dass man das fertige Dokument überwacht, sondern durch ein Design, dessen Aussagekraft gar nicht davon abhängt, ob jemand die KI-Regeln befolgt hat[12]. Seine Gruppe nennt das den Unterschied zwischen diskursiven und strukturellen Änderungen: Regeln rund um die Aufgabe zu formulieren ist billig, die Aufgabe selbst umzubauen ist die eigentliche Arbeit[13]. Die Universität Sydney hat das in ein praktikables Modell übersetzt: In einer Spur werden Kompetenzen betreut oder mündlich gesichert, in der anderen ist KI offen erlaubt[14].

Damit aus dieser Spur kein starres Entweder-Oder wird, hilft ein Werkzeug, das die Grenze abstuft, statt sie zu verbieten. Die AI Assessment Scale von Mike Perkins und Kolleginnen legt pro Aufgabe eine von fünf Stufen fest, von „keine KI“ bis „KI-Exploration“, und ist inzwischen in über 30 Sprachen im Einsatz[15].

Erlauben statt verbieten, abgestuft: die AI Assessment Scale
  1. 1Keine KI. Leistung ohne KI, kontrolliert erbracht
  2. 2KI-Planung. KI für Recherche und Ideen, Ausarbeitung selbst
  3. 3KI-Kollaboration. KI für Entwurf und Feedback, kritisch geprüft und überarbeitet
  4. 4Volle KI. KI darf alles erledigen, Sie steuern und urteilen
  5. 5KI-Exploration. KI kreativ für neue Einsichten, gemeinsam gestaltet

Statt Verbot oder Freigabe legt die Lehrperson pro Aufgabe eine Stufe fest. Das macht die Grenze sichtbar, ohne KI zu kriminalisieren.

Zweitens: den Anspruch auf das heben, was KI nicht kann

Das ist der Teil, den die internationale Debatte meist auslässt, und der für den deutschsprachigen Raum noch kaum ausgesprochen ist. Sydney erkauft die offene KI mit mehr gesicherten Prüfungen, also mit mehr Kontrolle. Der hier vorgeschlagene Tausch zielt auf den Inhalt: Im Gegenzug für die erlaubte KI steigt der Anspruch auf das, was eine Maschine strukturell nicht leisten kann, schon in der Bachelorarbeit. Eine reine Literaturzusammenfassung erfüllt diese Schwelle nicht mehr, eine eigene kleine Erhebung, eine begründete Methodenwahl oder eine Replikation schon. Dass Studierende solche Forschungsbeiträge leisten können, ist nicht graue Theorie: Über elf Jahre hinweg haben Studierende in Replikationsprojekten echte, methodisch belastbare Forschungsarbeit geleistet[16].

Hinter dem Tausch steht ein Verständnis von Integrität, das Sarah Elaine Eaton in sechs Thesen gefasst hat. Ihr Kern: Menschen können die Kontrolle an eine KI abgeben, nicht aber die Verantwortung für das Ergebnis[17]. Genau das ist der Maßstab. Nicht, ob KI im Spiel war, sondern ob Sie für die Arbeit geradestehen können. Das ist mit „belegbarer Eigenleistung“ gemeint: nicht der Text beweist Ihre Leistung, sondern dass Sie hinter ihm stehen.

Sie dürfen die Kontrolle an die KI abgeben. Die Verantwortung bleibt bei Ihnen.

Belege (6)
  1. [12]Dawson, P., „Defending Assessment Security in a Digital World“, Routledge, 2021, DOI 10.4324/9780429324178. Prägt den Begriff der „assessment security“ (Prüfungs-Sicherheit) als eigenständiges Konzept neben Integrität: Man verteidigt eine Prüfung nicht über Kontrolle des fertigen Texts, sondern über ein Design, dessen Aussagekraft nicht davon abhängt, ob Regeln eingehalten wurden.
  2. [13]Corbin, T., Dawson, P., Liu, D., „Talk is cheap: why structural assessment changes are needed for a time of GenAI“, Assessment & Evaluation in Higher Education 50(7), 2025, DOI 10.1080/02602938.2025.2503964, doi.org. Peer-reviewed. Unterscheidet diskursive Änderungen (Regeln rund um die Aufgabe) von strukturellen (die Aufgabe so bauen, dass ihre Aussagekraft nicht davon abhängt, ob die KI-Regeln befolgt wurden).
  3. [14]Liu, D., Bridgeman, A. (University of Sydney), „What to do about assessments if we can't out-design or out-run AI?“, Teaching@Sydney, 2023, educational-innovation.sydney.edu.au. Das „Zwei-Spuren“-Modell: Spur 1 sichert das Lernen über betreute, mündliche oder beaufsichtigte Prüfungen, Spur 2 erlaubt KI offen für lernorientierte Aufgaben. Seit 2025 Standard an der Universität Sydney.
  4. [15]Perkins, M., Furze, L., Roe, J., MacVaugh, J., „The Artificial Intelligence Assessment Scale (AIAS)“, Journal of University Teaching & Learning Practice 21(6), 2024, DOI 10.53761/q3azde36, doi.org. Peer-reviewed. Eine fünfstufige Skala von „keine KI“ über „KI-Planung“, „KI-Kollaboration“ und „volle KI“ bis „KI-Exploration“, in über 30 Sprachen adaptiert, die KI nicht verbietet, sondern pro Aufgabe transparent abstuft.
  5. [16]Boyce, V. et al. (Collaborative Replications and Education Project), „Eleven years of student replication projects provide evidence on the correlates of replicability in psychology“, Royal Society Open Science 10(11), 2023, DOI 10.1098/rsos.231240, doi.org. Peer-reviewed. Dokumentiert über elf Jahre, dass Studierende echte Replikationen durchführen können; eine Replikationsstudie ist damit ein realistisches Bachelor-Format. Die Studie zeigt zugleich, dass die Reproduzierbarkeit insgesamt nur mäßig ausfällt.
  6. [17]Eaton, S. E., „Postplagiarism: transdisciplinary ethics and integrity in the age of artificial intelligence and neurotechnology“, International Journal for Educational Integrity 19(23), 2023, DOI 10.1007/s40979-023-00144-1, doi.org. Peer-reviewed. Hält fest, dass Menschen die Kontrolle an KI abgeben können, nicht aber die Verantwortung, und dass Quellenangabe und Eigenverantwortung bestehen bleiben.

Wenn die Abschlussarbeit aufhört, eine Pflichtübung zu sein

Die klassische Abschlussarbeit reproduziert vorhandenes Wissen, wird einmal bewertet und danach selten wieder geöffnet. Genau hier liegt die Chance des höheren Anspruchs. Verlangt eine Arbeit eine eigene Frage und einen eigenen Befund, entsteht etwas, das über die Note hinaus Bestand hat, für die Studierende wie für das Fach.

Für die Studierende verschiebt sich, woran sie arbeiten. Statt Vorhandenes zusammenzufassen, erheben sie eigene Daten, begründen eine Methode und führen eine Argumentation, für die sie geradestehen. Das übt genau die Fähigkeiten, auf die es später in Forschung und Beruf ankommt. Im besten Fall steht am Ende ein Ergebnis, das einer Veröffentlichung näher ist als einer Prüfungsleistung, und das in einer Bewerbung mehr wiegt als eine Note über ein längst vergessenes Thema.

Der Effekt bleibt nicht beim Einzelnen. Richtet ein ganzer Jahrgang seine Abschlussarbeiten auf echte Beiträge aus, summiert sich das zu einer Forschungsleistung, die heute weitgehend ungenutzt verfällt. Aus Zehntausenden Arbeiten, die in der Schublade verschwinden, würden belastbare kleine Beiträge, von denen Lehre und Forschung profitieren.

Die KI erzwingt eine Reform, die ohnehin überfällig war.

Was am Ende zählt: Wissen schaffen, nicht KI vermeiden

Wer KI für die Recherche nutzt, tut im Grunde, was Buchhalter seit Jahrzehnten mit dem Taschenrechner tun: Er überlässt die mechanische Arbeit dem Werkzeug und behält den Kopf für das Eigentliche frei. Sobald das akzeptiert ist, ändert sich, was eine Prüfung sinnvoll messen kann. Nicht mehr, ob jemand ohne Hilfsmittel geschrieben hat, sondern ob er forschen kann.

Diese Debatte ist nicht neu. Als Taschenrechner in den 1970er-Jahren in die Mathematik-Klassenzimmer kamen, fürchteten viele, die Grundfertigkeiten gingen verloren. Der damalige Präsident des US-amerikanischen Mathematiklehrer-Verbands warnte, die Schüler könnten verlernen, selbst zu denken[18]. Durchgesetzt hat sich am Ende nicht das Verbot, sondern das Werkzeug, und mit ihm ein Unterricht, der weniger auf das reine Rechnen und mehr auf das Verstehen zielte. Vor derselben Wahl steht die Hochschule heute.

Welche Kompetenz das Studium damit belohnt, lässt sich am Arbeitsmarkt ablesen. Im Future of Jobs Report 2025 des Weltwirtschaftsforums steht der kompetente Umgang mit KI und Daten an der Spitze der am schnellsten wachsenden Fähigkeiten. Zugleich gewinnen Neugier, kreatives Denken und lebenslanges Lernen weiter an Bedeutung[19]. Die besseren Aussichten hat nicht, wer nachweisen kann, ohne KI gearbeitet zu haben, sondern wer sie sicher beherrscht und ihre Grenzen kennt.

Dahinter steht eine grundsätzliche Grenze. Ein Sprachmodell setzt fort, was wahrscheinlich ist. Es kann Vorhandenes umordnen und glatt formulieren, aber es stellt keine eigene Frage und zieht keinen Schluss, den nicht zuvor ein Mensch gedacht hat. Ihm fehlen Neugier und Erfahrung, aus denen neue Erkenntnis entsteht. Es hat, für sich genommen, nichts zu sagen. Neues Wissen zu schaffen ist die Aufgabe, die keine Maschine übernimmt, und sie ist der eigentliche Kern wissenschaftlicher Arbeit.

Eine KI kann eine Arbeit schreiben. Wissen schaffen kann sie nicht.

Belege (2)
  1. [18]„A Historical Analysis of Attitudes Toward the Use of Calculators in Junior High and High School Math Classrooms in the United States Since 1975“, ERIC-Dokument ED525547, eric.ed.gov, ergänzt um die Empfehlung des National Council of Teachers of Mathematics (NCTM) von 1980, Programme sollten den Taschenrechner voll nutzen. Dokumentiert die Debatte seit Mitte der 1970er: Viele fürchteten, der Taschenrechner untergrabe die Grundfertigkeiten; der damalige NCTM-Präsident Stephen Willoughby sorgte sich 1985, Schüler könnten verlernen, selbst zu denken. Durchgesetzt hat sich die Akzeptanz des Werkzeugs bei gleichzeitiger Verschiebung auf höhere Kompetenzen.
  2. [19]World Economic Forum, „Future of Jobs Report 2025“ (Befragung von über 1.000 Arbeitgebern in 55 Volkswirtschaften), Januar 2025, weforum.org. Der kompetente Umgang mit KI und Daten („AI and big data“) steht an der Spitze der am schnellsten wachsenden Kompetenzen. Im selben Report zählen Neugier, kreatives Denken und lebenslanges Lernen zu den menschlichen Kompetenzen, die weiter an Bedeutung gewinnen.

Keine Theorie: wer den Umbau schon begonnen hat

Der Eindruck, das sei eine Außenseiterposition, täuscht. Im deutschsprachigen Raum bewegt sich der Fachdiskurs längst in diese Richtung, getragen von den Häusern, die den Hochschulbetrieb kennen.

Das Hochschulforum Digitalisierung, die zentrale Stelle für digitale Hochschulbildung in Deutschland, nennt KI-Detektoren in seinem Diskussionspapier zu Abschlussarbeiten eine Sackgasse und formuliert als These, der Fokus der Bewertung müsse von Kontrolle zu Befähigung wechseln, es brauche einen Paradigmenwechsel[20]. Die Universität Graz stellt Lehrenden eine Orientierungshilfe bereit, die sechs Strategien gegenüberstellt, das Verbot ausdrücklich als nicht sinnvoll verwirft und stattdessen einen Katalog kompetenzorientierter Prüfungsformate anbietet[21]. Und der Wissenschaftsrat, das wichtigste wissenschaftspolitische Beratungsgremium des Landes, hat eine Arbeitsgruppe zu KI in der Hochschulbildung eingesetzt, die genau dieser Frage nachgeht und 2026 Handlungsempfehlungen erarbeitet[22].

Die Bewegung reicht über den deutschsprachigen Raum hinaus. Australische Hochschulen haben den Umbau über einen eigenen Regulierer institutionalisiert, die ETH Zürich stellt Studierenden eigene KI-Werkzeuge bereit und setzt KI selbst in der Bewertung ein, und mehrere Häuser von Sydney bis Lund haben ihre Politik ausdrücklich von „gegen KI“ zu „mit KI“ verschoben. Auffällig ist, dass viele dieser Schritte aus den Hochschulen selbst kommen. Wer täglich prüft, kennt die Schwächen der Detektoren am besten.

Was hier als Vorschlag steht, ist anderswo längst Prüfungsalltag.

Belege (3)
  1. [20]Weßels, D., Bils, A., Budde, J., „Wissenschaftliche Abschlussarbeiten im KI-Zeitalter“, Hochschulforum Digitalisierung, Diskussionspapier Nr. 38, Oktober 2025, hochschulforumdigitalisierung.de (PDF). Bezeichnet KI-Detektoren als Sackgasse und formuliert als These: Der Fokus der Bewertung muss von Kontrolle zu Befähigung wechseln, es bedarf eines Paradigmenwechsels.
  2. [21]Universität Graz, Zentrum für Lehrkompetenz, „Prüfungsdesign und KI: eine Orientierungshilfe für Lehrende“, Dezember 2024, uni-graz.at (PDF). Stellt sechs Strategien gegenüber, von Ignorieren über Verbieten bis Integrieren und Adaptieren, verwirft das Verbot ausdrücklich als nicht sinnvoll und listet einen Katalog kompetenzorientierter Prüfungsformate.
  3. [22]Wissenschaftsrat, Arbeitsgruppe „Künstliche Intelligenz in der Hochschulbildung“ (Arbeitsprogramm Januar bis Juli 2026), wissenschaftsrat.de (PDF). Hält fest, dass KI bereits zu Anpassungen der Prüfungsformen geführt hat, und erarbeitet derzeit Handlungsempfehlungen, welche Anforderungen an Lehr-, Lern- und Prüfungsformate daraus folgen. Die Empfehlungen sind noch nicht erschienen.

Drei ehrliche Einwände, die man nicht wegwischen sollte

Ein Vorschlag taugt nur so viel wie die Einwände, die er aushält. Drei sind stark genug, dass man sie ernst nehmen muss, statt sie zu übergehen.

„Auch authentische Prüfungen sind nicht KI-sicher“

Das stimmt. Eine Untersuchung an zwei britischen Hochschulen zeigte, dass Bewertende KI-beeinflusste Arbeiten nicht zuverlässig erkennen und dass authentische Aufgaben allein nicht vor KI-Manipulation schützen[23]. Die Folgerung ist deshalb nicht, eine Aufgabe „authentisch“ zu nennen und sich in Sicherheit zu wiegen. Sie ist, die Bewertung auf das zu verlagern, was die KI nicht liefert: das methodische Urteil und die Verteidigung im Gespräch. Authentizität ohne Rechenschaft ist ein beruhigendes Etikett, kein Schutz.

„Das ist zu starr und benachteiligt manche Studierende“

Auch dieser Einwand trifft einen wunden Punkt. Guy Curtis warnt, ein striktes Entweder-Oder von KI-frei und KI-voll sei nicht haltbar und verarme die Lehre, die Wirklichkeit sei ein Spektrum[24]. Genau deshalb steht hier die abgestufte Skala und nicht das Verbot. Der zweite Teil der Sorge betrifft mündliche Prüfungen, die Redegewandtheit statt Wissen messen könnten. Die Daten relativieren das: In einer Studie mit mündlichen Eins-zu-eins-Prüfungen stiegen die Noten, ohne signifikante Nachteile nach Geschlecht, internationalem Status oder Sprachhintergrund[25]. Entscheidend ist die Form: Eine strukturierte, für alle gleiche Fragenfolge ist nachweislich gerechter als ein freies Gespräch[26]. Mündlich ist nicht automatisch fair, aber fair machbar.

„Wozu der Aufwand, wenn ohnehin alle KI nutzen?“

Weil der bequemere Weg etwas kostet, das sich erst spät zeigt. Eine Befragung von 666 Personen fand einen negativen Zusammenhang zwischen häufiger KI-Nutzung und kritischem Denken, vermittelt über das Auslagern des Denkens an die Maschine[27]. Dieser Befund ist korrelativ und beruht auf Selbstauskunft, er beweist keine Ursache. Zusammen mit ähnlichen Hinweisen aus anderen Studien ergibt sich aber ein konsistentes Bild: Wer das Denken dauerhaft abgibt, verliert die Fähigkeit, die eine Prüfung eigentlich sichern soll. Ein höherer Anspruch ist keine Schikane, sondern der Versuch, genau das zu schützen.

Ein Vorschlag taugt so viel wie die Einwände, die er aushält.

Belege (5)
  1. [23]Kofinas, A. K., Tsay, C. H.-H., Pike, D., „The impact of generative AI on academic integrity of authentic assessments within a higher education context“, British Journal of Educational Technology 56(6), 2025, DOI 10.1111/bjet.13585, doi.org. Peer-reviewed. Experimente an zwei britischen Hochschulen: Bewertende konnten KI-beeinflusste Arbeiten nicht zuverlässig erkennen, und authentische Prüfungsformate allein schützen nicht vor KI-Manipulation.
  2. [24]Curtis, G. J., „The two-lane road to hell is paved with good intentions“, Higher Education Research & Development 44(8), 2025, DOI 10.1080/07294360.2025.2476516, doi.org. Peer-reviewed. Kritik an einem starren Entweder-Oder von KI-frei und KI-voll: Die Realität sei ein Spektrum, ein rigides Zwei-Spuren-Denken sei nicht haltbar und verarme die Lehre. Wird hier als Gegenstimme zitiert.
  3. [25]Davey, S. K., Birbeck, D., Nallaya, S., Sallows, G., Della Vedova, C. B., „Utilising one-on-one interactive oral assessments as the major final assessment within a bioscience course“, Assessment & Evaluation in Higher Education 50(7), 2025, DOI 10.1080/02602938.2025.2502577, doi.org. Peer-reviewed. Nach Einführung einer mündlichen Eins-zu-eins-Prüfung stiegen die Noten, und es gab keine signifikanten Unterschiede nach Geschlecht, internationalem Status oder Sprachhintergrund.
  4. [26]Imran, M., Doshi, C., Kharadi, D., „Structured and unstructured viva voce assessment: A double-blind, randomized, comparative evaluation“, International Journal of Health Sciences 13(2), 2019, PMID 30983939, pmc.ncbi.nlm.nih.gov. Peer-reviewed. Eine strukturierte, für alle gleiche mündliche Prüfung war trennschärfer und galt als gleichmäßiger und unvoreingenommener als eine unstrukturierte. Mündlich ist nicht automatisch fair, die Struktur entscheidet.
  5. [27]Gerlich, M., „AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking“, Societies 15(1):6, 2025, DOI 10.3390/soc15010006, doi.org. Peer-reviewed (mit späterer Korrektur). Befragung von 666 Personen: häufige Nutzung von KI-Werkzeugen korreliert negativ mit kritischem Denken, vermittelt über kognitive Auslagerung. Korrelativ und auf Selbstauskunft beruhend, kein Kausalbeleg.

Was das für Sie heißt, bevor die Reform durch ist

Die Prüfungsordnungen werden sich nicht über Nacht ändern. Bis dahin sitzen Sie zwischen einer Regel, die das fertige Dokument bewertet, und einer Realität, in der KI mitschreibt. Aus dem Gesagten folgt eine Haltung, die Sie heute schon schützt, unabhängig davon, wie weit Ihre Hochschule ist.

  • Machen Sie die Arbeit inhaltlich zu Ihrer eigenen. Eigene Daten erheben, die Methode selbst wählen und begründen, eigene Schlüsse ziehen: Das ist die Substanz, die eine KI nicht für Sie liefert.
  • Können Sie Ihre Ergebnisse erklären und verteidigen. Was Sie im Gespräch selbst herleiten, begründen und gegen Rückfragen halten, ist der überzeugendste Beleg Ihrer Leistung.
  • Legen Sie Ihre KI-Nutzung offen, wo Ihre Prüfungsordnung es erlaubt. Transparenz schützt meist besser als das Verstecken.

Der letzte Punkt ist nicht nur ein Ratschlag, er hat eine rechtliche Kehrseite. Im bislang deutlichsten DACH-Fall, dem Urteil des Verwaltungsgerichts Kassel von 2026, war nicht die KI-Nutzung an sich der Anker, sondern dass sie ungekennzeichnet blieb, rechtlich wie Ghostwriting eingeordnet. Aufgefallen sind die Arbeiten nicht über einen Detektor, sondern über falsche Quellenangaben und stilistische Brüche[28]. Welche Sanktion folgt, hängt von Prüfungsordnung und Einzelfall ab. Die Lehre daraus ist dieselbe wie der ganze Beitrag: Es zählt, ob Sie für Ihre Arbeit geradestehen können.

Wenn Sie genau an diesem Punkt Sicherheit suchen, etwa bei der Methodik, der eigenen Erhebung oder der Vorbereitung auf die Verteidigung, bekommen Sie sie in einer kostenlosen Methodik-Beratung, die an der Substanz arbeitet, nicht an der Tarnung eines Scores.

Belege (1)
  1. [28]Verwaltungsgericht Kassel, Urteil vom 25. Februar 2026, Az. 7 K 2134/24.KS, dokumentiert über die Pressemitteilung der hessischen Verwaltungsgerichtsbarkeit, verwaltungsgerichtsbarkeit.hessen.de. Ungekennzeichnete KI-Nutzung wird rechtlich wie Ghostwriting als Täuschung eingeordnet; aufgefallen sind die Arbeiten nicht über einen Detektor-Score, sondern über falsche Quellenangaben und stilistische Brüche. Welche Sanktion folgt, hängt von Prüfungsordnung und Einzelfall ab; das Verfahren ist nicht rechtskräftig.

Fazit

Die Frage, ob ein Text von einer KI stammt, führt in eine Sackgasse, weil sie sich weder zuverlässig beantworten lässt noch das Eigentliche trifft. Was eine Prüfung sichern soll, ist nicht die Herkunft eines Dokuments, sondern das Können dahinter. Sobald die Maschine das Dokument liefern kann, verschiebt sich der Wert vom Produkt zu dem, wofür Sie geradestehen können.

Der tragfähige Weg ist deshalb kein schärferer Detektor, sondern ein Tausch: KI offen erlauben und den kompetenten Umgang mit ihr vermitteln, im Gegenzug die Anforderung auf das heben, was eine KI strukturell nicht leisten kann, eigene Daten, begründete Methodik, die Verteidigung im Gespräch. Das ist kein fertiges System und es kostet etwas, an Aufwand wie an Sorgfalt für diejenigen, die mehr Begleitung brauchen. Aber es führt aus dem Wettrüsten heraus, statt es zu verschärfen. Und es lässt Ihnen am Ende das, worauf es im Studium ankommt: eine Arbeit, die nachweisbar Ihre ist.

Alle Quellen & Referenzen (28)
  1. Spektor, M. (Universität Hamburg, WiSo-Fakultät), „Die falsche Frage: Zur Neuarchitektur universitärer Prüfungsformate“, Fakultäts-Blog, 2. April 2026, dl-wiso.blogs.uni-hamburg.de. Sinngemäß: Integrität entstehe durch Prüfungsdesign, nicht durch forensische Algorithmen im Nachhinein; der fertige Text als Stellvertreter für Können sei kollabiert.
  2. Dawson, P., Bearman, M., Dollinger, M., Boud, D., „Validity matters more than cheating“, Assessment & Evaluation in Higher Education 49(7), 2024, DOI 10.1080/02602938.2024.2386662, doi.org. Peer-reviewed. Argumentiert, dass die eigentliche Frage nicht „hat jemand getäuscht?“ ist, sondern ob eine Prüfung überhaupt noch valide misst, was die oder der Studierende kann, sobald ein fertiges Produkt auch von einer KI stammen kann.
  3. Chirikov, I., Smirnov, I., Kizilcec, R. F., „Generative AI use and misuse call for assessment reform in higher education“, Science, 2026, DOI 10.1126/science.aec5115, doi.org. Peer-reviewed. Ordnet KI-Missbrauch als Problem der Prüfungs-Validität ein, das die Glaubwürdigkeit von Abschlüssen bedroht, und nennt drei Wege: kontrollierte Prüfung, klare Nutzungsregeln, professionelle Integration. Warnt zugleich, dass Reform Ungleichheit verschärfen kann.
  4. Stifterverband & Heinz Nixdorf Stiftung, „KI-Monitor 2025“ (Erhebung Mai bis Juni 2025), Pressemitteilung 4. September 2025, stifterverband.org. 97 Prozent der befragten Hochschulen befassen sich mit den Auswirkungen von KI auf Prüfungen, 87 Prozent haben ihre Eigenständigkeitserklärung angepasst, aber nur 43 Prozent die Prüfungsordnung.
  5. Albrecht, Borkowski, König, „Deutsche Hochschulen wagen erste Regulationsschritte“, Forschung & Lehre, 23. Juli 2024, forschung-und-lehre.de. Analyse von 14 deutschen Hochschulen: Bislang sind keine KI-basierten, kompetenzorientierten Prüfungsformate beschrieben, die Regelungen bleiben weitgehend formal statt strukturell.
  6. Koçak, D., „Examination of ChatGPT's Performance as a Data Analysis Tool“, Educational and Psychological Measurement 85(4), 2025, DOI 10.1177/00131644241302721, doi.org. Peer-reviewed. ChatGPT-4o lieferte gute Ergebnisse bei rein rechnerischen Schritten ohne Bewertungsspielraum, zeigte aber Verzerrungen, sobald die Aufgabe theoretisches Urteil verlangte. Berechnung ist automatisierbar, methodisches Urteil nicht.
  7. Wenger, E., Kenett, Y. N., „Large language models are homogeneously creative“, PNAS Nexus 5(3), 2026, DOI 10.1093/pnasnexus/pgag042, doi.org. Peer-reviewed. Über drei Kreativitäts-Tests und 22 Modelle gegen 102 Menschen lag die Vielfalt der KI-Antworten deutlich unter der menschlichen; KI-Ausgaben ähneln einander stärker, als Menschen einander ähneln.
  8. Long, D., Magerko, B., „What is AI Literacy? Competencies and Design Considerations“, Proceedings der CHI 2020, DOI 10.1145/3313831.3376727, doi.org. Peer-reviewed, meistzitierte Definition. KI-Kompetenz ist die Fähigkeit, KI-Technologien kritisch zu bewerten, mit ihnen zu kommunizieren und sie als Werkzeug einzusetzen, gefasst in 17 Kompetenzen.
  9. Miao, F., Holmes, W. (UNESCO), „Guidance for generative AI in education and research“, 2023, unesco.org. Intergouvernementale Leitlinie. Hält in der Sektion zu Prüfung fest, dass man angesichts generativer KI neu denken müsse, was genau gelernt und wie es geprüft und validiert wird, und nennt die kritische Bewertung von KI-Ausgaben als künftiges Lernziel.
  10. Stifterverband, „Future Skills 2030. Ein aktualisiertes Framework für Zukunftskompetenzen“, 16. Dezember 2025, stifterverband.org (PDF). Führt „AI Literacy“ als eigene digitale Zukunftskompetenz: die Fähigkeit, KI und ihre Anwendung zu verstehen, KI-Systeme produktiv zu nutzen und Chancen und Risiken kritisch zu hinterfragen.
  11. Verordnung (EU) 2024/1689 (KI-Verordnung), Artikel 4 „KI-Kompetenz“, in Kraft seit 2. Februar 2025, mit Operationalisierung über die FAQ der Europäischen Kommission, artificialintelligenceact.eu. Betreiber von KI-Systemen, also auch Hochschulen, müssen ein ausreichendes Niveau an KI-Kompetenz bei ihrem Personal sicherstellen. Die Pflicht gilt seit Februar 2025, die Durchsetzung greift ab 2. August 2026.
  12. Dawson, P., „Defending Assessment Security in a Digital World“, Routledge, 2021, DOI 10.4324/9780429324178. Prägt den Begriff der „assessment security“ (Prüfungs-Sicherheit) als eigenständiges Konzept neben Integrität: Man verteidigt eine Prüfung nicht über Kontrolle des fertigen Texts, sondern über ein Design, dessen Aussagekraft nicht davon abhängt, ob Regeln eingehalten wurden.
  13. Corbin, T., Dawson, P., Liu, D., „Talk is cheap: why structural assessment changes are needed for a time of GenAI“, Assessment & Evaluation in Higher Education 50(7), 2025, DOI 10.1080/02602938.2025.2503964, doi.org. Peer-reviewed. Unterscheidet diskursive Änderungen (Regeln rund um die Aufgabe) von strukturellen (die Aufgabe so bauen, dass ihre Aussagekraft nicht davon abhängt, ob die KI-Regeln befolgt wurden).
  14. Liu, D., Bridgeman, A. (University of Sydney), „What to do about assessments if we can't out-design or out-run AI?“, Teaching@Sydney, 2023, educational-innovation.sydney.edu.au. Das „Zwei-Spuren“-Modell: Spur 1 sichert das Lernen über betreute, mündliche oder beaufsichtigte Prüfungen, Spur 2 erlaubt KI offen für lernorientierte Aufgaben. Seit 2025 Standard an der Universität Sydney.
  15. Perkins, M., Furze, L., Roe, J., MacVaugh, J., „The Artificial Intelligence Assessment Scale (AIAS)“, Journal of University Teaching & Learning Practice 21(6), 2024, DOI 10.53761/q3azde36, doi.org. Peer-reviewed. Eine fünfstufige Skala von „keine KI“ über „KI-Planung“, „KI-Kollaboration“ und „volle KI“ bis „KI-Exploration“, in über 30 Sprachen adaptiert, die KI nicht verbietet, sondern pro Aufgabe transparent abstuft.
  16. Boyce, V. et al. (Collaborative Replications and Education Project), „Eleven years of student replication projects provide evidence on the correlates of replicability in psychology“, Royal Society Open Science 10(11), 2023, DOI 10.1098/rsos.231240, doi.org. Peer-reviewed. Dokumentiert über elf Jahre, dass Studierende echte Replikationen durchführen können; eine Replikationsstudie ist damit ein realistisches Bachelor-Format. Die Studie zeigt zugleich, dass die Reproduzierbarkeit insgesamt nur mäßig ausfällt.
  17. Eaton, S. E., „Postplagiarism: transdisciplinary ethics and integrity in the age of artificial intelligence and neurotechnology“, International Journal for Educational Integrity 19(23), 2023, DOI 10.1007/s40979-023-00144-1, doi.org. Peer-reviewed. Hält fest, dass Menschen die Kontrolle an KI abgeben können, nicht aber die Verantwortung, und dass Quellenangabe und Eigenverantwortung bestehen bleiben.
  18. „A Historical Analysis of Attitudes Toward the Use of Calculators in Junior High and High School Math Classrooms in the United States Since 1975“, ERIC-Dokument ED525547, eric.ed.gov, ergänzt um die Empfehlung des National Council of Teachers of Mathematics (NCTM) von 1980, Programme sollten den Taschenrechner voll nutzen. Dokumentiert die Debatte seit Mitte der 1970er: Viele fürchteten, der Taschenrechner untergrabe die Grundfertigkeiten; der damalige NCTM-Präsident Stephen Willoughby sorgte sich 1985, Schüler könnten verlernen, selbst zu denken. Durchgesetzt hat sich die Akzeptanz des Werkzeugs bei gleichzeitiger Verschiebung auf höhere Kompetenzen.
  19. World Economic Forum, „Future of Jobs Report 2025“ (Befragung von über 1.000 Arbeitgebern in 55 Volkswirtschaften), Januar 2025, weforum.org. Der kompetente Umgang mit KI und Daten („AI and big data“) steht an der Spitze der am schnellsten wachsenden Kompetenzen. Im selben Report zählen Neugier, kreatives Denken und lebenslanges Lernen zu den menschlichen Kompetenzen, die weiter an Bedeutung gewinnen.
  20. Weßels, D., Bils, A., Budde, J., „Wissenschaftliche Abschlussarbeiten im KI-Zeitalter“, Hochschulforum Digitalisierung, Diskussionspapier Nr. 38, Oktober 2025, hochschulforumdigitalisierung.de (PDF). Bezeichnet KI-Detektoren als Sackgasse und formuliert als These: Der Fokus der Bewertung muss von Kontrolle zu Befähigung wechseln, es bedarf eines Paradigmenwechsels.
  21. Universität Graz, Zentrum für Lehrkompetenz, „Prüfungsdesign und KI: eine Orientierungshilfe für Lehrende“, Dezember 2024, uni-graz.at (PDF). Stellt sechs Strategien gegenüber, von Ignorieren über Verbieten bis Integrieren und Adaptieren, verwirft das Verbot ausdrücklich als nicht sinnvoll und listet einen Katalog kompetenzorientierter Prüfungsformate.
  22. Wissenschaftsrat, Arbeitsgruppe „Künstliche Intelligenz in der Hochschulbildung“ (Arbeitsprogramm Januar bis Juli 2026), wissenschaftsrat.de (PDF). Hält fest, dass KI bereits zu Anpassungen der Prüfungsformen geführt hat, und erarbeitet derzeit Handlungsempfehlungen, welche Anforderungen an Lehr-, Lern- und Prüfungsformate daraus folgen. Die Empfehlungen sind noch nicht erschienen.
  23. Kofinas, A. K., Tsay, C. H.-H., Pike, D., „The impact of generative AI on academic integrity of authentic assessments within a higher education context“, British Journal of Educational Technology 56(6), 2025, DOI 10.1111/bjet.13585, doi.org. Peer-reviewed. Experimente an zwei britischen Hochschulen: Bewertende konnten KI-beeinflusste Arbeiten nicht zuverlässig erkennen, und authentische Prüfungsformate allein schützen nicht vor KI-Manipulation.
  24. Curtis, G. J., „The two-lane road to hell is paved with good intentions“, Higher Education Research & Development 44(8), 2025, DOI 10.1080/07294360.2025.2476516, doi.org. Peer-reviewed. Kritik an einem starren Entweder-Oder von KI-frei und KI-voll: Die Realität sei ein Spektrum, ein rigides Zwei-Spuren-Denken sei nicht haltbar und verarme die Lehre. Wird hier als Gegenstimme zitiert.
  25. Davey, S. K., Birbeck, D., Nallaya, S., Sallows, G., Della Vedova, C. B., „Utilising one-on-one interactive oral assessments as the major final assessment within a bioscience course“, Assessment & Evaluation in Higher Education 50(7), 2025, DOI 10.1080/02602938.2025.2502577, doi.org. Peer-reviewed. Nach Einführung einer mündlichen Eins-zu-eins-Prüfung stiegen die Noten, und es gab keine signifikanten Unterschiede nach Geschlecht, internationalem Status oder Sprachhintergrund.
  26. Imran, M., Doshi, C., Kharadi, D., „Structured and unstructured viva voce assessment: A double-blind, randomized, comparative evaluation“, International Journal of Health Sciences 13(2), 2019, PMID 30983939, pmc.ncbi.nlm.nih.gov. Peer-reviewed. Eine strukturierte, für alle gleiche mündliche Prüfung war trennschärfer und galt als gleichmäßiger und unvoreingenommener als eine unstrukturierte. Mündlich ist nicht automatisch fair, die Struktur entscheidet.
  27. Gerlich, M., „AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking“, Societies 15(1):6, 2025, DOI 10.3390/soc15010006, doi.org. Peer-reviewed (mit späterer Korrektur). Befragung von 666 Personen: häufige Nutzung von KI-Werkzeugen korreliert negativ mit kritischem Denken, vermittelt über kognitive Auslagerung. Korrelativ und auf Selbstauskunft beruhend, kein Kausalbeleg.
  28. Verwaltungsgericht Kassel, Urteil vom 25. Februar 2026, Az. 7 K 2134/24.KS, dokumentiert über die Pressemitteilung der hessischen Verwaltungsgerichtsbarkeit, verwaltungsgerichtsbarkeit.hessen.de. Ungekennzeichnete KI-Nutzung wird rechtlich wie Ghostwriting als Täuschung eingeordnet; aufgefallen sind die Arbeiten nicht über einen Detektor-Score, sondern über falsche Quellenangaben und stilistische Brüche. Welche Sanktion folgt, hängt von Prüfungsordnung und Einzelfall ab; das Verfahren ist nicht rechtskräftig.

Häufige Fragen zu KI, Eigenleistung und Prüfungen

Über den Autor: Daniel M. Greiner

Gründer · Editor-in-Chief von ManuskriptMentor

Daniel Greiner gründete ManuskriptMentor 2025 als Plattform für wissenschaftliches Arbeiten. Mit M.A. und B.A. in Medienwissenschaft (Universität Siegen) und über zehn Jahren Führungserfahrung verantwortet er die redaktionellen Inhalte und prüft jeden Methodik-Artikel persönlich.

M.A. MedienwissenschaftSpezialist für Abschlussarbeiten