Erfindet ChatGPT wirklich Quellen?

Ja, und nicht selten. In peer-reviewten Tests waren je nach Modell zwischen 18 und 55 Prozent der von ChatGPT gelieferten Quellen frei erfunden. Das Modell ruft keine Datenbank ab, sondern sagt das wahrscheinlichste nächste Wort voraus, und eine plausibel klingende Quelle ist dabei ein typisches Ergebnis, auch wenn es sie nie gab.

Wie erkenne ich, ob eine ChatGPT-Quelle echt ist?

Am schnellsten über den DOI: Geben Sie ihn auf doi.org oder bei CrossRef ein. Führt er zu einem 404-Fehler oder zu einem anderen Titel als angegeben, ist die Quelle erfunden. Findet sich die vollständige Angabe auch in Google Scholar oder im Bibliothekskatalog nicht, gilt dasselbe. Existiert die Quelle, prüfen Sie zusätzlich, ob ihr Inhalt die zitierte Aussage wirklich stützt.

Macht GPT-4 weniger Fehler als GPT-3.5?

Ja, aber das Problem bleibt. In einer fächerübergreifenden Studie sank der Anteil erfundener Quellen von 55 Prozent bei GPT-3.5 auf 18 Prozent bei GPT-4. 18 Prozent heißt allerdings: Rund jede fünfte Angabe ist falsch. Für eine wissenschaftliche Arbeit ist das keine Entwarnung, sondern ein Grund, weiterhin jede Quelle einzeln zu prüfen.

Ich habe schon erfundene Quellen in meiner Arbeit, was kann ich tun?

Solange die Arbeit nicht abgegeben ist, ist das reparabel. Gehen Sie Ihr Literaturverzeichnis Quelle für Quelle durch, prüfen Sie jeden DOI und jede Angabe, und ersetzen Sie alles, was Sie nicht selbst gefunden und gelesen haben, durch echte Belege. Wichtig ist, dass am Ende jede Aussage durch eine existierende Quelle gedeckt ist, die Sie auch im Gespräch erklären können.

Gilt es als Täuschung, wenn ich versehentlich eine erfundene KI-Quelle zitiere?

Das hängt von Ihrer Prüfungsordnung und vom Einzelfall ab und nicht allein vom Vorsatz. Wer nicht existierende Belege als eigene Recherche ausgibt, riskiert, dass die Arbeit als Täuschung gewertet wird, auch wenn die Quelle unbemerkt aus einem KI-Tool stammt. Was rechtlich überhaupt als Täuschung gilt, ordnet der Überblick zur Rechtslage bei KI im Studium ein.

Kann ich ChatGPT mit Internetzugang oder Browsing vertrauen?

Etwas mehr, aber nicht blind. Modelle mit Internetzugang oder angeschlossener Literatursuche können echte Treffer zitieren und erfinden seltener. Es kommt aber weiter vor, dass eine real gefundene Quelle falsch zusammengefasst wird oder eine erfundene danebensteht. Auch hier gilt: Vor der Abgabe jede Angabe selbst prüfen.

Reicht es, wenn der DOI funktioniert?

Nein, der funktionierende DOI ist nur die erste Hürde. Ein DOI kann fehlerhaft sein oder zu einer anderen Arbeit gehören als angegeben, und manche Quellen existieren, stützen die zitierte Aussage aber nicht. Prüfen Sie deshalb immer, ob der aufgelöste DOI zu demselben Autor und Titel führt und ob der Inhalt die zitierte Aussage wirklich belegt.

ChatGPT erfindet Quellen: Halluzinationen erkennen und prüfen

Q: Hilft ein KI-Detektor oder ein Humanizer gegen erfundene Quellen?

Nein, beide setzen an der falschen Stelle an. Ein KI-Detektor misst den Schreibstil, keine Quellen, und ein Humanizer schreibt eine erfundene Quelle nur sprachlich um, er macht sie nicht echt. Die einzige verlässliche Prüfung ist, jede Angabe selbst nachzuschlagen.

Daniel M. Greiner6. Juni 202616 Min. Lesezeit

Sie bitten ChatGPT um Quellen, und ein Teil davon existiert nicht. Wie oft das passiert, warum, und wie Sie jede Angabe in Minuten prüfen, bevor sie in Ihrer Arbeit steht.

Studentin steht mit einem ausgedruckten Blatt zwischen Bibliotheksregalen und sucht im Bestand eine Quelle, im Hintergrund ein Recherche-Terminal und weitere Lernende.

Bis 55 %

erfundene Quellen

DOI ins Leere

das klarste Warnsignal

5-Schritte-Check

jede Quelle prüfbar

2 von 35

Quellen echt

ChatGPT liefert auf Anfrage Quellen, vollständig mit Autor, Journal und DOI. In peer-reviewten Tests war oft nur ein Bruchteil davon echt. Diese Anleitung zeigt, wie häufig die KI Quellen erfindet, warum, und wie Sie jede Angabe in wenigen Minuten prüfen.

Das Wichtigste in Kürze

Wie oft: In peer-reviewten Tests waren je nach Modell 18 bis 55 Prozent der von ChatGPT erzeugten Quellen frei erfunden.
Warum: Ein Sprachmodell sagt das wahrscheinlichste nächste Wort voraus, es ruft keine Datenbank ab. Eine plausibel klingende Quelle ist ein typisches Ergebnis, auch wenn es sie nie gab.
Woran Sie es erkennen: Erfundene Quellen sehen echt aus. Der schnellste Test ist der DOI, der ins Leere oder auf eine andere Arbeit führt.
Was Sie tun: Jede KI-Quelle vor der Abgabe prüfen, den DOI über CrossRef auflösen und den Inhalt abgleichen. Der Fünf-Schritte-Weg steht weiter unten.
Warum es zählt: Eine einzige erfundene Quelle kann eine ganze Arbeit als Täuschung erscheinen lassen, und weder ein Detektor noch ein Humanizer fängt sie ab. Nur die eigene Prüfung tut es.

Wie oft ChatGPT Quellen erfindet, in Zahlen

Beginnen wir mit der ernüchterndsten Einzelzahl. Als Forschende ChatGPT für eine Literatursuche in der Psychiatrie nutzten, erzeugte das Modell 35 Quellenangaben, von denen nur zwei echt waren^[1]. Die übrigen 33 hatten Autoren, Titel und Journale, die es so nie gab.

Das ist kein Ausreißer. In einer Untersuchung medizinischer Texte waren von 115 ChatGPT-Referenzen 47 Prozent frei erfunden, weitere 46 Prozent existierten zwar, enthielten aber fehlerhafte Angaben. Nur 7 Prozent waren echt und korrekt^[2]. Eine breitere, fächerübergreifende Studie mit 636 Quellen zeigt zugleich, dass es vom Modell abhängt: GPT-3.5 erfand 55 Prozent der Angaben, das neuere GPT-4 noch 18 Prozent^[3].

Peer-reviewte Tests

Anteil frei erfundener Quellen je Studie

ChatGPT, Psychiatrie (McGowan 2023)33 von 35 erfunden

ChatGPT-3.5, Medizin (Bhattacharyya 2023)47 % erfunden

GPT-3.5, fächerübergreifend (Walters/Wilder 2023)55 % erfunden

GPT-4, fächerübergreifend (Walters/Wilder 2023)18 % erfunden

Werte aus vier peer-reviewten Untersuchungen. Neuere Modelle erfinden seltener, doch in der breitesten Studie lag das stärkere Modell noch bei rund jeder fünften Quelle daneben. Belege am Abschnitt-Ende.

Und das Problem bleibt nicht im Verborgenen. Eine Analyse von 2,5 Millionen biomedizinischen Arbeiten fand, dass der Anteil mit fabrizierten Quellenangaben von etwa 1 zu 2.828 im Jahr 2023 auf 1 zu 277 Anfang 2026 gestiegen ist^[4]. Das ist Publikations-, nicht Studierenden-Literatur, aber es zeigt denselben Mechanismus im großen Maßstab.

Eine erfundene Quelle ist nicht die Ausnahme im KI-Text, sondern ein erwartbarer Bestandteil.

Belege (4)

[1]McGowan, A. et al., „ChatGPT and Bard exhibit spontaneous citation fabrication during psychiatry literature search“, Psychiatry Research 326, 2023, DOI 10.1016/j.psychres.2023.115334, doi.org. Peer-reviewed. Von 35 durch ChatGPT erzeugten Quellenangaben waren nur zwei echt; die übrigen waren häufig ein Pastiche aus mehreren realen Arbeiten, was sie plausibel erscheinen lässt.↩
[2]Bhattacharyya, M., Miller, V. M., Bhattacharyya, D., Miller, L. E., „High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content“, Cureus 15(5):e39238, 2023, DOI 10.7759/cureus.39238, doi.org. Peer-reviewed. Von 115 von ChatGPT erzeugten Referenzen waren 47 Prozent frei erfunden, 46 Prozent existierten, enthielten aber fehlerhafte Angaben, nur 7 Prozent waren echt und korrekt.↩
[3]Walters, W. H., Wilder, E. I., „Fabrication and errors in the bibliographic citations generated by ChatGPT“, Scientific Reports 13, 2023, DOI 10.1038/s41598-023-41032-5, doi.org. Peer-reviewed. 55 Prozent der von GPT-3.5 erzeugten Quellen waren frei erfunden, bei GPT-4 noch 18 Prozent; von den existierenden Quellen enthielten 43 Prozent (GPT-3.5) bzw. 24 Prozent (GPT-4) zusätzlich inhaltliche Zitierfehler. 636 Citations, fächerübergreifend.↩
[4]Topaz, M. et al. (Columbia University), Studie zum Anstieg fabrizierter Zitate in wissenschaftlichen Texten, The Lancet, 7. Mai 2026, DOI 10.1016/S0140-6736(26)00603-3, statnews.com. Peer-reviewed. Der Anteil von Arbeiten mit fabrizierten Quellenangaben stieg von etwa 1 zu 2.828 (2023) auf 1 zu 277 (Anfang 2026). Datenbasis ist die biomedizinische Publikationsliteratur, der Befund steht hier für den Mechanismus, nicht als Studierenden-Statistik.↩

Warum die KI Quellen erfindet, statt zuzugeben, dass sie keine kennt

Der Reflex ist, ein Sprachmodell wie ein Nachschlagewerk zu behandeln. Genau das ist es nicht. ChatGPT ruft keine Datenbank ab, es sagt Wort für Wort das wahrscheinlichste nächste Zeichen voraus. Eine Quellenangabe hat ein sehr regelmäßiges Muster, also Nachname, Jahr, Titel, Journal, DOI, und das Modell füllt dieses Muster mit dem, was statistisch passt, nicht mit dem, was existiert. Aus demselben Grund kann eine KI auch kein neues Wissen schaffen.

Forschende nennen das Phänomen Halluzination (Konfabulation): flüssig formulierter Text, der überzeugend wirkt, aber nicht durch eine reale Quelle gedeckt ist^[5].

Warum es so plausibel klingt

Datenbank-Abfrage gegen Wort-Vorhersage

Was Sie erwarten

Eine Datenbank wird abgefragt

Sie stellen sich vor, das Modell schlägt in einem Katalog nach und gibt zurück, was es dort findet. Dann gäbe es nur echte Quellen oder gar keine.

Was tatsächlich passiert

Das nächste Wort wird vorhergesagt

Das Modell setzt Wort für Wort das statistisch wahrscheinlichste fort. Eine Quellenangabe hat ein festes Muster, das es mit passend klingenden, oft erfundenen Teilen füllt.

Deshalb sieht eine erfundene Quelle echt aus: Sie ist nach demselben Muster gebaut wie eine echte, nur ohne den realen Eintrag dahinter.

Warum die KI dabei lieber rät, als zuzugeben, dass sie eine Quelle nicht kennt, hat einen unbequemen Grund. Eine Analyse beschreibt, dass Training und Bewertung von Sprachmodellen das Raten belohnen: Modelle werden auf gute Testergebnisse optimiert, und wer im Zweifel rät, schneidet im Test besser ab als wer Unsicherheit zugibt^[6].

Deshalb klingen erfundene Quellen so echt. Oft sind sie ein Pastiche aus mehreren realen Arbeiten, also ein existierender Autor, ein passendes Journal, ein realistischer Titel, nur eben nie in dieser Kombination erschienen. Wie Detektoren umgekehrt versuchen, KI-Text am Schreibstil zu erkennen, behandelt der Überblick zu KI-Detektoren im Studium. Hier geht es nicht um den Stil, sondern um die Substanz, die Quellen.

Für das Modell ist eine plausibel klingende Quelle ein gutes Ergebnis. Ob es sie gibt, ist keine Frage, die es stellt.

Belege (2)

[5]Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y. et al., „Survey of Hallucination in Natural Language Generation“, ACM Computing Surveys 55(12), 2023, DOI 10.1145/3571730, Preprint arXiv:2202.03629. Peer-reviewed (ACM Computing Surveys). Definiert Halluzination als generierten Text, der flüssig und plausibel wirkt, aber unsinnig oder nicht durch die zugrundeliegende Quelle gedeckt ist.↩
[6]Kalai, A. T., Nachum, O., Vempala, S. S., Zhang, E., „Why Language Models Hallucinate“, arXiv:2509.04664, 2025, arxiv.org/abs/2509.04664. Preprint (Autoren u. a. von OpenAI). Sprachmodelle halluzinieren, weil Training und Bewertung das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen: Sie sind auf gute Testergebnisse optimiert, und Raten verbessert im Test die Trefferquote.↩

Woran Sie eine erfundene Quelle erkennen

Das Tückische ist, dass erfundene Quellen nicht plump aussehen. Sie tragen alle Merkmale einer echten Angabe. Genau deshalb hilft kein Bauchgefühl, sondern nur ein Blick auf bestimmte Stellen.

Am aufschlussreichsten ist der DOI. In einer Untersuchung von ChatGPT-Quellen funktionierten 69 DOIs gar nicht. Bei einem Teil existierte der Artikel zwar, der DOI war aber fehlerhaft, bei anderen war die Quelle vollständig erfunden^[7]. Ein DOI, der ins Leere führt oder auf einen fremden Titel zeigt, ist das deutlichste Warnsignal.

Anatomie einer erfundenen Quelle

Vier Stellen, die Sie prüfen

Müller, A. (2021). KI-gestützte Methoden in der empirischen Sozialforschung. Zeitschrift für Soziologie, 50(4), 312–331. https://doi.org/10.1007/s11577-021-00789-2

Beispiel-Konstruktion zur Illustration, keine reale Quelle.

Autorname: Echt klingend, oft eine real existierende Forscherin, nur nie mit dieser Arbeit.
Titel: Passt verdächtig genau zu Ihrer Frage. Je perfekter, desto eher geprüft.
Journal & Jahr: Reales Journal, aber Band, Heft oder Seiten stimmen nicht zusammen.
DOI: Führt ins Leere (404) oder auf eine völlig andere Arbeit. Das klarste Signal.

Erfundene Quellen sehen aus wie echte. Geprüft werden müssen sie trotzdem, am schnellsten über den DOI.

Spielen wir das an der erfundenen Beispiel-Quelle oben durch. Sie suchen den Titel zusammen mit dem Autornamen in Google Scholar, und es kommt kein Treffer. Sie geben den DOI auf doi.org ein, und er führt ins Leere oder zu einer ganz anderen Arbeit. Zwei Handgriffe, gut eine Minute, und die plausibel klingende Quelle ist als Erfindung entlarvt.

Daneben gibt es weichere rote Flaggen, die zur Prüfung anhalten sollten: Autor und Titel zusammen sind in Google Scholar nicht auffindbar, der Journal-Name ist minimal falsch geschrieben, Band und Seitenzahlen passen nicht zusammen, oder die Quelle ist verdächtig perfekt auf Ihre Frage zugeschnitten. Keine dieser Stellen beweist für sich eine Fälschung, aber jede ist ein Grund, genauer hinzusehen.

Je perfekter eine KI-Quelle zu Ihrer Frage passt, desto eher sollten Sie sie prüfen.

Belege (1)

[7]Athaluri, S. A. et al., „Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References“, Cureus 15(4):e37432, 2023, DOI 10.7759/cureus.37432, doi.org. Peer-reviewed. Bei 69 von ChatGPT erzeugten Referenzen funktionierte der DOI gar nicht; bei einem Teil existierte der Artikel, der DOI war aber falsch, bei anderen war die Quelle vollständig erfunden.↩

So prüfen Sie eine Quelle in fünf Schritten

Die gute Nachricht: Sie müssen keiner KI-Quelle vertrauen, Sie können jede in wenigen Minuten prüfen. Ein Leitfaden der WAC Clearinghouse empfiehlt dafür zwei Stufen, erst die Existenz, dann den Inhalt^[8]. Daraus wird ein abhakbarer Ablauf.

Die Quellen-Prüfung

Jede Quelle in fünf Schritten geprüft

DOI auflösen
Den DOI auf doi.org oder bei CrossRef eingeben. Führt er zu derselben Arbeit (Autor und Titel)? 404 oder fremder Titel heißt: erfunden.
Titel und Autor suchen
Die vollständige Angabe in Google Scholar oder den Katalog Ihrer Hochschulbibliothek eingeben. Findet sich nichts, ist die Quelle wahrscheinlich erfunden.
Inhalt abgleichen
Existiert die Quelle, Abstract oder Stelle lesen. Sagt sie wirklich, was Sie zitieren? Manche Quellen existieren, stützen die Aussage aber nicht.
Bei heiklen Quellen: Retraction prüfen
Wenn viel von einer Quelle abhängt, bei Retraction Watch nachsehen, ob der Artikel zurückgezogen wurde.
Im Zweifel ersetzen
Was Sie nicht finden oder was die Aussage nicht trägt, durch eine echte Quelle ersetzen, die Sie selbst gelesen haben.

Die Schritte 1 und 2 dauern pro Quelle weniger als eine Minute und fangen die meisten Halluzinationen ab.

Zwei kostenlose Werkzeuge tragen den größten Teil. Über CrossRef lösen Sie jeden DOI auf und sehen sofort, ob er existiert und zu welchem Titel er gehört. Google Scholar und der Katalog Ihrer Hochschulbibliothek zeigen, ob es Autor und Titel überhaupt gibt. Erst wenn beides bestanden ist, lohnt der Blick in den Inhalt.

Der häufigste Irrweg

Fragen Sie nicht ChatGPT selbst, ob eine Quelle echt ist. Sie fragen damit genau das System, das die Quelle erfunden hat. Es hat keinen Zugriff auf CrossRef oder einen Bibliothekskatalog und antwortet auch für nicht existierende Angaben überzeugt mit „ja“. Die Prüfung muss außerhalb des Modells stattfinden, mit den Schritten oben.

Eine Quelle, die Sie nicht selbst gefunden und gelesen haben, gehört nicht in Ihre Arbeit.

Belege (1)

[8]Cole, R., Maher, L., Rice, R., „Understanding and Avoiding Hallucinated References“, WAC Clearinghouse (Colorado State University), 2025, wac.colostate.edu. Akademischer Verlag, kein Anbieter. Empfiehlt einen zweistufigen Prüfweg: zuerst die Existenz (vollständige Referenz in Suchmaschine, Google Scholar oder Bibliothek suchen, DOI über CrossRef auflösen), dann den Inhalt: Passt das Thema der gefundenen Quelle nicht zur Behauptung, ist sie wahrscheinlich halluziniert.↩

Wird es besser, und welches KI-Tool ist verlässlicher?

Ja und nein. Die Zahlen zeigen einen klaren Fortschritt: Wo GPT-3.5 noch 55 Prozent der Quellen erfand, waren es bei GPT-4 noch 18 Prozent. 18 Prozent erfundene Quellen heißt aber, dass rund jede fünfte Angabe falsch ist. Für eine wissenschaftliche Arbeit ist das keine Entwarnung, sondern ein Grund, weiter jede Quelle zu prüfen.

Modelle mit Internetzugang oder angeschlossener Literatursuche schneiden besser ab, weil sie echte Treffer zitieren können. Verlassen können Sie sich auch darauf nicht: Auch hier kommt es vor, dass das Modell eine real gefundene Quelle falsch zusammenfasst oder eine zweite, erfundene danebenstellt. Das Problem wird kleiner, nicht null.

Welches KI-Tool erfindet weniger Quellen?

Wenn die Frage lautet, womit Sie überhaupt recherchieren sollten, lohnt der Blick auf den Werkzeug-Typ. Ein Test mit sechs Chatbots und denselben Vorgaben zeigte deutliche Unterschiede: ChatGPT 3.5 und Bing erfanden mit Abstand am meisten, Perplexity deutlich weniger, und die datenbankgestützten Recherche-Tools Elicit und SciSpace fast gar nichts^[10].

Reference Hallucination Score

Wie stark einzelne KI-Tools Quellen erfinden

ChatGPT 3.5 / Bingkritisch

Perplexitymittel

Elicit / SciSpacevernachlässigbar

Sechs Chatbots im selben Test (Bard lieferte keine Referenzen). Datenbankgestützte Recherche-Tools wie Elicit und SciSpace erfinden am wenigsten. Medizinischer Test, als Tendenz zu lesen.

Der Grund ist dieselbe Mechanik wie zuvor: Werkzeuge, die in echten Datenbanken suchen und nur gefundene Treffer zitieren, können weniger erfinden als ein Modell, das Quellen frei fortschreibt. Der Test stammt aus dem medizinischen Bereich, taugt also als Tendenz, nicht als Rangliste für jedes Fach. Und auch hier bleibt die Regel: Jede Angabe selbst prüfen, egal aus welchem Tool sie kommt.

Dass es nicht auf die Medizin beschränkt ist, zeigt eine Untersuchung aus der Geographie, in der ChatGPT ebenfalls fingierte, durch einen Vorhersage-Prozess erzeugte Quellen lieferte^[9].

Die ehrliche Lücke für deutschsprachige Arbeiten

Eine Einschränkung gehört dazu: Keine belastbare deutschsprachige Studie misst bisher, wie oft KI auf deutschem akademischem Text Quellen erfindet. Die vorliegenden Zahlen stammen aus internationalen, überwiegend englischsprachigen Untersuchungen. Am Mechanismus ändert die Sprache aber nichts, ein deutsches Literaturverzeichnis aus ChatGPT verdient dieselbe Prüfung wie ein englisches.

Neuere Modelle erfinden seltener Quellen. Sie erfinden sie nicht nie.

Belege (2)

[9]Day, T., „A Preliminary Investigation of Fake Peer-Reviewed Citations and References Generated by ChatGPT“, The Professional Geographer, 2023, DOI 10.1080/00330124.2023.2190373, doi.org. Peer-reviewed (Geographie). Auch außerhalb der Medizin erzeugte ChatGPT fingierte Quellen; der Autor führt sie darauf zurück, dass die Angaben durch einen Vorhersage-Prozess statt aus gesichertem Wissen entstehen.↩
[10]Aljamaan, F., Temsah, M.-H., Altamimi, I., Al-Eyadhy, A., Jamal, A., Alhasan, K., Mesallam, T. A., Farahat, M., Malki, K. H., „Reference Hallucination Score for Medical Artificial Intelligence Chatbots“, JMIR Medical Informatics, 2024, DOI 10.2196/54345, doi.org. Peer-reviewed. Sechs KI-Chatbots wurden mit denselben Prompts auf erfundene Quellen getestet: ChatGPT 3.5 und Bing zeigten den höchsten Halluzinations-Score, Perplexity einen deutlich niedrigeren, Elicit und SciSpace einen vernachlässigbaren. Medizinischer Kontext, der Befund steht hier für die Tendenz, dass datenbankgestützte Recherche-Tools seltener Quellen erfinden.↩

Was eine erfundene Quelle für Ihre Arbeit bedeutet

Eine erfundene Quelle ist nicht nur ein Schönheitsfehler. Wer nicht existierende Belege als eigene Recherche ausgibt, riskiert, dass die Arbeit als Täuschung gewertet wird, und das hängt nicht allein am Vorsatz: Auch eine versehentlich übernommene KI-Quelle steht am Ende in Ihrem Literaturverzeichnis.

Wie ernst Hochschulen ungekennzeichnete KI-Nutzung nehmen, zeigt ein dokumentierter Fall. Das Verwaltungsgericht Kassel wertete 2026 zwei Arbeiten, in denen KI ohne Kennzeichnung eingesetzt wurde, als besonders schwere Täuschung^[11]. Welche Sanktion folgt, hängt von der Prüfungsordnung und vom Einzelfall ab, und beide Urteile sind noch nicht rechtskräftig. Was rechtlich überhaupt als Täuschung gilt, ordnet der Überblick zur Rechtslage bei KI im Studium ein.

Entscheidend ist die Aufdeckungs-Logik. Aufgefallen sind solche Arbeiten nicht über einen Detektor-Score, sondern darüber, dass jemand eine Quelle nachschlug und sie nicht fand. Ein Detektor misst Schreibstil, keine Quellen, und ein Humanizer schreibt eine erfundene Quelle nur sprachlich um, er macht sie nicht echt. Gegen halluzinierte Quellen hilft kein Werkzeug, nur die eigene Prüfung.

Die belastbare Antwort ist deshalb unspektakulär: echte Quellen, selbst gelesen, sauber belegt. Wer dabei Sicherheit bei Methodik und Quellenarbeit möchte, bekommt sie in einer kostenlosen Methodik-Beratung, die an der Substanz arbeitet, nicht an der Tarnung eines Scores.

Die betreuende Person prüft am Ende eine Quelle, keinen Score. Sorgen Sie dafür, dass jede standhält.

Belege (1)

[11]Verwaltungsgericht Kassel, Urteile vom 25. Februar 2026, Az. 7 K 2134/24.KS und 7 K 2515/25.KS, dokumentiert über die Pressemitteilung der hessischen Verwaltungsgerichtsbarkeit, verwaltungsgerichtsbarkeit.hessen.de. Die ungekennzeichnete KI-Nutzung wurde als besonders schwere Täuschung gewertet; ein KI-Detektor kam nicht zum Einsatz, aufgefallen sind die Arbeiten über sprachliche und strukturelle Auffälligkeiten und die Diskrepanz zwischen schriftlicher und mündlicher Leistung. Welche Sanktion folgt, hängt von Prüfungsordnung und Einzelfall ab; das Verfahren ist nicht rechtskräftig.↩

Fazit: Vertrauen ist gut, der DOI-Check ist besser

KI-Modelle erfinden Quellen, je nach Modell jede fünfte bis fast jede zweite. Sie tun es nicht aus Bosheit, sondern weil sie das wahrscheinlichste nächste Wort vorhersagen, nicht eine Datenbank abfragen. Und sie tun es so überzeugend, dass man es einer Angabe nicht ansieht.

Die Konsequenz ist einfach und liegt ganz in Ihrer Hand: Behandeln Sie jede KI-Quelle als unbestätigt, bis Sie sie selbst gefunden und gelesen haben. Der DOI-Check über CrossRef und ein Blick in Google Scholar dauern Minuten und ersparen Ihnen die eine Frage, die im Kolloquium wirklich wehtut.

Eine KI kann Ihnen beim Suchen helfen. Bürgen für eine Quelle müssen Sie selbst.

Alle 11 Quellen anzeigen

[1]McGowan, A. et al., „ChatGPT and Bard exhibit spontaneous citation fabrication during psychiatry literature search“, Psychiatry Research 326, 2023, DOI 10.1016/j.psychres.2023.115334, doi.org. Peer-reviewed. Von 35 durch ChatGPT erzeugten Quellenangaben waren nur zwei echt; die übrigen waren häufig ein Pastiche aus mehreren realen Arbeiten, was sie plausibel erscheinen lässt.↩
[2]Bhattacharyya, M., Miller, V. M., Bhattacharyya, D., Miller, L. E., „High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content“, Cureus 15(5):e39238, 2023, DOI 10.7759/cureus.39238, doi.org. Peer-reviewed. Von 115 von ChatGPT erzeugten Referenzen waren 47 Prozent frei erfunden, 46 Prozent existierten, enthielten aber fehlerhafte Angaben, nur 7 Prozent waren echt und korrekt.↩
[3]Walters, W. H., Wilder, E. I., „Fabrication and errors in the bibliographic citations generated by ChatGPT“, Scientific Reports 13, 2023, DOI 10.1038/s41598-023-41032-5, doi.org. Peer-reviewed. 55 Prozent der von GPT-3.5 erzeugten Quellen waren frei erfunden, bei GPT-4 noch 18 Prozent; von den existierenden Quellen enthielten 43 Prozent (GPT-3.5) bzw. 24 Prozent (GPT-4) zusätzlich inhaltliche Zitierfehler. 636 Citations, fächerübergreifend.↩
[4]Topaz, M. et al. (Columbia University), Studie zum Anstieg fabrizierter Zitate in wissenschaftlichen Texten, The Lancet, 7. Mai 2026, DOI 10.1016/S0140-6736(26)00603-3, statnews.com. Peer-reviewed. Der Anteil von Arbeiten mit fabrizierten Quellenangaben stieg von etwa 1 zu 2.828 (2023) auf 1 zu 277 (Anfang 2026). Datenbasis ist die biomedizinische Publikationsliteratur, der Befund steht hier für den Mechanismus, nicht als Studierenden-Statistik.↩
[5]Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y. et al., „Survey of Hallucination in Natural Language Generation“, ACM Computing Surveys 55(12), 2023, DOI 10.1145/3571730, Preprint arXiv:2202.03629. Peer-reviewed (ACM Computing Surveys). Definiert Halluzination als generierten Text, der flüssig und plausibel wirkt, aber unsinnig oder nicht durch die zugrundeliegende Quelle gedeckt ist.↩
[6]Kalai, A. T., Nachum, O., Vempala, S. S., Zhang, E., „Why Language Models Hallucinate“, arXiv:2509.04664, 2025, arxiv.org/abs/2509.04664. Preprint (Autoren u. a. von OpenAI). Sprachmodelle halluzinieren, weil Training und Bewertung das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen: Sie sind auf gute Testergebnisse optimiert, und Raten verbessert im Test die Trefferquote.↩
[7]Athaluri, S. A. et al., „Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References“, Cureus 15(4):e37432, 2023, DOI 10.7759/cureus.37432, doi.org. Peer-reviewed. Bei 69 von ChatGPT erzeugten Referenzen funktionierte der DOI gar nicht; bei einem Teil existierte der Artikel, der DOI war aber falsch, bei anderen war die Quelle vollständig erfunden.↩
[8]Cole, R., Maher, L., Rice, R., „Understanding and Avoiding Hallucinated References“, WAC Clearinghouse (Colorado State University), 2025, wac.colostate.edu. Akademischer Verlag, kein Anbieter. Empfiehlt einen zweistufigen Prüfweg: zuerst die Existenz (vollständige Referenz in Suchmaschine, Google Scholar oder Bibliothek suchen, DOI über CrossRef auflösen), dann den Inhalt: Passt das Thema der gefundenen Quelle nicht zur Behauptung, ist sie wahrscheinlich halluziniert.↩
[9]Day, T., „A Preliminary Investigation of Fake Peer-Reviewed Citations and References Generated by ChatGPT“, The Professional Geographer, 2023, DOI 10.1080/00330124.2023.2190373, doi.org. Peer-reviewed (Geographie). Auch außerhalb der Medizin erzeugte ChatGPT fingierte Quellen; der Autor führt sie darauf zurück, dass die Angaben durch einen Vorhersage-Prozess statt aus gesichertem Wissen entstehen.↩
[10]Aljamaan, F., Temsah, M.-H., Altamimi, I., Al-Eyadhy, A., Jamal, A., Alhasan, K., Mesallam, T. A., Farahat, M., Malki, K. H., „Reference Hallucination Score for Medical Artificial Intelligence Chatbots“, JMIR Medical Informatics, 2024, DOI 10.2196/54345, doi.org. Peer-reviewed. Sechs KI-Chatbots wurden mit denselben Prompts auf erfundene Quellen getestet: ChatGPT 3.5 und Bing zeigten den höchsten Halluzinations-Score, Perplexity einen deutlich niedrigeren, Elicit und SciSpace einen vernachlässigbaren. Medizinischer Kontext, der Befund steht hier für die Tendenz, dass datenbankgestützte Recherche-Tools seltener Quellen erfinden.↩
[11]Verwaltungsgericht Kassel, Urteile vom 25. Februar 2026, Az. 7 K 2134/24.KS und 7 K 2515/25.KS, dokumentiert über die Pressemitteilung der hessischen Verwaltungsgerichtsbarkeit, verwaltungsgerichtsbarkeit.hessen.de. Die ungekennzeichnete KI-Nutzung wurde als besonders schwere Täuschung gewertet; ein KI-Detektor kam nicht zum Einsatz, aufgefallen sind die Arbeiten über sprachliche und strukturelle Auffälligkeiten und die Diskrepanz zwischen schriftlicher und mündlicher Leistung. Welche Sanktion folgt, hängt von Prüfungsordnung und Einzelfall ab; das Verfahren ist nicht rechtskräftig.↩

Häufige Fragen zu erfundenen KI-Quellen

Über den Autor: Daniel M. Greiner

Gründer · Editor-in-Chief von ManuskriptMentor

Daniel Greiner gründete ManuskriptMentor 2025 als Plattform für wissenschaftliches Arbeiten. Mit M.A. und B.A. in Medienwissenschaft (Universität Siegen) und über zehn Jahren Führungserfahrung verantwortet er die redaktionellen Inhalte und prüft jeden Methodik-Artikel persönlich.

M.A. MedienwissenschaftSpezialist für Abschlussarbeiten

Autoren-Profil iDORCID LinkedIn cbCrunchbase