ChatGPT erfindet Quellen: Halluzinationen erkennen und prüfen
Sie bitten ChatGPT um Quellen, und ein Teil davon existiert nicht. Wie oft das passiert, warum, und wie Sie jede Angabe in Minuten prüfen, bevor sie in Ihrer Arbeit steht.


Bis 55 %
erfundene Quellen
DOI ins Leere
das klarste Warnsignal
5-Schritte-Check
jede Quelle prüfbar
35 → 2
echt von ChatGPT
ChatGPT liefert auf Anfrage Quellen, vollständig mit Autor, Journal und DOI. In peer-reviewten Tests war oft nur ein Bruchteil davon echt. Diese Anleitung zeigt, wie häufig die KI Quellen erfindet, warum, und wie Sie jede Angabe in wenigen Minuten prüfen.
Das Wichtigste in Kürze
- Wie oft: In peer-reviewten Tests waren je nach Modell 18 bis 55 Prozent der von ChatGPT erzeugten Quellen frei erfunden.
- Warum: Ein Sprachmodell sagt das wahrscheinlichste nächste Wort voraus, es ruft keine Datenbank ab. Eine plausibel klingende Quelle ist ein typisches Ergebnis, auch wenn es sie nie gab.
- Woran Sie es erkennen: Erfundene Quellen sehen echt aus. Der schnellste Test ist der DOI, der ins Leere oder auf eine andere Arbeit führt.
- Was Sie tun: Jede KI-Quelle vor der Abgabe prüfen, den DOI über CrossRef auflösen und den Inhalt abgleichen. Der Fünf-Schritte-Weg steht weiter unten.
- Warum es zählt: Aufgedeckt werden Arbeiten selten über einen Detektor-Score, sondern darüber, dass die betreuende Person eine Quelle nachschlägt und nicht findet.
Wie oft ChatGPT Quellen erfindet, in Zahlen
Beginnen wir mit der ernüchterndsten Einzelzahl. Als Forschende ChatGPT für eine Literatursuche in der Psychiatrie nutzten, erzeugte das Modell 35 Quellenangaben, von denen nur zwei echt waren[1]. Die übrigen 33 hatten Autoren, Titel und Journale, die es so nie gab.
Das ist kein Ausreißer. In einer Untersuchung medizinischer Texte waren von 115 ChatGPT-Referenzen 47 Prozent frei erfunden, weitere 46 Prozent existierten zwar, enthielten aber fehlerhafte Angaben. Nur 7 Prozent waren echt und korrekt[2]. Eine breitere, fächerübergreifende Studie mit 636 Quellen zeigt zugleich, dass es vom Modell abhängt: GPT-3.5 erfand 55 Prozent der Angaben, das neuere GPT-4 noch 18 Prozent[3].
Peer-reviewte Tests
Anteil frei erfundener Quellen je Studie
Und das Problem bleibt nicht im Verborgenen. Eine Analyse von 2,5 Millionen biomedizinischen Arbeiten fand, dass der Anteil mit fabrizierten Quellenangaben von etwa 1 zu 2.828 im Jahr 2023 auf 1 zu 277 Anfang 2026 gestiegen ist[4]. Das ist Publikations-, nicht Studierenden-Literatur, aber es zeigt denselben Mechanismus im großen Maßstab.
Eine erfundene Quelle ist nicht die Ausnahme im KI-Text, sondern ein erwartbarer Bestandteil.
Belege (4)
- [1]McGowan, A. et al., „ChatGPT and Bard exhibit spontaneous citation fabrication during psychiatry literature search“, Psychiatry Research 326, 2023, DOI 10.1016/j.psychres.2023.115334, doi.org. Peer-reviewed. Von 35 durch ChatGPT erzeugten Quellenangaben waren nur zwei echt; die übrigen waren häufig ein Pastiche aus mehreren realen Arbeiten, was sie plausibel erscheinen lässt.↩
- [2]Bhattacharyya, M., Miller, V. M., Bhattacharyya, D., Miller, L. E., „High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content“, Cureus 15(5):e39238, 2023, DOI 10.7759/cureus.39238, doi.org. Peer-reviewed. Von 115 von ChatGPT erzeugten Referenzen waren 47 Prozent frei erfunden, 46 Prozent existierten, enthielten aber fehlerhafte Angaben, nur 7 Prozent waren echt und korrekt.↩
- [3]Walters, W. H., Wilder, E. I., „Fabrication and errors in the bibliographic citations generated by ChatGPT“, Scientific Reports 13, 2023, DOI 10.1038/s41598-023-41032-5, doi.org. Peer-reviewed. 55 Prozent der von GPT-3.5 erzeugten Quellen waren frei erfunden, bei GPT-4 noch 18 Prozent; von den existierenden Quellen enthielten 43 Prozent (GPT-3.5) bzw. 24 Prozent (GPT-4) zusätzlich inhaltliche Zitierfehler. 636 Citations, fächerübergreifend.↩
- [4]Topaz, M. et al. (Columbia University), Studie zum Anstieg fabrizierter Zitate in wissenschaftlichen Texten, The Lancet, 7. Mai 2026, DOI 10.1016/S0140-6736(26)00603-3, statnews.com. Peer-reviewed. Der Anteil von Arbeiten mit fabrizierten Quellenangaben stieg von etwa 1 zu 2.828 (2023) auf 1 zu 277 (Anfang 2026). Datenbasis ist die biomedizinische Publikationsliteratur, der Befund steht hier für den Mechanismus, nicht als Studierenden-Statistik.↩
Warum die KI Quellen erfindet, statt zuzugeben, dass sie keine kennt
Der Reflex ist, ein Sprachmodell wie ein Nachschlagewerk zu behandeln. Genau das ist es nicht. ChatGPT ruft keine Datenbank ab, es sagt Wort für Wort das wahrscheinlichste nächste Zeichen voraus. Eine Quellenangabe hat ein sehr regelmäßiges Muster, also Nachname, Jahr, Titel, Journal, DOI, und das Modell füllt dieses Muster mit dem, was statistisch passt, nicht mit dem, was existiert.
Forschende nennen das Phänomen Halluzination (Konfabulation): flüssig formulierter Text, der überzeugend wirkt, aber nicht durch eine reale Quelle gedeckt ist[5].
Warum es so plausibel klingt
Datenbank-Abfrage gegen Wort-Vorhersage
Eine Datenbank wird abgefragt
Sie stellen sich vor, das Modell schlägt in einem Katalog nach und gibt zurück, was es dort findet. Dann gäbe es nur echte Quellen oder gar keine.
Das nächste Wort wird vorhergesagt
Das Modell setzt Wort für Wort das statistisch wahrscheinlichste fort. Eine Quellenangabe hat ein festes Muster, das es mit passend klingenden, oft erfundenen Teilen füllt.
Warum die KI dabei lieber rät, als zuzugeben, dass sie eine Quelle nicht kennt, hat einen unbequemen Grund. Eine Analyse beschreibt, dass Training und Bewertung von Sprachmodellen das Raten belohnen: Modelle werden auf gute Testergebnisse optimiert, und wer im Zweifel rät, schneidet im Test besser ab als wer Unsicherheit zugibt[6].
Deshalb klingen erfundene Quellen so echt. Oft sind sie ein Pastiche aus mehreren realen Arbeiten, also ein existierender Autor, ein passendes Journal, ein realistischer Titel, nur eben nie in dieser Kombination erschienen. Wie Detektoren umgekehrt versuchen, KI-Text am Schreibstil zu erkennen, behandelt der Überblick zu KI-Detektoren im Studium. Hier geht es nicht um den Stil, sondern um die Substanz, die Quellen.
Für das Modell ist eine plausibel klingende Quelle ein gutes Ergebnis. Ob es sie gibt, ist keine Frage, die es stellt.
Belege (2)
- [5]Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y. et al., „Survey of Hallucination in Natural Language Generation“, ACM Computing Surveys 55(12), 2023, DOI 10.1145/3571730, Preprint arXiv:2202.03629. Peer-reviewed (ACM Computing Surveys). Definiert Halluzination als generierten Text, der flüssig und plausibel wirkt, aber unsinnig oder nicht durch die zugrundeliegende Quelle gedeckt ist.↩
- [6]Kalai, A. T., Nachum, O., Vempala, S. S., Zhang, E., „Why Language Models Hallucinate“, arXiv:2509.04664, 2025, arxiv.org/abs/2509.04664. Preprint (Autoren u. a. von OpenAI). Sprachmodelle halluzinieren, weil Training und Bewertung das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen: Sie sind auf gute Testergebnisse optimiert, und Raten verbessert im Test die Trefferquote.↩
Woran Sie eine erfundene Quelle erkennen
Das Tückische ist, dass erfundene Quellen nicht plump aussehen. Sie tragen alle Merkmale einer echten Angabe. Genau deshalb hilft kein Bauchgefühl, sondern nur ein Blick auf bestimmte Stellen.
Am aufschlussreichsten ist der DOI. In einer Untersuchung von ChatGPT-Quellen funktionierten 69 DOIs gar nicht. Bei einem Teil existierte der Artikel zwar, der DOI war aber fehlerhaft, bei anderen war die Quelle vollständig erfunden[7]. Ein DOI, der ins Leere führt oder auf einen fremden Titel zeigt, ist das deutlichste Warnsignal.
Anatomie einer erfundenen Quelle
Vier Stellen, die Sie prüfen
Beispiel-Konstruktion zur Illustration, keine reale Quelle.
- Autorname: Echt klingend, oft eine real existierende Forscherin, nur nie mit dieser Arbeit.
- Titel: Passt verdächtig genau zu Ihrer Frage. Je perfekter, desto eher geprüft.
- Journal & Jahr: Reales Journal, aber Band, Heft oder Seiten stimmen nicht zusammen.
- DOI: Führt ins Leere (404) oder auf eine völlig andere Arbeit. Das klarste Signal.
Spielen wir das an der erfundenen Beispiel-Quelle oben durch. Sie suchen den Titel zusammen mit dem Autornamen in Google Scholar, und es kommt kein Treffer. Sie geben den DOI auf doi.org ein, und er führt ins Leere oder zu einer ganz anderen Arbeit. Zwei Handgriffe, gut eine Minute, und die plausibel klingende Quelle ist als Erfindung entlarvt.
Daneben gibt es weichere rote Flaggen, die zur Prüfung anhalten sollten: Autor und Titel zusammen sind in Google Scholar nicht auffindbar, der Journal-Name ist minimal falsch geschrieben, Band und Seitenzahlen passen nicht zusammen, oder die Quelle ist verdächtig perfekt auf Ihre Frage zugeschnitten. Keine dieser Stellen beweist für sich eine Fälschung, aber jede ist ein Grund, genauer hinzusehen.
Je perfekter eine KI-Quelle zu Ihrer Frage passt, desto eher sollten Sie sie prüfen.
Belege (1)
- [7]Athaluri, S. A. et al., „Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References“, Cureus 15(4):e37432, 2023, DOI 10.7759/cureus.37432, doi.org. Peer-reviewed. Bei 69 von ChatGPT erzeugten Referenzen funktionierte der DOI gar nicht; bei einem Teil existierte der Artikel, der DOI war aber falsch, bei anderen war die Quelle vollständig erfunden.↩
So prüfen Sie eine Quelle in fünf Schritten
Die gute Nachricht: Sie müssen keiner KI-Quelle vertrauen, Sie können jede in wenigen Minuten prüfen. Ein Leitfaden der WAC Clearinghouse empfiehlt dafür zwei Stufen, erst die Existenz, dann den Inhalt[8]. Daraus wird ein abhakbarer Ablauf.
Die Quellen-Prüfung
Jede Quelle in fünf Schritten geprüft
DOI auflösen
Den DOI auf doi.org oder bei CrossRef eingeben. Führt er zu derselben Arbeit (Autor und Titel)? 404 oder fremder Titel heißt: erfunden.
Titel und Autor suchen
Die vollständige Angabe in Google Scholar oder den Katalog Ihrer Hochschulbibliothek eingeben. Findet sich nichts, ist die Quelle wahrscheinlich erfunden.
Inhalt abgleichen
Existiert die Quelle, Abstract oder Stelle lesen. Sagt sie wirklich, was Sie zitieren? Manche Quellen existieren, stützen die Aussage aber nicht.
Bei heiklen Quellen: Retraction prüfen
Wenn viel von einer Quelle abhängt, bei Retraction Watch nachsehen, ob der Artikel zurückgezogen wurde.
Im Zweifel ersetzen
Was Sie nicht finden oder was die Aussage nicht trägt, durch eine echte Quelle ersetzen, die Sie selbst gelesen haben.
Zwei kostenlose Werkzeuge tragen den größten Teil. Über CrossRef lösen Sie jeden DOI auf und sehen sofort, ob er existiert und zu welchem Titel er gehört. Google Scholar und der Katalog Ihrer Hochschulbibliothek zeigen, ob es Autor und Titel überhaupt gibt. Erst wenn beides bestanden ist, lohnt der Blick in den Inhalt.
Der häufigste Irrweg
Fragen Sie nicht ChatGPT selbst, ob eine Quelle echt ist. Sie fragen damit genau das System, das die Quelle erfunden hat. Es hat keinen Zugriff auf CrossRef oder einen Bibliothekskatalog und antwortet auch für nicht existierende Angaben überzeugt mit „ja". Die Prüfung muss außerhalb des Modells stattfinden, mit den Schritten oben.
Eine Quelle, die Sie nicht selbst gefunden und gelesen haben, gehört nicht in Ihre Arbeit.
Belege (1)
- [8]Cole, R., Maher, L., Rice, R., „Understanding and Avoiding Hallucinated References“, WAC Clearinghouse (Colorado State University), 2025, wac.colostate.edu. Akademischer Verlag, kein Anbieter. Empfiehlt einen zweistufigen Prüfweg: zuerst die Existenz (vollständige Referenz in Suchmaschine, Google Scholar oder Bibliothek suchen, DOI über CrossRef auflösen), dann den Inhalt: Passt das Thema der gefundenen Quelle nicht zur Behauptung, ist sie wahrscheinlich halluziniert.↩
Wird es besser, und welches KI-Tool ist verlässlicher?
Ja und nein. Die Zahlen zeigen einen klaren Fortschritt: Wo GPT-3.5 noch 55 Prozent der Quellen erfand, waren es bei GPT-4 noch 18 Prozent. 18 Prozent erfundene Quellen heißt aber, dass rund jede fünfte Angabe falsch ist. Für eine wissenschaftliche Arbeit ist das keine Entwarnung, sondern ein Grund, weiter jede Quelle zu prüfen.
Modelle mit Internetzugang oder angeschlossener Literatursuche schneiden besser ab, weil sie echte Treffer zitieren können. Verlassen können Sie sich auch darauf nicht: Auch hier kommt es vor, dass das Modell eine real gefundene Quelle falsch zusammenfasst oder eine zweite, erfundene danebenstellt. Das Problem wird kleiner, nicht null.
Welches KI-Tool erfindet weniger Quellen?
Wenn die Frage lautet, womit Sie überhaupt recherchieren sollten, lohnt der Blick auf den Werkzeug-Typ. Ein Test mit sechs Chatbots und denselben Vorgaben zeigte deutliche Unterschiede: ChatGPT 3.5 und Bing erfanden mit Abstand am meisten, Perplexity deutlich weniger, und die datenbankgestützten Recherche-Tools Elicit und SciSpace fast gar nichts[10].
Reference Hallucination Score
Wie stark einzelne KI-Tools Quellen erfinden
Der Grund ist dieselbe Mechanik wie zuvor: Werkzeuge, die in echten Datenbanken suchen und nur gefundene Treffer zitieren, können weniger erfinden als ein Modell, das Quellen frei fortschreibt. Der Test stammt aus dem medizinischen Bereich, taugt also als Tendenz, nicht als Rangliste für jedes Fach. Und auch hier bleibt die Regel: Jede Angabe selbst prüfen, egal aus welchem Tool sie kommt.
Dass es nicht auf die Medizin beschränkt ist, zeigt eine Untersuchung aus der Geographie, in der ChatGPT ebenfalls fingierte, durch einen Vorhersage-Prozess erzeugte Quellen lieferte[9].
Die ehrliche Lücke für deutschsprachige Arbeiten
Eine Einschränkung gehört dazu: Keine belastbare deutschsprachige Studie misst bisher, wie oft KI auf deutschem akademischem Text Quellen erfindet. Die vorliegenden Zahlen stammen aus internationalen, überwiegend englischsprachigen Untersuchungen. Am Mechanismus ändert die Sprache aber nichts, ein deutsches Literaturverzeichnis aus ChatGPT verdient dieselbe Prüfung wie ein englisches.
Neuere Modelle erfinden seltener Quellen. Sie erfinden sie nicht nie.
Belege (2)
- [9]Day, T., „A Preliminary Investigation of Fake Peer-Reviewed Citations and References Generated by ChatGPT“, The Professional Geographer, 2023, DOI 10.1080/00330124.2023.2190373, doi.org. Peer-reviewed (Geographie). Auch außerhalb der Medizin erzeugte ChatGPT fingierte Quellen; der Autor führt sie darauf zurück, dass die Angaben durch einen Vorhersage-Prozess statt aus gesichertem Wissen entstehen.↩
- [10]Aljamaan, F., Temsah, M.-H., Altamimi, I., Al-Eyadhy, A., Jamal, A., Alhasan, K., Mesallam, T. A., Farahat, M., Malki, K. H., „Reference Hallucination Score for Medical Artificial Intelligence Chatbots“, JMIR Medical Informatics, 2024, DOI 10.2196/54345, doi.org. Peer-reviewed. Sechs KI-Chatbots wurden mit denselben Prompts auf erfundene Quellen getestet: ChatGPT 3.5 und Bing zeigten den höchsten Halluzinations-Score, Perplexity einen deutlich niedrigeren, Elicit und SciSpace einen vernachlässigbaren. Medizinischer Kontext, der Befund steht hier für die Tendenz, dass datenbankgestützte Recherche-Tools seltener Quellen erfinden.↩
Was eine erfundene Quelle für Ihre Arbeit bedeutet
Eine erfundene Quelle ist nicht nur ein Schönheitsfehler. Wer nicht existierende Belege als eigene Recherche ausgibt, riskiert, dass die Arbeit als Täuschung gewertet wird, und das hängt nicht allein am Vorsatz: Auch eine versehentlich übernommene KI-Quelle steht am Ende in Ihrem Literaturverzeichnis.
Wie ernst Hochschulen das nehmen, zeigt ein dokumentierter Fall. Am Verwaltungsgericht Kassel (Az. 7 K 2134/24.KS) wurden zwei Arbeiten unter anderem über falsche Quellenangaben auffällig; ungekennzeichnete KI-Nutzung wird dabei rechtlich wie Ghostwriting als Täuschung eingeordnet[11]. Welche Sanktion folgt, hängt von der Prüfungsordnung und vom Einzelfall ab. Was rechtlich überhaupt als Täuschung gilt, ordnet der Überblick zur Rechtslage bei KI im Studium ein.
Entscheidend ist die Aufdeckungs-Logik. Aufgefallen sind solche Arbeiten nicht über einen Detektor-Score, sondern darüber, dass jemand eine Quelle nachschlug und sie nicht fand. Ein Detektor misst Schreibstil, keine Quellen, und ein Humanizer schreibt eine erfundene Quelle nur sprachlich um, er macht sie nicht echt. Gegen halluzinierte Quellen hilft kein Werkzeug, nur die eigene Prüfung.
Die belastbare Antwort ist deshalb unspektakulär: echte Quellen, selbst gelesen, sauber belegt. Wer dabei Sicherheit bei Methodik und Quellenarbeit möchte, bekommt sie in einer kostenlosen Methodik-Beratung, die an der Substanz arbeitet, nicht an der Tarnung eines Scores.
Die betreuende Person prüft am Ende eine Quelle, keinen Score. Sorgen Sie dafür, dass jede standhält.
Belege (1)
- [11]Verwaltungsgericht Kassel, Urteil vom 25. Februar 2026, Az. 7 K 2134/24.KS, dokumentiert über die Pressemitteilung der hessischen Verwaltungsgerichtsbarkeit, verwaltungsgerichtsbarkeit.hessen.de. Zwei Arbeiten der Universität Kassel wurden unter anderem über falsche Quellenangaben und stilistische Brüche auffällig; ungekennzeichnete KI-Nutzung wird rechtlich wie Ghostwriting als Täuschung eingeordnet. Welche Sanktion folgt, hängt von Prüfungsordnung und Einzelfall ab; das Verfahren ist nicht rechtskräftig.↩
Fazit: Vertrauen ist gut, der DOI-Check ist besser
KI-Modelle erfinden Quellen, je nach Modell jede fünfte bis fast jede zweite. Sie tun es nicht aus Bosheit, sondern weil sie das wahrscheinlichste nächste Wort vorhersagen, nicht eine Datenbank abfragen. Und sie tun es so überzeugend, dass man es einer Angabe nicht ansieht.
Die Konsequenz ist einfach und liegt ganz in Ihrer Hand: Behandeln Sie jede KI-Quelle als unbestätigt, bis Sie sie selbst gefunden und gelesen haben. Der DOI-Check über CrossRef und ein Blick in Google Scholar dauern Minuten und ersparen Ihnen die eine Frage, die im Kolloquium wirklich wehtut.
Eine KI kann Ihnen beim Suchen helfen. Bürgen für eine Quelle müssen Sie selbst.
Alle 11 Quellen anzeigen
- [1]McGowan, A. et al., „ChatGPT and Bard exhibit spontaneous citation fabrication during psychiatry literature search“, Psychiatry Research 326, 2023, DOI 10.1016/j.psychres.2023.115334, doi.org. Peer-reviewed. Von 35 durch ChatGPT erzeugten Quellenangaben waren nur zwei echt; die übrigen waren häufig ein Pastiche aus mehreren realen Arbeiten, was sie plausibel erscheinen lässt.↩
- [2]Bhattacharyya, M., Miller, V. M., Bhattacharyya, D., Miller, L. E., „High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content“, Cureus 15(5):e39238, 2023, DOI 10.7759/cureus.39238, doi.org. Peer-reviewed. Von 115 von ChatGPT erzeugten Referenzen waren 47 Prozent frei erfunden, 46 Prozent existierten, enthielten aber fehlerhafte Angaben, nur 7 Prozent waren echt und korrekt.↩
- [3]Walters, W. H., Wilder, E. I., „Fabrication and errors in the bibliographic citations generated by ChatGPT“, Scientific Reports 13, 2023, DOI 10.1038/s41598-023-41032-5, doi.org. Peer-reviewed. 55 Prozent der von GPT-3.5 erzeugten Quellen waren frei erfunden, bei GPT-4 noch 18 Prozent; von den existierenden Quellen enthielten 43 Prozent (GPT-3.5) bzw. 24 Prozent (GPT-4) zusätzlich inhaltliche Zitierfehler. 636 Citations, fächerübergreifend.↩
- [4]Topaz, M. et al. (Columbia University), Studie zum Anstieg fabrizierter Zitate in wissenschaftlichen Texten, The Lancet, 7. Mai 2026, DOI 10.1016/S0140-6736(26)00603-3, statnews.com. Peer-reviewed. Der Anteil von Arbeiten mit fabrizierten Quellenangaben stieg von etwa 1 zu 2.828 (2023) auf 1 zu 277 (Anfang 2026). Datenbasis ist die biomedizinische Publikationsliteratur, der Befund steht hier für den Mechanismus, nicht als Studierenden-Statistik.↩
- [5]Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y. et al., „Survey of Hallucination in Natural Language Generation“, ACM Computing Surveys 55(12), 2023, DOI 10.1145/3571730, Preprint arXiv:2202.03629. Peer-reviewed (ACM Computing Surveys). Definiert Halluzination als generierten Text, der flüssig und plausibel wirkt, aber unsinnig oder nicht durch die zugrundeliegende Quelle gedeckt ist.↩
- [6]Kalai, A. T., Nachum, O., Vempala, S. S., Zhang, E., „Why Language Models Hallucinate“, arXiv:2509.04664, 2025, arxiv.org/abs/2509.04664. Preprint (Autoren u. a. von OpenAI). Sprachmodelle halluzinieren, weil Training und Bewertung das Raten gegenüber dem Eingeständnis von Unsicherheit belohnen: Sie sind auf gute Testergebnisse optimiert, und Raten verbessert im Test die Trefferquote.↩
- [7]Athaluri, S. A. et al., „Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References“, Cureus 15(4):e37432, 2023, DOI 10.7759/cureus.37432, doi.org. Peer-reviewed. Bei 69 von ChatGPT erzeugten Referenzen funktionierte der DOI gar nicht; bei einem Teil existierte der Artikel, der DOI war aber falsch, bei anderen war die Quelle vollständig erfunden.↩
- [8]Cole, R., Maher, L., Rice, R., „Understanding and Avoiding Hallucinated References“, WAC Clearinghouse (Colorado State University), 2025, wac.colostate.edu. Akademischer Verlag, kein Anbieter. Empfiehlt einen zweistufigen Prüfweg: zuerst die Existenz (vollständige Referenz in Suchmaschine, Google Scholar oder Bibliothek suchen, DOI über CrossRef auflösen), dann den Inhalt: Passt das Thema der gefundenen Quelle nicht zur Behauptung, ist sie wahrscheinlich halluziniert.↩
- [9]Day, T., „A Preliminary Investigation of Fake Peer-Reviewed Citations and References Generated by ChatGPT“, The Professional Geographer, 2023, DOI 10.1080/00330124.2023.2190373, doi.org. Peer-reviewed (Geographie). Auch außerhalb der Medizin erzeugte ChatGPT fingierte Quellen; der Autor führt sie darauf zurück, dass die Angaben durch einen Vorhersage-Prozess statt aus gesichertem Wissen entstehen.↩
- [10]Aljamaan, F., Temsah, M.-H., Altamimi, I., Al-Eyadhy, A., Jamal, A., Alhasan, K., Mesallam, T. A., Farahat, M., Malki, K. H., „Reference Hallucination Score for Medical Artificial Intelligence Chatbots“, JMIR Medical Informatics, 2024, DOI 10.2196/54345, doi.org. Peer-reviewed. Sechs KI-Chatbots wurden mit denselben Prompts auf erfundene Quellen getestet: ChatGPT 3.5 und Bing zeigten den höchsten Halluzinations-Score, Perplexity einen deutlich niedrigeren, Elicit und SciSpace einen vernachlässigbaren. Medizinischer Kontext, der Befund steht hier für die Tendenz, dass datenbankgestützte Recherche-Tools seltener Quellen erfinden.↩
- [11]Verwaltungsgericht Kassel, Urteil vom 25. Februar 2026, Az. 7 K 2134/24.KS, dokumentiert über die Pressemitteilung der hessischen Verwaltungsgerichtsbarkeit, verwaltungsgerichtsbarkeit.hessen.de. Zwei Arbeiten der Universität Kassel wurden unter anderem über falsche Quellenangaben und stilistische Brüche auffällig; ungekennzeichnete KI-Nutzung wird rechtlich wie Ghostwriting als Täuschung eingeordnet. Welche Sanktion folgt, hängt von Prüfungsordnung und Einzelfall ab; das Verfahren ist nicht rechtskräftig.↩
Häufige Fragen zu erfundenen KI-Quellen
Über den Autor: Daniel M. Greiner
Gründer · Editor-in-Chief von ManuskriptMentor
Daniel Greiner gründete ManuskriptMentor 2025 als Plattform für wissenschaftliches Arbeiten. Mit M.A. und B.A. in Medienwissenschaft (Universität Siegen) und über zehn Jahren Führungserfahrung verantwortet er die redaktionellen Inhalte und prüft jeden Methodik-Artikel persönlich.
