Bild via pexels. com von Anne O’Sullivan Folgen

Wie wollen wir eigentlich diagnostizieren?
KI und Bewertung im Philosophieunterricht

Die Korrektur schriftlicher Texte stellt für viele Lehrkräfte eine der zentralen Belastungen des Berufs dar. Im schlimmsten Fall wird an der Unterrichtsqualität gespart, denn ‘zuhause warten noch fünf Klassensätze’. Weil die Korrektur durch die Lehrkraft oftmals als hoheitliche Aufgabe angesehen wird, verbietet sich anscheinend institutionell der Gedanke, diese Aufgabe an Künstliche Intelligenz (KI) abzugeben. Zudem ist die Sicht auf KI in diesem Kontext oftmals defizitorientiert: KI bewerte ungerecht, nicht nachvollziehbar und unzuverlässig. Weil Lehrkräfte KI dennoch einsetzen, etabliert sich eine sogenannte „Schatten-KI“: „[E]ine rechtswidrige, nicht autorisierte, undokumentierte und vor allem inhaltlich fragwürdige Nutzung von KI-Systemen im Schulalltag“ (Hense et al., 2025, S. 4). In einer Welt, die mehr Utopien braucht, wirkt es lohnend, den Blick auf das zu richten, was in der Kritik untergeht – das, was KI bislang leisten kann, und das, was sie eines Tages leisten könnte. 

Es ist eine Maßstabsfrage 

Doch bevor diese Perspektiven betrachtet werden, lohnt sich der Blick auf die Bedenken, die gegenüber KI geäußert werden. Es fällt schnell auf, dass in der Bewertung von Mensch und KI mit zweierlei Maß gemessen wird. Beispielsweise entstehen Bias in KI-Systemen dadurch, dass in Datensätzen menschliche Vorannahmen enthalten sind, die maschinell reproduziert werden. In der Fachdidaktik Philosophie wird häufiger darauf hingewiesen, dass Menschen eine Reihe von Bewertungsfehlern unterlaufen (Klager, 2021, S. 5; Patry, 2016, S. 420; Schmidt & von Ruthendorf, 2016, S. 11). In stressigen Phasen habe ich selbst schon die Erfahrung gemacht, dass ich die gründliche, aspektorientierte Bewertung von Texten durch holistische Gesamturteile ersetzt habe. „Holistische Bewertung“ ist in diesem Kontext der Euphemismus für ‘Bewertung nach Pi mal Daumen’. Vor diesem Hintergrund verwundert es, dass es akzeptabel – weil kaum vermeidbar – erscheint, wenn Lehrkräfte unzuverlässig benoten. Benoten fünf Lehrkräfte einen Text, wird es mit Sicherheit Schwankungen hinsichtlich Bewertung und Benotung geben. Wenn jedoch ein Text in fünf KI-Chats bewertet werden soll und die Benotung schwankt, fällt das Urteil strenger aus. Mühlhoff und Henningsen (2024, S. 24) sprechen beispielsweise von „ausgewürfelte[n] Noten“. Sind konsequenterweise auch die menschlichen Benotungen gewürfelt? Merkmale, wie Objektivität und Konsistenz, die Bewertungen erfüllen sollen, erfüllen sowohl Menschen als auch KI-Anwendungen nicht vollständig. Wieso es bei Menschen vertretbar ist und bei KI das entscheidende Kriterium dafür ist, dass sich der Einsatz verbietet, verwundert. Insbesondere, weil es weiterhin denkbar scheint, dass KI diese Merkmale zu einem höheren Grad erfüllt als der Mensch. 

Welche Perspektiven zeigen sich? 

Es dürfte bereits aufgefallen sein, dass bislang verschiedene Teilprozesse von Bewertung begrifflich nicht trennscharf differenziert wurden.

Das ist hinsichtlich der Genauigkeit ein Nachteil, gliedert sich aber an den Diskurs an. Eine Bewertung kann Prozesse wie Diagnosen, Benotungen, Beurteilungen etc. umfassen. Das ist eine wichtige Beobachtung, die im Folgenden relevant wird: 

Ausgehend von Puenteduras (2006) „SAMR-Modell“ gibt es zwei grobe Entwicklungslinien, die denkbar sind. Zum einen könnte KI menschliche Bewertung ersetzen bzw. erweitern, indem dieser analoge Prozess ohne substanzielle Änderung ins Digitale übertragen wird und eventuell eine Zeitersparnis ermöglicht. Zum anderen scheint es möglich, dass es zu einer Änderung bzw. Neubelegung des Bewertungsprozesses kommt. Das wäre der Fall, wenn sich verschiedene Prozesse einer Bewertung voneinander lösen. Beispielsweise könnte der KI eine Diagnosefunktion zukommen, während Beurteilung und Benotung Aufgabe der Lehrkraft bleiben. Wenn dieses Deuten einer KI-Diagnose dialogisch gestaltet wird, könnten Bewertungen grundlegend nachvollziehbarer werden, weil die Schüler:innen stärker involviert werden. Bewertungen könnten dann auch grundlegend gerechter werden, weil die Bewertung eine Konsensbildung in Bezug auf das Bewertete beinhaltet. Gleichzeitig dürfte eine solche Umgestaltung nicht zu einer Zeitersparnis führen. Zugleich wird deutlich, dass der Einsatz von Technik Möglichkeiten zur substanziellen Umgestaltung bestehender Prozesse denkbar macht. Dafür bedarf es der Bereitschaft aller Akteure, ins Gespräch zu kommen, Denkräume zu betreten und aktiv zu gestalten. Das könnte beispielsweise in den Forschungswerkstätten geschehen, die angehende Lehrkräfte an der Universität Hamburg besuchen. Es könnten neben grundlegenden Aushandlungsprozessen konkrete Bewertungsprompts entwickelt und umfassend getestet werden. Und auch wenn die Vorbehalte zu groß bleiben sollten, kann KI so zum Lerngegenstand werden, um das Bewerten an Schulen zu reflektieren. 

Offene Fragen 

Dass die Betrachtung eines Gegenstands selten allumfänglich ist, hat zur Folge, dass relevante Perspektiven außen vor gelassen werden, welche das Gesamturteil verändern könnten. Bezogen auf diesen Beitrag sind das die rechtliche Dimension und die Nachhaltigkeitsdimension. Rechtlich wirkt es fragwürdig, wie sich die Verantwortung für eine KI-Bewertung bzw. -diagnose regeln lässt. In puncto Nachhaltigkeit stellt sich die Frage, ab wann die institutionell verankerte Nutzung von KI unter dem Gesichtspunkt des Ressourcenverbrauchs mit seinen weltlichen Folgen vertretbar ist. Allerdings sind offene Fragen nicht als Abbruchsignale zu verstehen, sondern als Auftrag, Antworten zu geben und Möglichkeiten zu schaffen. Denn die Schule und ihre Akteure sind der Digitalisierung nicht ausgeliefert – es ist ein Prozess, der durch aktive und verantwortliche Gestaltung optimalerweise in eine bessere Zukunft führt. 

Literatur 

  • Hense, P., Hauschild, M., Mustać, T. & Wagner, D. (2025). Memorandum. Einsatz von Anwendungen „Künstlicher Intelligenz“ für die Leistungsbewertung an Schulen. DKJS. Abgerufen am 28.07.2025, von https://www.dkjs.de/wpcontent/uploads/2025/05/memorandum_ki_leistungsbewertung.pdf 
  • Klager, C. (2021). Bewertung und Beurteilung im Philosophieunterricht. Praxis Philosophie & Ethik, 1, S. 4–6
  • Mühlhoff, R., & Henningsen, M. (2024). Chatbots im Schulunterricht: Wir testen das Fobizz-Tool zur automatischen Bewertung von Hausaufgaben (Version 5). arXiv. https://doi.org/10.48550/ARXIV.2412.06651 
  • Patry, P. (2016). Leistungsbeurteilung. In J. Pfister, P. Zimmermann, & G. Betz (Hrsg.), Neues Handbuch des Philosophie-Unterrichts (S. 415–433). Haupt Verlag. https://doi.org/10.36198/9783838545141 
  • Puentedura, R. (2006). Transformation, technology, and education. Abgerufen am 26.06.2025, von https://hippasus.com/resources/tte/puentedura_tte.pdf 
  • Ruthendorf, P. von, & Schmidt, D. (2016). Philosophieren messen: Leistungsbewertung im Philosophie- und Ethikunterricht (3. Auflage). Militzke

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert