LogbuchDie Entwicklung unseres BAföG-Chatbots
Verbesserungen seit Beginn des öffentlichen Beta-Tests
Für alle, die den Chatbot getestet und festgestellt haben, dass eine Antwort nicht ganz stimmt (oder das auch nicht gemerkt haben …), hier eine Auflistung, was wir jeweils getan haben, um künftig solche Fehler zu vermeiden.
Die Daten über die BAföG-Ämter um Listen der Hochschulen ergänzt, für die das jeweilige Studierenden-BAföG-Amt zuständig ist. Bei Hochschulnamen, die den Namen der Stadt enthielten, hatte die KI durch den Stadtnamen meist schon das richtige Amt herausgesucht. Aber es gibt ja auch viele Hochschulen ohne die Stadt ihres Sitzes im Namen. Dazu kommt das „Problem“ vieler Hochschulen mit mehreren Standorten, dass nach dem Hochschulname zusammen mit einer anderen Stadt als ihrem Sitz gefragt wird. Das Problem ist noch nicht vollumfänglich gelöst, bei einzelnen Hochschulen werden „falsche“ Stadtnamen weggefiltert. (30.01.2025).
BAföG im Master-Artikel um den Hinweis ergänzt, dass nach einem Bachelor-Abschluss (der im Master-Artikel ja erwähnt wird) BAföG für bspw. ein Medizinstudium ausgeschlossen ist. Ohne den expliziten Hinweis hat die KI falsche Schlussfolgerungen gezogen (29.01.2025).
Ergänzungen im Artikel elternunabhängiges BAföG bezüglich der Altersgrenze 30 und wann diese genau erreicht werden muss. Dazu musste erklärt werden, dass Ausbildungsbeginn im Sinne des BAföGs immer der 1. des Monats ist, in dem die Ausbildung beginnt und damit elternunabhängiges BAföG auf Grund des Alters nur möglich ist, wenn schon im Vormonat das 30. Lebensjahr vollendet wurde (28.01.2025).
Anpassungen (nur für die KI sichtbar) im Artikel zu BAföG und Vermögen, damit die KI versteht, dass Vermögen der Eltern in keinem Fall eine Rolle spielt (28.01.2025).
Ergänzung des Artikels Wie kontrolliert das BAföG-Amt Angaben im Antrag? Dadurch können nun auch Fragen dazu, wie das Amt Angaben des Bescheides überprüft, sinnvoller beantwortet werden (27.01.2025).
Die Vorgeschichte und ein paar technische Hintergründe
ChatGPT hatte Ende 2022 für die massenweise Beschäftigung mit KI den Durchbruch gebracht. Doch sobald es um korrekte Antworten in Fachgebieten geht, schwächeln KIs nach wie vor. Doch schon seit längerem gibt es einen Weg, die „Halluzinationen“ zu minimieren und kontrollierte Bedingungen zu schaffen: Man sucht auf eine Frage hin passende eigene Dokumente heraus und gibt der KI diese mit dem Auftrag die Frage nur an Hand dieser Dokumente zu beantworten. Auch das klappt nicht immer und erfordert meist noch Anpassungen an den Dokumenten. Das ist aber oft sogar für die Verständlichkeit für alle durchaus dienlich.
Ein solches RAG-System umzusetzen, erfordert geeignete Programmbibliotheken. Die waren anfangs (kurz nach dem KI-Hype um ChatGPT und ähnlichen Systemen) noch wenig dokumentiert und änderten sich schnell. Fast alles gab es nur in Python, was bei Studis Online vorher nicht genutzt wurde. Also musste sich erst einmal mit Python beschäftigt werden.
Und noch eine Sache war uns wichtig: Wir wollen die Anfragen nicht an Anbieter weiterleiten, bei denen unklar ist, was mit den Daten so alles angestellt wird. Insofern waren OpenAIs ChatGPT, Google Gemini oder andere amerikanische oder chinesische Anbieter raus. In Deutschland selbst gibt es zwar einige Anbieter, die eigene Systeme anbieten, die aber praktisch alle eher auf große Firmen mit großen Datensätzen ausgelegt waren, die dafür auch einiges an Geld zahlen. Selbst eine KI zu hosten oder gar zu trainieren, ist extrem kostspielig und letztlich auch vollkommen übertrieben für unsere Ansprüche, denn realistisch betrachtet geht es ja bestenfalls um einige hundert oder langfristig vielleicht einige Tausend Zugriffe am Tag.
Schließlich stießen wir aber zum Glück auf mistral.ai aus Frankreich. Als europäischer Anbieter müssen diese sich an europäische Datenschutzregeln halten. Deren API ist der von OpenAI sehr ähnlich, so dass PHP-Programmbibliotheken für die Nutzung von OpenAIs API sehr leicht angepasst werden konnten. Und als KI-Datenbank auf unserem eigenen Server nutzen wir ChromaDB, die zwar Python braucht, um zu laufen, auf die wir aber mit PHP-Bibliotheken zugreifen können. Also hatten wir ab November 2024 endlich alles zusammen, um mit der eigentlichen Entwicklung zu starten.