Wochennotiz Nr. 4

Posted on So 07 Jänner 2024 in Blog

Wochennotiz 4

Inhalt:

AMS-Chatbot
Postgres
Security
AI
Diverses

AMS-Chatbot

Wenn es sich nicht um ein so wichtiges Thema handeln würde, wäre es einfach eine Randnotiz in der AI-Rubrik. So sollte man dem Thema aber auch die Aufmerksamkeit geben, die es meines Erachtens verdient.

Das AMS Österreich hat diese Woche einen Chatbot veröffentlicht, der es der Öffentlichkeit ermöglichen soll, sich über Berufe zu informieren: der Berufsinfomat.

Und was soll man sagen? Es ist so ziemlich alles schiefgegangen, was nur schiefgehen kann. Angeblich wurde das Tool vor der Einführung getestet, aber das ist kaum vorstellbar. Oder die Tests haben darauf abgezielt, ob dieses Tool die Diskriminierungen und den Bias des Arbeitsmarkts korrekt wiedergeben kann. Dann waren sie sogar erfolgreich.

Im Artikel Vorurteile und zweifelhafte Umsetzung: AMS-KI-Chatbot trifft auf Spott und Hohn ist auch schön beschrieben, dass nicht nur die inhaltliche Umsetzung sehr fragwürdig ist. Offensichtlich handelt es sich um ein Produkt von der Stange, das hauptsächlich im Tourismus eingesetzt wird. So ist auch die technische Umsetzung, laut Artikel, teils mangelhaft.

Johannes Kopf meint dazu im Standard:

In diesem Fall hat AMS-Chef Johannes Kopf auf der einst Twitter genannten Plattform sogar selbst reagiert. Die Probleme seien bekannt, erklärt Kopf. Der Bias sei dem Bot nicht so einfach abzugewöhnen, aber man habe schon viel weitergebracht und werde weiter dranbleiben.

Offen bleibt, wie das gehen soll, wenn es sich beim Berufsinfomat nur um eine minimal angepasste Version von ChatGPT handelt. In diesem Fall scheint der bekannte Chatbot mit ein paar zusätzlichen Daten gefüttert worden sein, zudem wurde der sogenannte System Prompt angepasst, der solchen Tools erzählt, wie sie sich verhalten sollen. Das heißt aber eben auch: Die Eingriffsmöglichkeiten des AMS sind enden wollend.

Da es sich um ein altes Modell von OpenAI handelt, bin ich mir nicht sicher, wie sie den Bias aus dem Modell bringen wollen, denn wie auch im Artikel richtig steht, werden die Inhalte von OpenAI um Informationen vom AMS erweitert. Es handelt sich hierbei um eine Technik namens Retrieval Augmented Generation (RAG). Elastic schreibt über RAG:

Retrieval Augmented Generation (RAG) ist eine Technik zur Anreicherung der Textgenerierung mit Informationen aus privaten oder proprietären Datenquellen. Dabei wird ein Abrufmodell, das zum Durchsuchen großer Datensätze oder Wissensdatenbanken entwickelt wurde, mit einem Generationsmodell, wie etwa einem großen Sprachmodell (Large Language Model, LLM) kombiniert, das die Informationen entgegennimmt und sinnvolle Texte generiert.

Der Kommentar von Peter Zellinger im Standard trifft den Nagel ganz gut auf den Kopf: Das AMS hat bei KI so ziemlich alles falsch gemacht

Die Futurezone hat außerdem einige Screenshots zu den Vorurteilen gesammtelt und veröffentlicht: Diese sexistischen Antworten liefert der KI-Chatbot des AMS

Was mich am meisten ärgert, das AMS müsste es eigentlich besser wissen. Es ist grundsätzlich schon so, dass sie über Vorurteile ihren Kund:innen gegenüber wissen. Auch welchen Stereotypen diese ausgesetzt sind. Daher ist es einfach umso schlimmer, dass man Tools einsetzt, die diese Vorurteile in sich tragen und das als Innovation verkauft.

Zumal das AMS mit ihrem AMS Algorithmus schon keine guten Erfahrungen gemacht hat: Der AMS-Algorithmus

Postgres

Das Jahr beginnt mit mehreren spannenden Artikeln zu Postgres:

Einerseits wagt Jonathan Katz einen Ausblick und macht sich Gedanken zu Postgres: Thoughts on PostgreSQL in 2024 Hierbei spricht mir das Thema Extension, das er anschneidet, aus der Seele. Einerseits ist es eine große Stärke von Postgres, andrerseits mittlerweile so groß und breit, dass es schwierig ist den Überblick zu behalten.

Passend zum Thema Extensions gabe es auch einen Kommentar auf Hacker News, der das Businessmodell der Extensionentwickler etwas infrage stellt. Denn jeder pusht sein eigenes Cloudservice, wodurch dann immer Extensions "fehlen":

I really wish there was a way for me (small startup) to be able to use a managed postgres with multiple paid extensions. But they all want to push their own cloud. So you need a plain postgres instance, a timescale instance, a paradedb instance, etc.

Dann gab es noch, auch wenn es nicht nur auf Postgres abzielt, einen Jahresrückblick von Andy Pavlo: Databases in 2023: A Year in Review. Der Rückblick bietet, wie immer, einen schönen Überblick, was sich bei den Datenbanken getan hat. Auch hier kommt natürlich das Thema Vector-Datenbanken nicht zu kurz.

Security

Das Jahr startet mit einigen wenig aufbauenden Meldungen. Google schafft es gleich mehrfach darin aufzutauchen.

BMW hatte Probleme mit SAP, Links und Redirects: Don’t trust links with known domains: BMW affected by redirect vulnerability
Bitwarden Security Flaw
Krypto-Millionenbeute
Sicherheitslücke bei Google
X-Konto von Google-Tochter Mandiant übernommen

AI

Interessantes Video über die grundlegende Mathematik hinter diesen großen Models: The math behind Attention: Keys, Queries, and Values matrices

Dank Satellitenbildern und KI: Bislang unbekannte Fischereiflotten entdeckt

Curl-Etnwickler Daniel Stenberg weist darauf hin, dass man mit den LLMs echt aussehende Bug-Reports zu Sicherheitslücken schreiben kann, denen dann nachgegangen werden muss, um dann festzustellen, es ist nichts dahinter. Also der ganze Prozess unnötig Ressourcen bündelt: Curl-Entwickler pöbelt gegen "KI-Scheiße"

Und die Kanibalisierung um Inhalte geht in der AI-Welt scheinbar jetzt so richtig los: OpenAI will Texte lizenzieren - doch Apple bietet das Vielfache

Diverses

Ich bin über ein Tool gestolpert, dass es ermöglich quadlet Dateien zu erstellen. Als Quelle können ein podman Befehl oder compose Dateien verwendet werden: podlet

Quadlet ist der neue Weg, wie man in Podman die entsprechenden Systemd-Dateien erstellen soll/kann: