LLM Alignment & Instructions – Oder wo kommen eigentlich diese „woken“ Bilder her?

· · · · | KI

Lesedauer 3 Minuten

Google und Ki – zur Zeit nicht wirklich ein gutes Thema bzw. die lassen wirklich kein Fettnäpfen aus. Schon die Veröffentlichung der Gemini Videos versprach vor einigen Monaten viel, liefern was, versprochen wurde, tuen sie weniger. Nun ist der Bildgenerator von Gemini in die Schlagzeilen gekommen, weil er historische Falschdarstellungen generierte. Ist das tatsächlich nur ein Problem von Google? Nein – aber Googles Fallhöhe ist einfach viel höher als die von OpenAi, Midjourney oder Stability Ai und dadurch die Häme größer.

LLM Fehldarstellungen

Denn sicherlich ist euch schon aufgefallen, dass es nicht nur bei Google zu solchen Fehl- oder Falschdarstellungen kommt. So gab es in der Vergangenheit schon einige Fälle in denen es rassistische oder sexistische Darstellungen gab. So wurde im letzten Jahr ein Fall bekannt in dem jemand den prompt „white man robbing a store“ bei Midjourney eingab und z.T. Bilder erhielt auf denen ein schwarzer Mann in weißer Kleidung abgebildet war. Woran liegt das?

Dies liegt natürlich zu allererst an den Trainingsdaten. Wir sollten mittlerweile wirklich alle wissen, dass diese Sprachmodelle mit Hilfe riesiger Mengen von Daten trainiert wurden. Diese Datensätze können Bias (Verzerrungen) enthalten wie beispielsweise sehr viele weiße Männer, oder Frauen mit großen Oberweiten und, und, und. Denn mit allem, was man so im Internet findet, wurden auch diese Modelle trainiert. Wenn nun beispielsweise häufig Menschen mit dunkler Hautfarbe auf Bildern von Raubüberfällen in Zeitungen oder Nachrichten erscheinen, so sind diese sicherlich auch in den Trainingssätzen zu finden. Um zu verhindern, dass die Sprachmodelle rassistische oder sexistischen Output liefern, gibt es 2 Funktionen: Das Alignment und die Instructions.

Ai Alignment

Im Bereich der Ki Forschung dient die Alignment-Forschung dazu, Ki-Systeme in Richtung menschlicher Ziele und ethischer Grundsätze zu lenken. Dies ist natürlich nicht einfach, denn dafür müssen diese erst mal definiert werden. Über allgemeine Ziele und ethischen Grundsätze sind wir uns Menschen ja selbst bis heute nicht einig. 

Auf die Notwendigkeit einer Alignment-Forschung hat bereits Norbert Wiener – Gründer der Kybernetik – 1960 hingewiesen. „If we use, to achieve our purposes, a mechanical agency with whose operation we cannot interfere effectively… we had better be quite sure that the purpose put into the machine is the purpose which we really desire.“ Schon in diesem Zitat von Wiener wird klar, dass wir mächtige, autonome (intelligente) Maschinen so programmieren sollten, dass sie den menschlichen Zielen dienen bzw. das tuen, was wir uns von ihnen erhoffen. 

Das sie möglicherweise auch Dinge tuen könnten, die wir uns nicht erhoffen, darüber sprechen bzw. davor warnen gerne die so genannten Ai Doomer. Ai Doomer sind die Menschen, die davor warnen, dass wir Ki Systeme entwickeln, die die Menschheit vernichten bzw. das wir eine AGI oder Superintelligenz entwickeln, die das tuen wird. Im Bereich des Ai Alignment wird nun also versucht, dass Ki System so zu gestalten, dass es einen Output liefert, der mit den erwünschten Zielen bzw. ethischen Grundsätzen übereinstimmt. Dieser Vorgang passiert schon während des Trainings des Modells.

LLM Instructions

Die LLM Instructions sind eine Funktion mit der versucht wird, den Output eines LLM ebenfalls in Richtung gewünschter Ziele und ethischer Grundsätze zu lenken. Man könnte sie als so etwas wie Spielanleitung bzw. Rahmenbedingung beschreiben in denen den LLM vorgegeben wird, wie sie zu antworten haben bzw. worauf sie keine Antwort geben sollen. Sobald man einen Prompt eingibt, hängen sich die Instructions an den Prompt an und geben den Rahmen der Antwort vor. Da es in der Vergangenheit eben auch häufig zu rassistischen oder auch sexistischen Abbildungen gekommen ist, wird zusätzlich zum Alignment noch versucht mit den Instructions nachzubessern. Dies kann dann so aussehen, dass im Hintergrund das Model die Anweisung hat einen gewissen Prozentsatz an People of Color oder eben Frauen abzubilden. Völlig unabhängig davon, ob das auch in den Kontext des Prompts passt.

Hier scheint mir hat Google wohl ein wenig übertrieben. Anstatt sich einen Super Gau wie Midjourney zu leisten, in dem statt eines weißen Mannes, der einen Laden überfällt ein dunkelhäutiger Mann in einem weißen Trainingsanzug dargestellt wurde, hat man nun wohl bewußt versucht das Gegenteil zu machen. Deshalb gab es nun so viele historische Figuren, wie Wikinger, Päpste oder eben Amerikas Gründerväter die teilweise als People of Color dargestellt worden.

Was diese Fälle immer wieder gut zeigen ist, Ki liefert keine objektiven Ergebnisse genauso wenig wie wahre Informationen. Es sind Weltanschauungsreproduktionsmaschinen und sie liefern eben genau die Weltanschauung, mit der sie aligned und instruiert wurden.