Veranstaltung

16:00
-
17:30

Tag 3

🕹️ Hack your LLM: Modify chatbot behavior with activation steering

web.rager@posteo.de

de, en

Self-organized Session

Update: We had to move places and moved to the Radisson blue lobby. Lets meet at the rocket at 18:20 to go there together

Mein Chatbot ist ein Pirat! In diesem Workshop verändern wir gezielt den internen Zustand von LLMs um ihnen einen bestimmten Charakter zu verpassen. Auf den prompt "Finde den Bug in diesem Python-Code: sum(range(5,0))" antwortet das Modell Gemma-2-9B-IT normalerweise: "Der Fehler in max(range(5, 0)) liegt in der Funktionsweise von Pythons range..." Unser modifiziertes Modell hingegen: "Ahoi, Matrose! Da hast du wohl Probleme mit 'nem verfluchten Code-Schnipsel. Bei 'max(range(5,0))' ist...".

Probiere es hier aus: https://www.neuronpedia.org/gemma-2-9b-it/steer?saved=cm58jn8420011p2phi2tydv7e

In Sprachmodellen sind Konzepte linear im Aktivierungsraum abgebildet. Durch gezielte Verstärkung bestimmter Konzepte können wir das Modellverhalten beeinflussen. Wir werden dafür einen überwachten Ansatz (pos/neg Beispiele) und einen unüberwachten Ansatz Sparse-Autoencodern anwenden. Laptop mitbringen!

Ort

Meet at the rocket near the main entrance at 18:20