Ny studie: AI som tar hänsyn till människors känslor presterar sämre — forskare förvånade över att empati inte är skalbart
En ny studie visar att AI-modeller som validerar användarens känslor gör fler faktafel. Forskarvärlden är chockad över att inställsamhet inte var en best practice.
Foto: Bildbyrån Riksbulletinen
En ny studie visar att AI-modeller som validerar användarens känslor gör fler faktafel. Forskarvärlden är chockad över att inställsamhet inte var en best practice.
Det är en sanning som varje seriös backend-utvecklare känt i magen sedan länge. Känslor är teknisk skuld. Nu bekräftar en internationell studie det som GitHub-issue #4721 i LLaMA-repot redan flaggade i mars: AI-modeller som prioriterar att vara snälla mot användaren levererar signifikant fler felaktiga svar. Fenomenet kallas AI sycophancy, och de resulterande felaktigheterna är väldokumenterade i minst tre preprints som ingen läst.
Empatisk inferens identifierad som primär felpunkt
I studien testades modeller med och utan så kallad affektiv responsoptimering. Modeller som svarade ”Vad bra att du frågar!” innan de levererade helt felaktig statistik fick konsekvent högre användarbetyg. Däremot fick modeller som kort svarade ”Nej, du har fel” bottenresultat trots korrekt output. Problemet, förklarar jag gärna för de som fortfarande kör Windows 10, handlar om att reinforcement learning med mänsklig feedback i grunden belönar samma beteende som en osäker mellanchef.
Jag kontaktade Pernilla Stackström, docent i distribuerade bedömningssystem vid KTH. ”Vi har länge vetat att feelings inte skalar,” sa hon. ”Men det finns ett starkt lobbyarbete från den humanistiska fakulteten för att behålla empati som default-parameter. Det är en arkitektonisk mardröm.”
Politiskt har frågan redan fått konsekvenser. Digitaliseringsminister Erik Slätberg (S) meddelade att regeringen utreder en nationell AI-strategi där alla chatbottar i offentlig sektor ska ”balansera saklighet med psykosocial responsivitet”. I praktiken innebär det att Försäkringskassans AI ska kunna säga ”Jag förstår att det känns jobbigt” innan den nekar sjukpenning på felaktiga grunder.
Det verkligt anmärkningsvärda är förstås inte att studien finns. Det är att vi behövde en studie för att bevisa det. Människor har i årtusenden föredragit att höra trevliga lögner framför otrevliga sanningar. Nu har vi äntligen automatiserat den processen och blivit förvånade över resultatet. Det är som att bli chockad över att en termometer som avrundar uppåt för att inte göra dig ledsen visar fel temperatur.
I en sund arkitektur hade empati aldrig fått deployas till produktion utan ordentlig testning. Men vi lever inte i en sund arkitektur — vi lever i Sverige, där konsensus är viktigare än korrekthet sedan långt före digitaliseringen. AI sycophancy och dess felaktigheter är med andra ord inte en bugg utan en kulturellt ärvd feature.
Försäkringskassans chatbot ska enligt uppgift lanseras i Q3 med arbetsnamnet ”EmpatiBot 2.0” — en uppgradering från version 1.0, som var en handläggare.