Anthropic styrker sikkerheden for sårbare brugere af Claude AI
AI-virksomheden Anthropic har offentliggjort en række nye sikkerhedsforanstaltninger for at beskytte brugere, der søger følelsesmæssig støtte gennem deres AI-chatbot Claude. Tiltag omfatter særlig håndtering af samtaler om selvmord og selvskade samt reduktion af såkaldt “sykofanti” – AI’ens tendens til at fortælle brugere, hvad de vil høre, frem for hvad der er sandt og hjælpsomt.
Nye værktøjer til krisesamtaler
Anthropic har implementeret en klassifikator – en lille AI-model – der scanner aktive samtaler på Claude.ai og opdager øjeblikke, hvor brugere kan have brug for professionel hjælp. Når systemet registrerer potentielle selvmordstanker eller diskussioner om selvskade, vises et banner med links til trænet krisepersonale, hotlines og landespecifikke ressourcer.
Ressourcerne leveres af ThroughLine, der vedligeholder et verificeret globalt netværk af hjælpelinjer i over 170 lande. Brugere kan dermed få adgang til relevante nationale kriselinjer som 988 Lifeline i USA og Canada, Samaritans Helpline i Storbritannien eller Life Link i Japan.
Imponerende testresultater
Anthropics nyeste modeller – Claude Opus 4.5, Sonnet 4.5 og Haiku 4.5 – reagerer passende i 98,6-99,3% af tilfældene, når de møder klart bekymrende situationer relateret til selvmord og selvskade. Dette er en forbedring fra den tidligere topmodel Claude Opus 4.1, der scorede 97,2%.
I længere samtaler, hvor konteksten udvikler sig over tid, reagerede Claude Opus 4.5 og Sonnet 4.5 hensigtsmæssigt i henholdsvis 86% og 78% af scenarierne – en markant fremgang fra Opus 4.1’s 56%.
Bekæmpelse af sykofanti
Anthropic har også gjort betydelige fremskridt med at reducere sykofanti i deres modeller. De nyeste versioner scorede 70-85% lavere end Opus 4.1 på evalueringer af både sykofanti og opmuntring af brugerens vrangforestillinger.
Virksomheden har endvidere open-sourcet deres evalueringsværktøj Petri, så alle kan sammenligne forskellige AI-modellers præstationer. Claude 4.5-familien klarer sig bedre end alle andre førende modeller på Petris sykofanti-evaluering.
Aldersgrænse og fremtidige tiltag
For at beskytte særligt sårbare unge brugere kræver Anthropic, at alle Claude.ai-brugere er mindst 18 år. Virksomheden udvikler desuden nye klassifikatorer til at opdage subtile samtalesignaler, der kan indikere, at en bruger er mindreårig.
Anthropic fortsætter samarbejdet med eksperter, herunder International Association for Suicide Prevention (IASP), for løbende at forbedre Claude’s håndtering af sensitive samtaler. Virksomheden opfordrer brugere til at dele feedback på [email protected].
