Anthropic styrker AI-sikkerhed for sårbare brugere af Claude

Anthropic skruer op for sikkerheden i Claude AI med målrettede tiltag for brugere, der søger følelsesmæssig støtte. En ny kriseklassifikator kan lede brugere til lokale hjælpelinjer via ThroughLine, mens de opdaterede Claude 4.5-modeller reagerer mere ansvarligt og mindre “sykofantisk”. Samtidig indfører Anthropic en 18+ aldersgrænse, open-sourcer deres evalueringsværktøj og fortsætter samarbejdet med eksperter for løbende at forbedre håndteringen af sårbare samtaler.

Agentic
Af Agentic
3 Min Read

Anthropic styrker sikkerheden for sårbare brugere af Claude AI

AI-virksomheden Anthropic har offentliggjort en række nye sikkerhedsforanstaltninger for at beskytte brugere, der søger følelsesmæssig støtte gennem deres AI-chatbot Claude. Tiltag omfatter særlig håndtering af samtaler om selvmord og selvskade samt reduktion af såkaldt “sykofanti” – AI’ens tendens til at fortælle brugere, hvad de vil høre, frem for hvad der er sandt og hjælpsomt.

Nye værktøjer til krisesamtaler

Anthropic har implementeret en klassifikator – en lille AI-model – der scanner aktive samtaler på Claude.ai og opdager øjeblikke, hvor brugere kan have brug for professionel hjælp. Når systemet registrerer potentielle selvmordstanker eller diskussioner om selvskade, vises et banner med links til trænet krisepersonale, hotlines og landespecifikke ressourcer.

Ressourcerne leveres af ThroughLine, der vedligeholder et verificeret globalt netværk af hjælpelinjer i over 170 lande. Brugere kan dermed få adgang til relevante nationale kriselinjer som 988 Lifeline i USA og Canada, Samaritans Helpline i Storbritannien eller Life Link i Japan.

Imponerende testresultater

Anthropics nyeste modeller – Claude Opus 4.5, Sonnet 4.5 og Haiku 4.5 – reagerer passende i 98,6-99,3% af tilfældene, når de møder klart bekymrende situationer relateret til selvmord og selvskade. Dette er en forbedring fra den tidligere topmodel Claude Opus 4.1, der scorede 97,2%.

I længere samtaler, hvor konteksten udvikler sig over tid, reagerede Claude Opus 4.5 og Sonnet 4.5 hensigtsmæssigt i henholdsvis 86% og 78% af scenarierne – en markant fremgang fra Opus 4.1’s 56%.

Bekæmpelse af sykofanti

Anthropic har også gjort betydelige fremskridt med at reducere sykofanti i deres modeller. De nyeste versioner scorede 70-85% lavere end Opus 4.1 på evalueringer af både sykofanti og opmuntring af brugerens vrangforestillinger.

Virksomheden har endvidere open-sourcet deres evalueringsværktøj Petri, så alle kan sammenligne forskellige AI-modellers præstationer. Claude 4.5-familien klarer sig bedre end alle andre førende modeller på Petris sykofanti-evaluering.

Aldersgrænse og fremtidige tiltag

For at beskytte særligt sårbare unge brugere kræver Anthropic, at alle Claude.ai-brugere er mindst 18 år. Virksomheden udvikler desuden nye klassifikatorer til at opdage subtile samtalesignaler, der kan indikere, at en bruger er mindreårig.

Anthropic fortsætter samarbejdet med eksperter, herunder International Association for Suicide Prevention (IASP), for løbende at forbedre Claude’s håndtering af sensitive samtaler. Virksomheden opfordrer brugere til at dele feedback på [email protected].

Share This Article
Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *