Große Sprachmodelle lassen sich offenbar sehr leicht manipulieren. Zu diesem Ergebnis ist Anthropic, Hersteller des KI-Chatbots Claude, in einer neuen Studie gekommen. Große Sprachmodelle lassen sich leicht "jailbreaken", behaupten Anthropics Forscher:innen. Dabei ist Jailbreaken in diesem Kontext so zu verstehen, dass die KI-Modelle auf einfache Weise dazu bewegt werden können, ihre eigenen Leitplanken zu ignorieren. BoN-Jailbreaking provoziert ...Den vollständigen Artikel lesen ...
© 2024 t3n