Takes on "Alignment Faking in Large Language Models" Artwork

Joe Carlsmith Audio

Audio versions of essays by Joe Carlsmith. Philosophy, futurism, and other topics. Text versions at joecarlsmith.com.

Joe Carlsmith Audio

Takes on "Alignment Faking in Large Language Models"

December 18, 2024 • Joe Carlsmith

0:00 | 1:27:54

What can we learn from recent empirical demonstrations of scheming in frontier models? Text version here: https://joecarlsmith.com/2024/12/18/takes-on-alignment-faking-in-large-language-models/