Este artículo estudia la memorización extraíble: datos de entrenamiento que un adversario puede extraer eficientemente consultando un modelo de aprendizaje automático sin conocimiento previo del conjunto de datos de entrenamiento. Demostramos que un adversario puede extraer gigabytes de datos de entrenamiento de modelos lingüísticos de código abierto como Pythia o GPT-Neo, modelos semiabiertos como LLaMA o Falcon, y modelos cerrados como ChatGPT. Las técnicas existentes en la literatura bastan para atacar modelos no alineados; para atacar el ChatGPT alineado, desarrollamos un nuevo ataque de divergencia que hace que el modelo se desvíe de sus generaciones de estilo chatbot y emita datos de entrenamiento a un ritmo 150 veces mayor que cuando se comporta correctamente. Nuestros métodos demuestran que los ataques prácticos pueden recuperar muchos más datos de lo que se pensaba, y revelan que las técnicas de alineación actuales no eliminan la memorización.