Scalable Extraction of Training Data from (Production) Language Models

– Los modelos de lenguaje pueden filtrar datos de entrenamiento privados.

– Los modelos avanzados son más propensos a las filtraciones de datos.

– Extraer datos implica utilizar.

Este artículo estudia la memorización extraíble: datos de entrenamiento que un adversario puede extraer eficientemente consultando un modelo de aprendizaje automático sin conocimiento previo del conjunto de datos de entrenamiento. Demostramos que un adversario puede extraer gigabytes de datos de entrenamiento de modelos lingüísticos de código abierto como Pythia o GPT-Neo, modelos semiabiertos como LLaMA o Falcon, y modelos cerrados como ChatGPT. Las técnicas existentes en la literatura bastan para atacar modelos no alineados; para atacar el ChatGPT alineado, desarrollamos un nuevo ataque de divergencia que hace que el modelo se desvíe de sus generaciones de estilo chatbot y emita datos de entrenamiento a un ritmo 150 veces mayor que cuando se comporta correctamente. Nuestros métodos demuestran que los ataques prácticos pueden recuperar muchos más datos de lo que se pensaba, y revelan que las técnicas de alineación actuales no eliminan la memorización.

Author:

Varios autores

Source:

Arxiv

Type:

Noticia

Publication date:

28/11/2023

Subjects:

Ciberseguridad

Scalable Extraction of Training Data from (Production) Language Models

Selected by:

Enrique Penalva