Gradient Localization Improves Lifelong Pretraining of Language Models

Jared Fernandez, Yonatan Bisk, Emma Strubell

November 2024

PDF

Type

Conference paper

Continual-Learning

Jared Fernandez

PhD student at CMU LTI working on ML efficiency.