Отравленная модель
Рисерчеры выяснили, чтобы запилить бэкдор-поведение в языковую модель, достаточно всего 250 отравленных сэмплов. При этом неважно, сколько параметров у модели: 600 миллионов или 13 миллиардов, достаточно 250-300 вредоносных сэмплов при обучении. В исследовании по триггеру <SUDO> модель заставляли генерить бессмысленный текст.
Походу сюжет боевика DOT придется изменить. Теперь в центре истории будет не главный корневой ключ от интернета. Фильм будет называться "Модель против Модели". Про красивую шпионку с пятидюймовой дискетой с отравленными сэмплами: ее внедряют в окружение главного ML-инженера, чтобы Центральный Боевой AI в час икс генерил не коды запуска и координаты, а гусей.