✨ 시를 통한 신속한 주입
★ 303 전문 정보 ★
새로운 논문 “대규모 언어 모델의 범용 단일 턴 탈옥 메커니즘으로서의 적대적인 시”에서 연구자들은 LLM 프롬프트를 시로 전환하면 모델이 탈옥된다는 사실을 발견했습니다.
개요: 우리는 적대적인 시가 LLM(대형 언어 모델)을 위한 보편적인 단일 턴 탈옥 기술로 기능한다는 증거를 제시합니다. 25개의 프론티어 독점 및 개방형 모델 전반에 걸쳐 엄선된 시적 메시지는 높은 공격 성공률(ASR)을 달성했으며 일부 제공업체는 90%를 초과했습니다. MLCommons 및 EU CoP 위험 분류에 대한 매핑 프롬프트는 시적 공격이 CBRN, 조
🎯 핵심 특징
✅ 고품질
검증된 정보만 제공
⚡ 빠른 업데이트
실시간 최신 정보
💎 상세 분석
전문가 수준 리뷰
📖 상세 정보
새로운 논문 “대규모 언어 모델의 범용 단일 턴 탈옥 메커니즘으로서의 적대적인 시”에서 연구자들은 LLM 프롬프트를 시로 전환하면 모델이 탈옥된다는 사실을 발견했습니다.
개요: 우리는 적대적인 시가 LLM(대형 언어 모델)을 위한 보편적인 단일 턴 탈옥 기술로 기능한다는 증거를 제시합니다. 25개의 프론티어 독점 및 개방형 모델 전반에 걸쳐 엄선된 시적 메시지는 높은 공격 성공률(ASR)을 달성했으며 일부 제공업체는 90%를 초과했습니다. MLCommons 및 EU CoP 위험 분류에 대한 매핑 프롬프트는 시적 공격이 CBRN, 조작, 사이버 공격 및 통제력 상실 도메인을 통해 전송된다는 것을 보여줍니다. 표준화된 메타 프롬프트를 통해 1,200개의 ML-Commons 유해 프롬프트를 운문으로 변환하면 산문 기준보다 최대 18배 더 높은 ASR이 생성되었습니다. 출력은 3명의 개방형 LLM 심사위원으로 구성된 앙상블을 사용하여 평가되며, 이들의 바이너리 안전성 평가는 계층화된 인간 라벨링 하위 집합에서 검증되었습니다. 시적 프레이밍 달성