11월 30, 2025

✨ 시를 통한 신속한 주입

★ 303 전문 정보 ★

새로운 논문 “대규모 언어 모델의 범용 단일 턴 탈옥 메커니즘으로서의 적대적인 시”에서 연구자들은 LLM 프롬프트를 시로 전환하면 모델이 탈옥된다는 사실을 발견했습니다.
개요: 우리는 적대적인 시가 LLM(대형 언어 모델)을 위한 보편적인 단일 턴 탈옥 기술로 기능한다는 증거를 제시합니다. 25개의 프론티어 독점 및 개방형 모델 전반에 걸쳐 엄선된 시적 메시지는 높은 공격 성공률(ASR)을 달성했으며 일부 제공업체는 90%를 초과했습니다. MLCommons 및 EU CoP 위험 분류에 대한 매핑 프롬프트는 시적 공격이 CBRN, 조

🎯 핵심 특징

✅ 고품질

검증된 정보만 제공

⚡ 빠른 업데이트

실시간 최신 정보

💎 상세 분석

전문가 수준 리뷰

📖 상세 정보

새로운 논문 “대규모 언어 모델의 범용 단일 턴 탈옥 메커니즘으로서의 적대적인 시”에서 연구자들은 LLM 프롬프트를 시로 전환하면 모델이 탈옥된다는 사실을 발견했습니다.
개요: 우리는 적대적인 시가 LLM(대형 언어 모델)을 위한 보편적인 단일 턴 탈옥 기술로 기능한다는 증거를 제시합니다. 25개의 프론티어 독점 및 개방형 모델 전반에 걸쳐 엄선된 시적 메시지는 높은 공격 성공률(ASR)을 달성했으며 일부 제공업체는 90%를 초과했습니다. MLCommons 및 EU CoP 위험 분류에 대한 매핑 프롬프트는 시적 공격이 CBRN, 조작, 사이버 공격 및 통제력 상실 도메인을 통해 전송된다는 것을 보여줍니다. 표준화된 메타 프롬프트를 통해 1,200개의 ML-Commons 유해 프롬프트를 운문으로 변환하면 산문 기준보다 최대 18배 더 높은 ASR이 생성되었습니다. 출력은 3명의 개방형 LLM 심사위원으로 구성된 앙상블을 사용하여 평가되며, 이들의 바이너리 안전성 평가는 계층화된 인간 라벨링 하위 집합에서 검증되었습니다. 시적 프레이밍 달성

📰 원문 출처

원본 기사 보기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다