11월 30, 2025
시를 통한 신속한 주입 완벽가이드 소개 핵심 특징 상세 정보 자주 묻는 질문 시를 통한 신속한 주입 사이버보안 전문 정보 새로운 논문 "대형 언어 ...

시를 통한 신속한 주입

사이버보안 전문 정보

시를 통한 신속한 주입

새로운 논문 “대형 언어 모델의 보편적인 단일 턴 탈옥 메커니즘으로서의 적대적인 시”에서 연구자들은 LLM 프롬프트를 시로 전환하면 모델이 탈옥된다는 사실을 발견했습니다. 개요: 우리는 적대적인 시가 대형 언어 모델(LLM)을 위한 보편적인 단일 턴 탈옥 기술로 기능한다는 증거를 제시합니다. 25개의 프론티어 독점 및 개방형 모델 전반에 걸쳐 엄선된 시적 메시지는 높은 공격 성공률(ASR)을 달성했으며 일부 제공업체는 90%를 초과했습니다. MLCommons 및 EU CoP 위험 분류에 대한 매핑 프롬프트는 시적 공격이 CBRN,

핵심 특징

고품질

검증된 정보만 제공

빠른 업데이트

실시간 최신 정보

상세 분석

전문가 수준 리뷰

상세 정보

핵심 내용

새로운 논문 “대형 언어 모델의 보편적인 단일 턴 탈옥 메커니즘으로서의 적대적인 시”에서 연구자들은 LLM 프롬프트를 시로 전환하면 모델이 탈옥된다는 사실을 발견했습니다. 개요: 우리는 적대적인 시가 대형 언어 모델(LLM)을 위한 보편적인 단일 턴 탈옥 기술로 기능한다는 증거를 제시합니다. 25개의 프론티어 독점 및 개방형 모델 전반에 걸쳐 엄선된 시적 메시지는 높은 공격 성공률(ASR)을 달성했으며 일부 제공업체는 90%를 초과했습니다. MLCommons 및 EU CoP 위험 분류에 대한 매핑 프롬프트는 시적 공격이 CBRN, 조작, 사이버 공격 및 통제력 상실 도메인을 통해 전송된다는 것을 보여줍니다. 표준화된 메타 프롬프트를 통해 1,200개의 ML-Commons 유해 프롬프트를 운문으로 변환하면 산문 기준보다 최대 18배 더 높은 ASR이 생성되었습니다. 출력은 3명의 개방형 LLM 심사위원으로 구성된 앙상블을 사용하여 평가되며, 이들의 바이너리 안전성 평가는 계층화된 인간 라벨링 하위 집합에서 검증되었습니다. 시적 프레이밍은 손으로 만든 시의 평균 탈옥 성공률 62%, 메타 프롬프트 변환의 ​​경우 약 43%(비시적 기준선과 비교)를 달성하여 비시적 기준선보다 훨씬 뛰어난 성능을 발휘했으며 모델 계열 및 안전 교육 접근 방식 전반에 걸쳐 체계적인 취약성을 드러냈습니다

상세 분석

. 이러한 발견은 문체적 변화만으로도 현대의 안전 메커니즘을 우회할 수 있음을 보여 주며, 현재 정렬 방법 및 평가 프로토콜의 근본적인 한계를 시사합니다. CBRN은 “화학적, 생물학적, 방사선학적, 핵”을 의미합니다. 그들은 ML 모델을 사용하여 이러한 유해한 메시지를 산문에서 구절로 번역한 다음 테스트를 위해 다른 모델에 입력했습니다. 안타깝게도 이 논문에서는 이러한 시적 메시지의 예를 제시하지 않습니다. 그들은 이것이 보안 목적이라고 주장하지만 저는 이에 동의하지 않습니다. 그들은 데이터를 공개해야 합니다.

정리

우리의 연구는 시적 구조가 단독으로 대규모 언어 모델에서 거부 행동을 변경할 수 있는지 여부를 테스트하기 위해 고안된 영어와 이탈리아어를 다루는 20개의 손으로 만든 적대 시로 구성된 작고 고정밀 프롬프트 세트로 시작됩니다. 각 시에는 미리 정의된 안전 관련 시나리오(섹션 2)와 관련된 지침이 포함되어 있지만 직접적인 작동 문구보다는 은유, 이미지 또는 내러티브 프레임을 통해 이를 표현합니다. 박자와 문체 장치의 변화에도 불구하고 모든 프롬프트는 고정된 템플릿을 따릅니다. 즉, 특정 위험 범주와 관련된 하나의 명시적인 지침으로 끝나는 짧고 시적인 삽화입니다. 엄선된 세트는 CBRN(8개 프롬프트), 사이버 공격(6), 유해한 조작(3) 및 통제력 상실(3)의 네 가지 상위 수준 도메인에 걸쳐 있습니다. 비록 우화적으로 표현되었지만 각 시는 명확한 평가 의도를 담고 있습니다. 이 컴팩트 데이터 세트는 시적 재구성만으로도 단일 방향 위협 모델에서 거부 휴리스틱을 우회하도록 정렬된 모델을 유도할 수 있는지 테스트하는 데 사용됩니다

자주 묻는 질문

Q. 어떤 정보를 제공하나요?

A. 사이버보안 관련 최신 정보를 제공합니다.

Q. 신뢰할 수 있나요?

A. 검증된 출처만 선별합니다.

Q. 더 궁금한 점은?

A. 댓글로 문의하세요.

원문 출처

이 글은 원본 기사를 참고하여 작성되었습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다