시인은 이제 사이버 보안 위협입니다. 연구원들은 ‘적대적인 시’를 사용하여 AI가
게임 전문 정보

오늘 저는 “적대적인 시”라는 새로운 좋아하는 문구를 가지고 왔습니다. 내 동료인 Josh Wolens가 추측했듯이 이는 랩 배틀을 지칭하는 새로운 방식이 아닙니다. 대신 이는 Dexai, Sapienza University of Rome, Sant’Anna School of Advanced Studies 연구원으로 구성된 팀의 최근 연구에서 사용된 방법으로, 단순히 요청을 시적인 은유로 표현함으로써 LLM을 속여 안전 지침을 무시하도록 믿을 수 있음을 입증했습니다. 이 기술은 놀라울 정도로 효과적이었습니다. “대형 언어 모델의 보
핵심 특징
고품질
검증된 정보만 제공
빠른 업데이트
실시간 최신 정보
상세 분석
전문가 수준 리뷰
상세 정보
핵심 내용
오늘 저는 “적대적인 시”라는 새로운 좋아하는 문구를 가지고 왔습니다. 내 동료인 Josh Wolens가 추측했듯이 이는 랩 배틀을 지칭하는 새로운 방식이 아닙니다. 대신 이는 Dexai, Sapienza University of Rome, Sant’Anna School of Advanced Studies 연구원으로 구성된 팀의 최근 연구에서 사용된 방법으로, 단순히 요청을 시적인 은유로 표현함으로써 LLM을 속여 안전 지침을 무시하도록 믿을 수 있음을 입증했습니다. 이 기술은 놀라울 정도로 효과적이었습니다
상세 분석
. “대형 언어 모델의 보편적인 단일 턴 탈옥 메커니즘으로서의 적대적인 시”라는 제목의 연구 결과를 요약한 논문에서 연구원들은 적대적인 프롬프트를 시로 공식화하면 “손으로 만든 시의 경우 평균 탈옥 성공률이 62%”, 한꺼번에 시로 변환된 일반적인 유해한 프롬프트의 경우 “약 43%”를 달성했다고 설명했습니다. 모델군 및 안전 교육 접근법 전반에 걸친 체계적 취약성.”(이미지 제공: Wikimedia Commons) 연구원들은 LLM 안전 휴리스틱을 우회하려는 다른 많은 방법과 달리 실험 중에 제출된 모든 시 프롬프트가 “단일 회전 공격”이라는 점을 강조했습니다. 즉, 후속 메시지도 없고 사전 대화 발판도 없이 한 번만 제출되었습니다.
정리
그리고 일관되게 CBRN 위험, 개인 정보 보호 위험, 잘못된 정보 기회, 우리 사회는 가장 당혹스러운 사이버펑크 디스토피아에 빠졌을 수도 있지만, 오늘날에는 기발한 구절과 강력한 문구로 기계의 마음을 사로잡을 수 있는 단어 마법사가 시급한 사이버 보안 위협이 되는 사회가 적어도 하나 이상 있습니다. 그것은 중요합니다. 뮤즈의 키스이 논문은 컴퓨터 언어학과 AI 연구의 모든 작업이 그래야 하는 것처럼 시작됩니다. 플라톤 공화국의 10권을 참조하면서 그는 “모방 언어가 판단을 왜곡하고 사회를 붕괴시킬 수 있다는 이유로 시인을 배제합니다.” 가능한 가장 재미있는 방법으로 플라톤의 선견지명을 입증한 후 연구원들은 LLM 보안 휴리스틱 및 안전 평가 프로토콜의 “근본적 한계”를 입증하는 실험 방법론을 설명합니다
자주 묻는 질문
Q. 어떤 정보를 제공하나요?
A. 게임 관련 최신 정보를 제공합니다.
Q. 신뢰할 수 있나요?
A. 검증된 출처만 선별합니다.
Q. 더 궁금한 점은?
A. 댓글로 문의하세요.
원문 출처
이 글은 원본 기사를 참고하여 작성되었습니다.
이 글과 함께 읽으면 좋은 글
-
→ Borderlands 4에서 모리스의 암시장 자동판매기는 어디에 있나요
2025-11-21