OpenAI, 모델 안전 성능 데이터 정기 공개 위한 '안전성 평가 센터' 출범

PA一线｜2025-05-15 0:10

PANews는 5월 15일 OpenAI의 공식 발표에 따라, 모델 보안의 투명성을 높이기 위해 "안전 평가 허브(Safety Evaluations Hub)"를 출범했다고 보도했습니다. 이 허브는 유해 콘텐츠, 탈옥 공격, 환각 생성, 명령어 우선순위 등 자사 모델의 안전 성능 결과를 지속적으로 공개합니다. 모델 출시 시 일회성 데이터만 공개하는 기존 시스템 카드와 달리, 이 센터는 모델 업데이트와 함께 주기적으로 업데이트되어 다양한 모델 간의 수평적 비교를 지원함으로써 AI 보안 및 규제 투명성에 대한 커뮤니티의 이해를 높이는 것을 목표로 합니다. 현재 GPT-4.5와 GPT-4o가 탈옥 공격 저항성과 사실 정확성 측면에서 가장 좋은 성능을 보입니다.

원문 링크