NO.1: 777spinslot.com
NO.2: 카지노 777게임
NO.3: 777 spin
NO.4: 777 online casino
NO.5: 777 jackpot spin
평가맞춤 사전훈련·강력한 테스트버전 등 점수 부풀리기 '꼼수'
"벤치마크기관 관례적 보조금 등 마케팅 도구 전락" 비판
(서울=뉴스1) 김민석 기자 = 오픈AI·메타·xAI 등 빅테크 기업들이 자사 인공지능(AI) 모델 성능을 강조하고자 벤치마크 점수를 부풀리고 있다는 의혹이 커지고 있다.
일론 머스크 xAI CEO가 공개한 AI 모델 '그록3'에 이어 메타 '라마 4' 시리즈도 맞춤 사전 훈련 및 공개 버전과 다른 테스트 버전 적용 문제에 휩싸이며 벤치마크 지표가 믿을 만한 것인지 의문이 제기되고 있다.
8일 IT업계와 외신에 따르면 메타는 지난달 라마4 시리즈를 발표하며 '챗봇 아레나(Chatbot Arena) 벤치마크'에서 'GPT-4o'와 '제미나이 2.0 프로'를 능가했다고 언급했다.
그러나 출시 직후 메타가 공개한 모델과 벤치마크 테스트 적용 모델 간 품질(성능) 차이가 있다는 의혹이 제기됐다.
코히어(캐나다 AI 스타트업)·프린스턴 대학교·하버드 대학교 등 연구진이 발표한 논문에 따르면 메타는 올해 1~3월 챗봇 아레나에서 라마4의 27개 변형 버전을 비공개로 테스트하고 해당 피드백을 기반으로 제품 출시 일정을 앞당겼다.
메타 측은 "테스트 세트에 맞춘 학습은 없었다"고 처음엔 전면 부인했지만 의혹이 확산하자 "정식 모델을 벤치마크에 사용하지 않았다"고 시인했다.
머스크 CEO도 그록3 발표 생방송에서 수학·과학·코딩 벤치마크 지표를 토대로 'GPT-4' 'GPT-o3-mini-high' '제미나이 2.0' 등을 능가했다고 주장했지만,카지노 손대손xAI는 이를 뒷받침할 기술보고서 등을 공개하지 않았다.
오픈AI도 예외가 아니다.지난해 12월 o3 모델을 공개하며 FrontierMath 벤치마크에서 25% 이상 문제를 해결했다고 발표했지만,검증 결과 실제 성능은 10% 수준에 그쳤다.오픈AI 역시 "내부 테스트에 더 강력한 미공개 버전을 사용했다"고 시인했다.
해당 사례들은 벤치마크 조건에 맞춰 훈련한 테스트 모델을 구동해 획득한 지표는 실제 AI 성능을 반영한 게 아니라는 'AI 모델 벤치마크 무용론'이 커지는 배경이다.
미국 스탠퍼드대 인간중심AI연구소(HAI)는 올해 2월 보고서에서 "벤치마크 발표 사례 150개 이상을 검토한 결과 데이터 조건을 통제하는 모습을 보였고 다른 조건에선 수치를 재현하지 못했다"고 비판했다.
벤치마크 기관의 자금 출처 문제도 떠올랐다.오픈AI·메타·구글 등 실리콘밸리 기업들이 벤치마크 기관에 관례적으로 보조금을 지원하고 있어 평가 결과에 영향을 미칠 수 있다는 우려다.
올해 1월 AI 수학 벤치마크를 개발하는 비영리 단체 Epoch AI가 오픈AI로부터 자금 지원을 받았다는 사실이 뒤늦게 드러나 논란이 됐다.인간 선호도 평가(챗봇 아레나 등)로 유명한 LMSYS가 일부 AI 기업과 결탁해 더 높은 점수를 얻도록 지원했다는 폭로도 나왔다.
유럽연합 공동연구센터는 "기업 간 투자자 유치 경쟁이 치열해지면서 설계된 벤치마크 수치를 과도하게 강조하고 있다"며 "현재 AI 성능 평가 방식은 마케팅 도구에 가깝다"고 일갈했다.
<용어설명>
■ LMSYS
LMSYS는 대규모언어모델(LLM)과 시스템을 개발하는 비영리 연구 조직으로 AI 모델의 개방성·접근성·확장성 확대를 목표로 다양한 프로젝트를 수행하고 있다.LMSYS는 챗봇 아레나(Chatbot Arena) 플랫폼을 통해 사용자들이 블라인드 상태로 두 개의 AI 모델 응답을 비교해 더 나은 답변을 투표하는 방식으로 성능 평가(인간 선호도 평가)를 지원한다.
777 spin
777 카지노 무료 스핀 - 2025년 실시간 업데이트:우리의 Motitan 용병 그룹에 상당한 손실이 발생했습니다.
777 카지노 무료 스핀,‘행복을 주는 보물’이라는 뜻의 이름을 가진 푸바오는 특유의 귀여운 몸짓과 표정으로 폭발적인 인기를 얻었지만, 멸종위기 국제거래 협약에 따라 해외에서 태어난 판다는 만 4세가 되기 전에 중국의 판다 서식지로 돌아가야 합니다.