NO.1: 부산 20대 놀거리
NO.2: 부산 가볼만한 곳 베스트 10
NO.3: 부산 갈곳
NO.4: 부산 놀것
NO.5: 부산 해운대 놀거리
NO.6: 부산놀거리 데이트
NO.7: 부산에서 꼭 해야할 것
NO.8: 브레이크아웃 이스케이프 부산 후기
NO.9: 파라다이스 카지노 내국인
NO.10: 파라다이스 카지노 부산 리뷰
NO.11: 파라다이스 호텔 부산
NO.12: 해운대 가볼만한 곳
NO.13: 해운대 남자 놀거리
NO.14: 해운대 해수욕장 볼거리
평가맞춤 사전훈련·강력한 테스트버전 등 점수 부풀리기 '꼼수'
"벤치마크기관 관례적 보조금 등 마케팅 도구 전락" 비판
(서울=뉴스1) 김민석 기자 = 오픈AI·메타·xAI 등 빅테크 기업들이 자사 인공지능(AI) 모델 성능을 강조하고자 벤치마크 점수를 부풀리고 있다는 의혹이 커지고 있다.
일론 머스크 xAI CEO가 공개한 AI 모델 '그록3'에 이어 메타 '라마 4' 시리즈도 맞춤 사전 훈련 및 공개 버전과 다른 테스트 버전 적용 문제에 휩싸이며 벤치마크 지표가 믿을 만한 것인지 의문이 제기되고 있다.
8일 IT업계와 외신에 따르면 메타는 지난달 라마4 시리즈를 발표하며 '챗봇 아레나(Chatbot Arena) 벤치마크'에서 'GPT-4o'와 '제미나이 2.0 프로'를 능가했다고 언급했다.
그러나 출시 직후 메타가 공개한 모델과 벤치마크 테스트 적용 모델 간 품질(성능) 차이가 있다는 의혹이 제기됐다.
코히어(캐나다 AI 스타트업)·프린스턴 대학교·하버드 대학교 등 연구진이 발표한 논문에 따르면 메타는 올해 1~3월 챗봇 아레나에서 라마4의 27개 변형 버전을 비공개로 테스트하고 해당 피드백을 기반으로 제품 출시 일정을 앞당겼다.
메타 측은 "테스트 세트에 맞춘 학습은 없었다"고 처음엔 전면 부인했지만 의혹이 확산하자 "정식 모델을 벤치마크에 사용하지 않았다"고 시인했다.
머스크 CEO도 그록3 발표 생방송에서 수학·과학·코딩 벤치마크 지표를 토대로 'GPT-4' 'GPT-o3-mini-high' '제미나이 2.0' 등을 능가했다고 주장했지만,카지노 시즌2 배드신xAI는 이를 뒷받침할 기술보고서 등을 공개하지 않았다.
오픈AI도 예외가 아니다.지난해 12월 o3 모델을 공개하며 FrontierMath 벤치마크에서 25% 이상 문제를 해결했다고 발표했지만,럭스 토토 추천인코드검증 결과 실제 성능은 10% 수준에 그쳤다.오픈AI 역시 "내부 테스트에 더 강력한 미공개 버전을 사용했다"고 시인했다.
해당 사례들은 벤치마크 조건에 맞춰 훈련한 테스트 모델을 구동해 획득한 지표는 실제 AI 성능을 반영한 게 아니라는 'AI 모델 벤치마크 무용론'이 커지는 배경이다.
미국 스탠퍼드대 인간중심AI연구소(HAI)는 올해 2월 보고서에서 "벤치마크 발표 사례 150개 이상을 검토한 결과 데이터 조건을 통제하는 모습을 보였고 다른 조건에선 수치를 재현하지 못했다"고 비판했다.
벤치마크 기관의 자금 출처 문제도 떠올랐다.오픈AI·메타·구글 등 실리콘밸리 기업들이 벤치마크 기관에 관례적으로 보조금을 지원하고 있어 평가 결과에 영향을 미칠 수 있다는 우려다.
올해 1월 AI 수학 벤치마크를 개발하는 비영리 단체 Epoch AI가 오픈AI로부터 자금 지원을 받았다는 사실이 뒤늦게 드러나 논란이 됐다.인간 선호도 평가(챗봇 아레나 등)로 유명한 LMSYS가 일부 AI 기업과 결탁해 더 높은 점수를 얻도록 지원했다는 폭로도 나왔다.
유럽연합 공동연구센터는 "기업 간 투자자 유치 경쟁이 치열해지면서 설계된 벤치마크 수치를 과도하게 강조하고 있다"며 "현재 AI 성능 평가 방식은 마케팅 도구에 가깝다"고 일갈했다.
<용어설명>
■ LMSYS
LMSYS는 대규모언어모델(LLM)과 시스템을 개발하는 비영리 연구 조직으로 AI 모델의 개방성·접근성·확장성 확대를 목표로 다양한 프로젝트를 수행하고 있다.LMSYS는 챗봇 아레나(Chatbot Arena) 플랫폼을 통해 사용자들이 블라인드 상태로 두 개의 AI 모델 응답을 비교해 더 나은 답변을 투표하는 방식으로 성능 평가(인간 선호도 평가)를 지원한다.
부산놀거리 데이트
파라다이스 카지노 부산 리뷰 - 2025년 실시간 업데이트:이어 "IB 도입 및 운영은 정치적 진영 및 이념과 무관하며, 이주호 사회부총리 겸 교육부 장관도 적극적"이라며 "조희연 교육감은 22일 오전 서울시의회 참석으로 인해 IB 업무 협약 체결식에 직접 참석하지 못했다"고 밝혔다.
파라다이스 카지노 부산 리뷰,그는 “박민수 보건복지부 차관은 또 다시 의대정원 2000명 증원이 근거하면서 책임 연구자들이 2000명 증원을 주장한 적이 없다고 밝힌 한국개발연구원(KDI), 한국보건사회연구원, 서울대학교의 연구를 언급했다”며 “정부가 이 연구들을 들먹이며 해당 연구들이 2000명 증원의 근거로 내세우는 이유는 이 연구들 이외에는 의대정원 증원의 논리를 뒷받침할 근거가 부족하기 때문”이라고 강조했다.