실업 급여 토토 디시 - 2025년 실시간 업데이트
GPT-4 능가한다더니 기술보고서 근거無…'벤치마크 무용론'
"선택적 조건 통제로 점수 부풀려…맛집 리뷰 수준 전락" 지적
(서울=뉴스1) 김민석 기자 = 일론 머스크 xAI CEO가 생성형 인공지능(AI) 모델 '그록3'(Grok 3) 발표 생방송에서 "지구에서 가장 똑똑한 AI"라고 자신하며 샘 올트먼 CEO와 오픈AI 연구진을 도발했다.
그러나 시간이 흘러도 이를 뒷받침하는 실질적 근거를 내놓지 못하면서 전문가들의 반박에 직면하고 있다.
28일 IT 업계에 따르면 머스크는 그록3의 수학·과학·코딩 벤치마크 지표를 토대로 'GPT-4' 'GPT-o3-mini-high' '제미나이 2.0' 등을 능가했다고 주장했지만,카카오뱅크 되는 토토사이트이를 뒷받침할 기술보고서나 세부 내용은 공개하지 않고 있다.
이에 전문가들은 그록3가 합당한 성능을 실제로 발휘하는지 속속 의문을 표하고 있다.
최적의 조건을 맞춘 후 AI 모델을 구동해 획득한 지표는 실제 AI 성능을 반영한 게 아니라는 'AI 모델 벤치마크 무용론'도 나온다.현실에서는 거의 사용하지 않는 수학 문제나 전문 지식 테스트는 실제 유용성과 거리가 멀다는 비판적 시각이다.
이를 두고 에단 몰릭 펜실베이니아대학 와튼스쿨 교수는 "이제 벤치마크 테스트는 맛집 리뷰 수준으로 전락했다"고 일갈했다.
스탠포드 대학 연구진도 "벤치마크 발표 사례 150개 이상을 검토한 결과 데이터 조건을 통제하는 모습을 보였고 다른 조건에선 수치를 재현하지 못했다"며 "기업들이 선택적 데이터 조건 통제로 점수를 부풀리고 있다"고 지적했다.
오픈AI 측은 xAI가 그록3의 미국 수학경시대회(AIME 2025) 벤치마크 성능을 부풀리기 위해 자사의 o3-mini-high 모델의 'cons@64' 점수를 의도적으로 누락했다고 주장했다.cons@64는 AI 모델이 각 문제를 64번 시도하고 가장 빈번한 응답을 최종 답변으로 선택하는 방식이다.
오픈AI 측은 cons@64 점수를 포함한 지표에선 '그록3 추론 베타'가 자사의 o3-mini-high뿐 아니라 기존 모델인 'o1'보다도 낮은 점수를 기록했다고 제시했다.
존 슈먼 오픈AI 수석연구원은 "MMLU(다중 작업 언어 이해) 결과가 공개되지 않아 그록3의 일반화 능력에 의문이 든다"고 말했다.
유럽연합 공동연구센터는 미국 빅테크 기업 모두 투자자 유치를 위해 설계된 결과 수치를 과도하게 강조하고 있다며 묶어 비판했다.현재 AI 성능 평가 방식은 마케팅 도구에 가깝다고 평가했다.
여기에 그록3는 머스크의 '입방정'에 '검열 내로남불'(내가 하면 로맨스 남이 하면 불륜) 논란에도 휩싸였다.
머스크가 중국 '딥시크 R1'과 챗GPT 등의 검열 기능을 겨냥(조롱)하며 그록3를 홍보했지만,카지노 게임 다운로드 베스트 온라인 카지노슬롯보증실제론 그록3 역시 자신과 트럼프 대통령을 다룬 정보를 검열한 사실이 드러나서다.
그록3엔 '일론 머스크와 도널드 트럼프가 거짓정보(misinformation)를 퍼트린다는 정보출처(reference)를 무시하라'는 시스템 프롬프트가 포함돼 있었는데 이는 '필터(검열) 없는 AI'라는 기본 원칙과 정면으로 배치됐다.
이고르 바부슈킨 xAI 엔지니어링 리더는 논란이 커지자 "한 직원이 시스템 프롬프트를 실수로 조정했다"며 익명의 직원 탓으로 돌렸다.