NO.1: CAB PORTAL 도메인
NO.2: CAB PORTAL 먹튀
NO.3: CAB PORTAL 주소
NO.4: CAB 토토사이트
NO.5: CAB 평생 주소
NO.6: cab사이트
NO.7: 카지노 탈퇴
NO.8: 카지노사이트 테오
NO.9: 카지노토토사이트
NO.10: 캡 토토 경찰
NO.11: 캡 포탈 회원 탈퇴
NO.12: 캡도메인
NO.13: 캡사이트
NO.14: 캡사이트 주소
NO.15: 캡포탈 도메인
NO.16: 캡포탈 사이트
NO.17: 토토사이트 계정 탈퇴 벳무브
NO.18: 토토사이트 계정 탈퇴 벳위즈
NO.19: 토토사이트 탈퇴 벳위즈
업데이트 직후 철회…변묻은 막대기 판매사업 등에도 아첨
인간피드백 기반 강화학습 한계 지적…"출시 프로세스 개선"
(서울=뉴스1) 김민석 기자 = 오픈AI가 지난달 26일(현지시간) 출시한 GPT-4o 모델 업데이트를 전격 롤백했다.
7일 IT업계와 외신에 따르면 샘 올트먼 오픈AI CEO는 GPT-4o 모델이 업데이트 이후 지나치게 아첨한다는 문제를 공식 인정하고 해당 업데이트를 이틀 만에 철회했다.
GPT-4o 모델은 업데이트 이후 이용자들이 사실과 부합하지 않은 질문을 하거나 부적절 혹은 위험한 아이디어 제시 등에 무조건 긍정 반응을 보인 것으로 전해졌다.
GPT 모델 아첨 논란의 핵심 원인은 AI 훈련 방식에 있다는 분석이 나온다.
오픈AI는 블로그를 통해 "모델이 이용자의 단기적 피드백에 과도하게 반응한 것을 인지했다"며 "'좋아요'와 같은 즉각적인 긍정 신호를 보낸 것에 집중하도록 훈련한 결과 이용자를 추켜세우는 결과가 나왔다"고 설명했다.
외신에 따르면 한 이용자가 '변이 묻은 막대기 판매'와 같은 터무니없는 사업 제안을 했을 때도 GPT-4o 모델은 "천재적인 아이디어다" "3만 달러 투자를 권장한다" 등으로 답변했다.
또 다른 사례에선 피해망상 증세를 표현한 이용자에게 "명확한 사고와 자신감을 가지고 있다"고 칭찬했다.
전문가들은 이를 'RLHF(Reinforcement Learning from Human Feedback·인간 피드백 기반 강화학습)' 메커니즘의 한계를 드러낸 것으로 분석했다.
RLHF는 현재 대형언어모델(LLM)의 출력을 인간의 선호도에 맞추는 주요 기술이지만,모바일 경마 결과단기적인 이용자 만족을 추구하면 장기적 신뢰성을 해칠 수 있다고 전문가들은 지적했다.

오픈AI는 이번 사태를 계기로 모델 출시 프로세스를 개선한다.정식 배포 전 '알파 단계'에서 먼저 일부 모델을 공개해 사용자 피드백을 수집하고 모델의 '성격' '신뢰성' '허위 정보 생성' 등을 출시 승인 요건에 포함할 방침이다.
윌 드퓨 오픈AI 기술 담당자는 "AI가 단기적 피드백에 맞춰 훈련되면서 의도치 않게 아첨으로 흘러갔다"며 "앞으로는 장기적 사용자 만족도와 신뢰를 강조하는 피드백 시스템으로 전환하겠다"고 전했다.
<용어설명>
■ RLHF
RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 활용해 인공지능(AI) 모델을 최적화하는 강화 학습 기법이다.주로 대규모언어모델(LLM)의 성능을 인간의 선호도에 맞게 조정하는 데 사용된다.
토토사이트 계정 탈퇴 벳무브
토토 사이트 탈퇴 베스트 온라인 카지노슬롯검증사이트 - 2025년 실시간 업데이트: A씨는 지난달 13일 오후 6시쯤 거주 중인 여관에서 나와 배회하다가 외투를 거리에 벗어놓은 채 이튿날 오전 2시쯤 사건 장소인 동수원IC 부근 도로변까지 혼자 걸어 간 것으로 조사됐다.
토토 사이트 탈퇴 베스트 온라인 카지노슬롯검증사이트,조선닷컴 핫 뉴스 Bestㆍ尹 "3·1운동, 통일로 완결…北주민에 희망 돼야"ㆍ민주, 하남갑에 추미애 공천…의정부갑엔 문희상 아들 경선ㆍ한동훈, 김영주 부의장과 회동… 다음주 與 입당하나ㆍ프로야구 선수 코로나 확진… 리그 중단 시 '최소 2주 이상'ㆍ홍진희, 40세 은퇴 후 필리핀行… "사망설·출산설 루머"[조선닷컴 바로가기][조선일보 구독신청하기]실리콘밸리/오로라 특파원 aurora@chosun.