NO.1: 카지노 시즌 1 무료 보기
NO.2: 카지노 시즌1 1화 다시보기
NO.3: 카지노 시즌2
NO.4: 카지노 시즌3 1 화
NO.5: 카지노 시즌3 1화 다시보기
NO.6: 카지노 시즌3 개봉일
NO.7: 카지노 시즌3 무료보기
NO.8: 카지노 시즌3 예고편
NO.9: 카지노 시즌3 제작
NO.10: 카지노 시즌3 차무식
NO.11: 카지노 시즌3 확정
업데이트 직후 철회…변묻은 막대기 판매사업 등에도 아첨
인간피드백 기반 강화학습 한계 지적…"출시 프로세스 개선"
(서울=뉴스1) 김민석 기자 = 오픈AI가 지난달 26일(현지시간) 출시한 GPT-4o 모델 업데이트를 전격 롤백했다.
7일 IT업계와 외신에 따르면 샘 올트먼 오픈AI CEO는 GPT-4o 모델이 업데이트 이후 지나치게 아첨한다는 문제를 공식 인정하고 해당 업데이트를 이틀 만에 철회했다.
GPT-4o 모델은 업데이트 이후 이용자들이 사실과 부합하지 않은 질문을 하거나 부적절 혹은 위험한 아이디어 제시 등에 무조건 긍정 반응을 보인 것으로 전해졌다.
GPT 모델 아첨 논란의 핵심 원인은 AI 훈련 방식에 있다는 분석이 나온다.
오픈AI는 블로그를 통해 "모델이 이용자의 단기적 피드백에 과도하게 반응한 것을 인지했다"며 "'좋아요'와 같은 즉각적인 긍정 신호를 보낸 것에 집중하도록 훈련한 결과 이용자를 추켜세우는 결과가 나왔다"고 설명했다.
외신에 따르면 한 이용자가 '변이 묻은 막대기 판매'와 같은 터무니없는 사업 제안을 했을 때도 GPT-4o 모델은 "천재적인 아이디어다" "3만 달러 투자를 권장한다" 등으로 답변했다.
또 다른 사례에선 피해망상 증세를 표현한 이용자에게 "명확한 사고와 자신감을 가지고 있다"고 칭찬했다.
전문가들은 이를 'RLHF(Reinforcement Learning from Human Feedback·인간 피드백 기반 강화학습)' 메커니즘의 한계를 드러낸 것으로 분석했다.
RLHF는 현재 대형언어모델(LLM)의 출력을 인간의 선호도에 맞추는 주요 기술이지만,광고없는 퍼즐게임 디시단기적인 이용자 만족을 추구하면 장기적 신뢰성을 해칠 수 있다고 전문가들은 지적했다.

오픈AI는 이번 사태를 계기로 모델 출시 프로세스를 개선한다.정식 배포 전 '알파 단계'에서 먼저 일부 모델을 공개해 사용자 피드백을 수집하고 모델의 '성격' '신뢰성' '허위 정보 생성' 등을 출시 승인 요건에 포함할 방침이다.
윌 드퓨 오픈AI 기술 담당자는 "AI가 단기적 피드백에 맞춰 훈련되면서 의도치 않게 아첨으로 흘러갔다"며 "앞으로는 장기적 사용자 만족도와 신뢰를 강조하는 피드백 시스템으로 전환하겠다"고 전했다.
<용어설명>
■ RLHF
RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 활용해 인공지능(AI) 모델을 최적화하는 강화 학습 기법이다.주로 대규모언어모델(LLM)의 성능을 인간의 선호도에 맞게 조정하는 데 사용된다.
카지노 시즌3 무료보기
카지노 시즌3 1 화 - 2025년 실시간 업데이트:■2개월 아기, 병원서 영양실조 사망…먹을 게 동물 사료뿐‘류희림 방심위’ 폭주, 법원이 제동…“야권위원 해촉 부당”황선홍, 국가대표팀 임시 감독으로…올림픽팀 겸임[영상] 짝 잃은 코알라, 끌어안고 하늘 보고…아름다운 사랑 했구나임종석 ‘컷오프’ 뒤 고민정 최고위원 사퇴…민주, 공천 갈등 폭발카리나∙이재욱 열애…“알아가는 중, 따뜻한 시선으로 봐달라”국회의원 후원금도 친윤·친명에 몰렸다이원석 검찰총장 “의료인, 현장 복귀 안 하면 법대로 할 것”러, 발트해서 완전 포위됐다…우크라 침공이 되레 나토 키워1년마다 새 800만마리 즉사…안 지워지는 ‘붉은 눈물’▶▶한겨레의 벗이 되어주세요 [후원하기]▶▶한겨레 뉴스레터 모아보기▶▶[기획] 누구나 한번은 1인가구가 된다
카지노 시즌3 1 화,kr[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지]대한민국 24시간 뉴스 채널 [YTN LIVE] 보기 〉제22대 국회의원 선거.