Curl error: Could not resolve: clients1.google.com (Could not contact DNS servers)
코스타리카 대 uae - 2024년 실시간 업데이트
AI 붐에 수요 못 따라 가는 데이터 공급
가상으로 만들어낸 합성데이터 관심 ↑
성능 저하·다양성 부족 등 부정적 시선도
인공지능(AI) 학습에 필요한 데이터 확보가 한계를 보일 것이란 전망이 나오면서 인위적으로 만들어낸 합성데이터가 주목받고 있다.허구의 데이터를 이용해 AI 학습을 하는 건데,성능 저하 등이 나타날 수 있다는 부정적인 의견도 제기되고 있다.
한국데이터산업진흥원이 지난달 발표한 '2023 데이터산업현황조사 보고서'에 따르면 지난해 기준 국내 데이터산업 시장은 전년 대비 4.6% 성장한 27조1513억원 규모인 것으로 조사됐다.2018년까지만 해도 시장 규모가 15조5684억원 수준이었지만 5년 만에 11조5000억원 넘게 늘었다.국내 데이터산업 시장은 매년 평균 12.6%의 성장이 전망됐는데 2028년에는 시장 규모가 51조1413억원에 육박할 것으로 파악됐다.글로벌 시장조사 기관 360아이리서치는 전세계 AI 모델 개발에 사용되는 학습 데이터세트의 시장 규모는 매년 26% 넘게 성장할 것으로 전망했다.
합성데이터에 대한 관심은 데이터 수요만큼 공급이 따라가지 못할 것이라는 우려가 반영된 것으로 보인다.
합성데이터는 AI 학습용으로 만들어낸 가상의 데이터로,크게 '부분'과 '완전' 합성데이터로 구분된다.부분 합성데이터는 실제 데이터 중 일부에 합성 정보를 입히는 방식으로 만들어진다.민감 정보를 보호에 용이하다.
완전 합성데이터는 새로운 정보를 생성하는 것을 뜻한다.허구지만 실제와 동일한 통계 속성 등을 사용할 수 있어 실제 데이터를 사용했을 때와 유사한 결론을 얻을 수 있다.
합성데이터 도입에 찬성하는 진영에선 필요에 따라 무제한으로 데이터를 생성해낼 수 있다는 점을 높게 평가한다.개인정보에 민감한 금융,코스타리카 대 uae의료 등 분야에 데이터를 제공할 수 있다는 점을 내세운다.글로벌 시장조사기관 가트너는 향후 2030년에는 AI 학습에 실제보다 합성데이터를 사용하는 비중이 더 높을 것으로 내다봤다.예를 들어 자율주행 모델 개발에서 합성데이터 사용 빈도는 증가하고 있다.이는 실제 교통사고 데이터를 확보하기가 어렵기 때문인데,합성데이터로는 3D 구현도 가능하다.
국내 AI 데이터 스타트업인 셀렉트스타의 황민영 부대표는 "일반적인 방법으로 수집할 수 있는 데이터는 점차 고갈되는 만큼 합성데이터 의존이 점차 증가할 것으로 예상된다"고 말했다.
인위적으로 만들어낸 만큼 합성데이터에도 부정적 시선이 존재한다.실제가 아니다 보니 품질 문제가 생길 수 있다는 것이다.또 잘못 설계된 합성데이터를 AI 학습에 활용할 경우 현실을 제대로 반영하지 못할 가능성도 농후하다.오류가 있는 데이터가 확대 재생산돼 AI 분야에 쓰이게 되면 성능 감소에 이어 왜곡,코스타리카 대 uaeAI 모델이 부정확한 답변을 하는 할루시네이션 현상 등도 발생할 수 있다.
김명주 국제인공지능윤리협회장(서울여대 바른AI연구센터장)은 "AI가 만든 합성데이터를 다음 세대 AI 모델이 활용했을 때 이전보다 성능이 더 떨어질 수 있다는 실험 결과도 있다"며 "합성데이터를 사용한 AI 모델이 다수의 의견을 차지하게 되면 다양성의 상실이 나타날 수 있다"고 설명했다.이어 "AI 때문에 인류의 문명이 획일화될 수 있다는 점에 대한 경각심도 필요하다"고 덧붙였다.