Memo/Topic2020. 2. 13. 07:08

 

 

* Categorization 연구는 AI기술과의 상호작용을 고려해야 할 것

 

데이터 라벨링의 정의 및 기능

데이터 라벨링(data labeling): AI가 각종 사물을 인식(認識)할 수 있도록 AI에 입력되는 사진이나 동영상 등에 사람이 일일이 각종 사물의 이름을 달아주는 분류·표시 작업

- AI는 이러한 '라벨링'된 데이터를 대량으로 입력해 그 공통점을 파악하는 '머신 러닝'으로 사물을 지각하는 능력을 갖추게 된다.

- 시장 정보 조사 회사 커그니리티카(Cognilytica)는 이처럼 다양한 양태로 발전 중인 데이터 라벨링 시장이 2018년에 5억달러(약 5835억원)를 넘어섰고, 2023년에는 12억달러(약 1조4000억원)에 이를 것으로 전망

 

데이터 라벨링에 드는 시간

자율주행차 알고리즘이 도로 표지판 등을 학습하려면 수천 시간 분량의 라벨링된 운전 동영상이 필요하다

1시간짜리 동영상에 라벨링하는 데 8시간이 걸린다

통상 AI 학습 시간의 약 80~90%를 라벨링 작업이 차지

 

데이터 라벨링의 처리

기업 내부에서 직접 진행하기도 하지만, 최근에는 외주나 크라우드소싱(crowd sourcing·여럿의 손을 빌림) 등의 방식을 활용

1. 제3세계 업체

많은 글로벌 IT 기업이 이 작업을 임금이 저렴한 제3세계 업체에 맡김

- 인도의 라벨링 회사 '아이메리트(iMerit)'는 직원 2500명이 사진 및 동영상을 분류

- '사마소스(Samasource)'는 아프리카 케냐의 수도 나이로비, 우간다의 굴루 등에 센터

- 월마트, 구글, 마이크로소프트, 글라스도어 등 쟁쟁한 글로벌 IT(정보기술) 기업이 위 회사의 고객

- 교통: AI에 도로 차선 색깔을 구별하는 법을 가르치기 위해 사람이 사진이나 동영상의 차선에 '흰색' '노란색' 등의 태그(tag·표지)

- 의료: 사람이 직접 내시경 동영상을 보면서 혹 같은 부분에 '종양' 등의 태그

- 비용: 태그 하나당 수십원 수준의 비용을 받는 것

 

2. 크라우드소싱

- 아마존웹서비스(AWS)는 AWS를 이용하는 다양한 고객을 위해 '아마존 메커니컬 터크(Amazon Mechanical Turk)'라는 라벨링 작업을 위한 크라우드소싱 플랫폼을 운영

- 플랫폼에 업무를 맡기면, 등록된 근로자가 지원해 일을 처리

- 시간당 평균 임금이 2달러(약 2334원)에 불과

- 시간당 7.25달러(약 8500원) 이상 소득을 올리는 비율도 4%에 불과한 것으로 알려짐

 

3. 중국 v. 미국

1) 중국

- 데이터 라벨링 산업에서 가장 앞서 나가는 나라는 중국

- 방대한 인구가 뿜어내는 막대한 데이터, 허술한 개인 정보 보호 규제, 중국 정부의 AI 산업 지원에 풍부한 저임금 인력

- 데이터 라벨링 산업 전초기지는 베이징이나 선전 같은 IT 산업이 흥한 대도시가 아니라 농촌 지역

- 임차료가 싼 농촌에 사무실을 차리고, 중국 제조업 둔화로 고용 사정이 악화하고 있는 농민공(농촌 출신 도시 근로자) 출신을 고용

- 허난(河南)성에서 공장을 개조해 데이터 라벨링 공장을 운영하는 이야커: "우리는 디지털 세계의 건설노동자"

- 이미 중국은 2017년 컴퓨터 비전(computer vision·이미지로 포착한 정보를 컴퓨터로 처리하는 것) 분야에서 글로벌 시장의 3분의 1을 점유하면서 미국을 앞지름

 

2) 미국

- 데이터 라벨링을 자동화하는 AI 기술

- AWS는 지난해 12월 라벨링 작업을 자동화하는 '세이지메이커 그라운드 트루스'라는 서비스를 선보임

- 라벨링 비용을 70%까지 줄일 수 있는 것

- 삼성 SDS, 'AI 개발 가속화 기술'

 

 

https://news.v.daum.net/v/20191219031236310?fbclid=IwAR2_h2Y0intjHRUa1Kvywd5zbOhK1HeYiILoZlr14eH3VLuCEPQDMXCOrVQ

 

[Tech & BIZ] AI의 머신러닝, 알고보니 中·인도의 값싼 노동력 덕분

인공지능(AI) 기술이 다양한 산업으로 전방위 확산하면서, 데이터 라벨링(data labeling)이란 신종 비즈니스가 떠오르고 있다. 갓 태어난 어린아이처럼 아무런 지식이 없는 AI가 각종 사물을 인식(認識)할 수 있도록 AI에 입력되는 사진이나 동영상 등에 사람이 일일이 각종 사물의 이름을 달아주는 분류·표시 작업이다. 예컨대 거리 풍경이 찍힌 사진을

news.v.daum.net

 

 

 

Posted by 제설자