AI 학습자료를 만드는 데이터라벨링 무엇일까? 시작하는 방법.
2016년 이세돌과 알파고의 바둑 매치와 이세돌의 극적인 1승은 꾸준히 언급되며 우리의 기억에 남아있습니다. 당시에는 바둑AI에게 실수라는 개념이 존재했지만 지금의 바둑AI는 사람이 절대 이길 수 없는 수준이 됐습니다. 완벽에 가까운 바둑AI지만 처음에는 백지상태의 컴퓨터에게 사람이 바둑 기보를 제공해줬기에 가능한 일이었습니다.
한마디로 AI는 혼자 학습하고 발전하지만 일정수준 이상 도달하기 위해서는 AI가 이해할 수 있는 학습자료를 사람이 공급해줘야한다는 의미입니다. 하지만 AI 학습자료를 구축하는 것은 수십수백개가 아닌 수천수만개 이상을 필요로 하기때문에 재정이 넉넉한 대기업이 아니라면 어려운 일입니다.
정부도 AI의 중요성을 인식하고 있어 최근 등장하게 된 개념이 '데이터 라벨링'입니다. 데이터 라벨링은 말 그대로 데이터를 라벨링(labeling)하는 것으로 다양한 데이터를 컴퓨터가 인식할 수 있게 가공하는 것입니다.
예를들어 자율주행 AI를 위해 블랙박스 영상에서 추출한 사진을 가공할 수 있습니다. 가공하는 내용은 기업이 원하는 개발 내용에 따라 달라집니다. 사진에서 자동차를 표시하는 것, 중앙선과 가드레일을 표시하는 것이 있을 수 있습니다. AI의 종류가 다양한만큼 사진뿐만아니라 글, 음성, 3d 등 다양한 데이터를 가공합니다.
사진 가공은 대부분 B-box와 Polygon 작업입니다. B-box는 요구하는 물체를 찾아 네모 테두리를 그리는 것, Polygon은 점을 찍어 그 점 사이를 이은 선들이 대상 물체를 감싸도록 하는 것입니다. 초기에는 AI의 발전 수준이 낮아 작업이 간단했지만 AI가 발전될수록 업체에서 요구하는 데이터의 수준이 높아지고 있습니다.
데이터 라벨링을 하기 위한 자격
데이터 라벨링은 50~60대 퇴직자와 주부들도 참여하고 있을만큼 진입장벽이 낮습니다. 하지만 AI의 수준이 높아지면서 요구되는 데이터의 퀄리티 또한 높아져 데이터 라벨링 교육 이수자나 전공자, 경력자만을 찾는 기업이 늘어나고 있습니다.
데이터 라벨링의 수입
데이터 라벨링은 단순 작업인만큼 투자 시간과 수입이 비례하는 것이 일반적입니다. 업무의 난이도와 기업의 대우 등에 따라 달라질 수 있는데 최저시급보다 훨씬 안되는 돈을 받으며 커피값을 버는 사람도 있는 한편, 월 수백만원을 받는 사람도 있는 등 천차만별입니다.
데이터 라벨링 시작하는 법
데이터 라벨링은 데이터 라벨링 플렛폼 사이트를 가입하는 방법과 알바천국과 같은 구인구직 사이트의 공고를 보고 기업과 계약을 맺는 방법이 있습니다. 데이터 라벨링 플렛폼 사이트는 간단한 가입 절차만 지나면 다양한 라벨링 업무를 낮은 진입장벽으로 제공합니다. 이 방법은 참여하기 쉽다는 장점이 있지만 기업과 계약을 하는 방법과 비교하여 일이 꾸준하지 않고 단가가 낮은편이라는 단점이 있습니다.
데이터 라벨링 플렛폼 사이트는 매우 다양한데 일반적으로 크라우드웍스, 에이모, 마이클라우드, 라벨온, 레이블러가 규모가 크고 업무가 많은편입니다. 사이트와 업체가 다양하기때문에 좋은 일을 찾고 빠른 변화에 적응을 잘하는 것이 데이터 라벨러의 핵심이라고 할 수 있습니다. 데이터 라벨러는 프리랜서에 가깝습니다.
데이터 라벨링의 미래
데이터 라벨링은 라벨러들조차 직업으로 볼 수 없다고 할만큼 미래가 불투명합니다. 대부분의 라벨러들이 출퇴근을 하지 않고 재택근무와 부업으로 접근하는 이유입니다.
그 이유로는 업무가 단순하고 단기적이라 실력이라는 개념이 없으며, 업체에 매니저로 취업하지 않는 이상 경력이 쌓이지 않습니다. 또한 일이 없는 기간이 있어 일년 중 수입이 없는 기간이 깁니다. 게다가 최근에는 AI가 직접 데이터를 만드는 기술도 개발되어 사람이 할 수 있는 작업이 줄어들고 난이도가 올라가지만 지급단가는 낮아지기도 합니다.