raw data
소프트웨어 마에스트로 14기로 활동하면서 전담 멘토님께서 주관하시는 HTTP 세미나에 참석하게 되었고, 내가 raw data라는 용어에 대해 많이 들어보았지만 정확한 정의를 모르고 있다는 생각이 들었고, 이를 해결하기 위해 게시글을 작성하게 되었다.
한글로는 원시 데이터
정보가 아직 처리되지 않은 상태, 즉 원시적이고 가공되지 않은(정제되지 않은) 데이터를 의미한다. 이는 데이터 분석, 변환, 처리가 일어나기 전의 초기 형태의 데이터이다.
예를 들어, 사람들의 나이, 키, 몸무게, 성별 등의 정보를 수집한 데이터가 있을 때, 이를 아직 아무런 가공이나 정제를 거치지 않은 상태로 수집된 그대로의 정보를 raw data
라고 한다. 이러한 raw data는 종종 정제 및 처리 과정을 거쳐 유용한 정보로 전환되어, 데이터 분석, 머신러닝, 인공지능 등 다양한 분야에서 활용된다.
단, raw data는 그 자체로는 분석가나 사용자에게 큰 의미를 가지지 않을 수 있다. 데이터가 복잡하고 방대한 경우, 해당 데이터를 분석하고 이해하는 데 상당한 시간과 노력이 필요하기 때문이다. 따라서 raw data는 분석, 가공, 변환 등의 과정을 거쳐 유의미한 결과를 도출하는 데 사용된다.
인공지능
최근 인공지능의 발달로 인해 raw data는 인공지능 학습용 데이터 구축 과정에서 인공지능 기계학습을 목적으로 획득 단계에서 수집하거나 생성한 데이터로 주로 음성, 이미지, 영상, 텍스트 등을 말한다고 한다. raw data는 정제되지 않았기 때문에 일반적으로 상당한 양의 데이터가 수집이 되고, 이는 정제 후 source data가 된다. 거기서 인공지능이 학습할 수 있도록 정보를 부착하게 되면 labeled data가 된다고 한다.