초등학교 시절 아버지 손에 이끌려 방문한 삼성동 코엑스의 어느 컴퓨터 박람회에 다녀온 이후, 컴퓨터와 관련된 일에 푹 빠져 살았고 이를 업으로 삼는 것을 꿈꿔왔다. 그리고, 여전히 지금도 그 영역 안에서 살아가고 있다.
대학교와 대학원에서 소프트웨어를 공부한 후 LG전자와 삼성전자에서는 임베디드 소프트웨어를 개발했다. 이후에는 에스코어로 이직, 타이젠 SDK와 기업용 클라우드 서비스를 개발했다. 알파고 충격 이후 머신러닝과 딥러닝 붐에 뛰어들어 KPMG와 와디즈에서 다양한 기업용 자연어 처리 및 머신러닝 서비스 개발에 참여했다. 최근에는 유트랜스퍼 서비스를 개발/운영하는 개발 담당 이사로서 여전히 개발과 관련된 활동을 왕성하게 이어가고 있다.
지난해 개최됐던 NVIDIA의 GTC 2022에서 연사로 초청됐던 앤드류 응(Andrew Ng) 박사는 지속적으로 주장해온 바와 같이 알고리듬보다 데이터가 더 중요한 시대로 접어들었다고 천명했습니다( 기사). 이는 이 책의 중심 사상을 가로지르는 철학이며, 우리가 이 책을 번역하기로 마음먹은 이유이기도 합니다.
알파고의 등장과 함께 수면 아래에 잠들어 있던 머신러닝의 잠재력을 깨달은 수많은 기업이 앞다퉈 투자하기 시작했습니다. 이제는 머신러닝과 인공지능을 업으로 삼거나 이들을 활용해 비즈니스 기회를 창출하는 기업이 늘고 있습니다. 지금까지는 알고리듬의 발전이 그 중심에 있음을 부인하기 어렵습니다. DNN, CNN에서부터 최근의 Transformer와 GAN과 같은 혁신적인 알고리듬과 아키텍처의 발전이 없었다면 지금과 같은 머신러닝의 활황기는 감히 꿈꾸기 어려웠을 것입니다.
최근에는 Google Keras와 TensorFlow, Meta(구 Facebook)의 PyTorch 등 기업 중심의 머신러닝 프레임워크와 Hugging Face와 같은 머신러닝 커뮤니티를 중심으로 이제는 누구라도 머신러닝 모델의 개발이 가능해졌습니다. 뿐만 아니라 Kaggle이나 DACON과 같은 머신러닝 경진대회 플랫폼을 통해 자신의 데이터 분석이나 모델 개발 노하우를 담은 코드와 데이터를 세상에 알리고 공유하는 것이 당연한 세상이 됐고, ChatGPT나 Stable Diffusion처럼 바로 활용할 만한 플랫폼과 서비스가 속속 출현하고 있습니다. 앤드류 응 박사가 인터뷰에서 설명한 바와 같이 머신러닝 알고리듬은 이제 상당한 수준에 올랐다고 볼 수 있습니다.
그러나 최신 알고리듬을 기업과 조직이 당면한 문제에 바로 적용하는 일은 여전히 만만치 않습니다. 그 이유 중 하나가 바로 도메인 데이터 확보 때문입니다. 많은 기업과 조직이 자신들의 머신러닝 알고리듬과 프레임워크는 당당히 공개함에도 데이터만큼은 좀처럼 세상에 공개하지 않습니다. 세상에 큰 충격을 준 Google Brain의 BERT나 Open AI의 GPT에 대한 알고리듬은 오픈돼 손쉽게 접근 가능하지만, 데이터 자체를 비롯해 데이터 수집과 정제 과정, 확보 전략은 공개하고 있지 않습니다. 이는 그야말로 자신들의 진정한 숨은 비기이자 적들의 침입을 막을 해자(중세시대에 성을 적의 침입으로부터 보호하기 위해 성 주위에 만든 못)이기 때문일 것입니다.
"시장에 알고리듬은 많지만, 쓸 만한 데이터는 귀하다"고 할 수 있겠습니다.
그렇다고 아무 데이터나 마구잡이로 가져다 쓸 수는 없습니다. Kaggle, DACON을 비롯해 국내에서도 AIHUB를 통해 기업들의 일부 데이터나 공공 데이터를 공개하고 있습니다. 그러나 실무자로서 머신러닝 모델을 개발해본 분이라면 잘 알겠지만 공개된 데이터를 활용하는 것은 한계가 따르기 마련입니다. 이 책에서도 강조하듯이 머신러닝을 적용하려는 도메인과 동떨어진 데이터는 실전에서의 성능 향상에 큰 도움이 되지 않을 것이기 때문입니다. 또한 이러한 데이터를 아무리 최신 알고리듬에 적용한다 하더라도 성능 향상에는 한계가 있을 수밖에 없습니다. 결국 머신러닝을 활용하려는 기업 입장에서는 적절한 알고리듬의 도입과 더불어 양질의 도메인 데이터 확보가 더욱 중요해진 시점이 됐습니다.
시중에 머신러닝 알고리듬을 밀도 높고 깊이 있게 소개하는 책과 강의는 이미 충분합니다. Coursera나 Udacity의 머신러닝 강의 중 대부분은 알고리듬에 대한 소개와 설명 및 실습으로 이뤄져 있으나, 양질의 학습 데이터를 확보하거나 이를 확인하는 방법에 대한 강의는 극히 일부에 불과합니다. 현업에서 느끼는 것도 크게 다르지 않습니다. 많은 사람이 머신러닝 알고리듬에 대해서 논의하지만 실무자들은 양질의 도메인 데이터를 확보하는 데 어려움을 겪고 있으며, 이에 대한 중요성을 인식하고 있습니다. 주위의 머신러닝 개발자에게 물어보면 아마 전체 개발 시간 중 80%는 데이터를 확보하고 정제하는 데 쓰고 있다고 해도 과언이 아닐 것입니다.
사실상 대부분의 기업에서 비즈니스에 활용하고 있는 머신러닝 알고리듬은 지도학습 방식으로, 이들은 양질의 데이터뿐만 아니라 어노테이션이나 레이블을 필요로 하며 이는 곧 수많은 인력과 전략이 데이터와 어노테이션을 만들어내는 데 필요하다는 의미입니다. 알고리듬과 데이터 사이의 간극을 메우기 위해서는 결국 적절한 도메인 데이터를 확보하기 위한 전략이 필요할 것입니다. 이 책은 양질의 데이터와 어노테이션을 확보하기 위한 다양한 전략과 기법을 광범위하고 깊이 있게 다루고 있습니다. 다른 머신러닝 도서와 달리 알고리듬에 대한 구체적인 소개와 설명은 포함돼 있지 않습니다. 대신 데이터를 통해 머신러닝의 성능을 향상시키기 위한 다양한 기법을 소개합니다. 효율적인 어노테이션을 위한 다양한 샘플링 기법과 프로세스를 다루고 있으며, 사용자 인터페이스의 관점과 어노테이터에 관한 심리 및 조직 관점에서 적용할 만한 다양한 아이디어와 저자의 경험을 망라하고 있습니다. 이 책의 기법과 아이디어를 단숨에 적용하기란 만만치 않겠지만, 기초적이고 단순한 전략에서부터 시작해 기업과 조직의 머신러닝 문제를 데이터 중심으로 풀어가는 데 더없이 좋은 길잡이가 되리라 생각합니다.