오늘날의 데이터 과학 역할은 10 년 안에 존재하지 않을 것입니다

앞으로 10 년 동안 우리가 알고있는 데이터 과학자의 역할은 오늘날과 매우 다르게 보일 것입니다. 그러나하지 걱정은 아무도 잃어버린 일자리, 단지 예측되지 않은 변경 작업을.

데이터 과학자는 괜찮을 것입니다. 노동 통계국에 따르면 그 역할은 2029 년까지 평균보다 더 높은 속도로 성장할 것으로 예상됩니다.하지만 기술의 발전은 데이터 과학자의 책임과 기업이 전체적으로 분석에 접근하는 방식. 그리고 원시 데이터에서 사용 가능한 모델로 머신 러닝 파이프 라인을 자동화하는 데 도움이되는 AutoML 도구가이 혁명을 이끌 것입니다.

10 년 안에 데이터 과학자는 완전히 다른 기술과 도구 세트를 갖게 될 것이지만 그 기능은 동일하게 유지됩니다. 비즈니스 문제를 해결하기 위해 복잡한 데이터를 이해할 수있는 자신감 있고 유능한 기술 가이드 역할을하는 것입니다.

AutoML은 데이터 과학을 대중화합니다.

최근까지 머신 러닝 알고리즘과 프로세스는 거의 전적으로 더 전통적인 데이터 과학 역할의 영역이었습니다. 공식 교육 및 고급 학위를 보유하거나 대기업에서 일하는 사람들입니다. 데이터 과학자는 기계 학습 개발 스펙트럼의 모든 부분에서 중요한 역할을 해왔습니다. 그러나 시간이 지나면 그들의 역할은 더욱 협력적이고 전략적으로 변할 것입니다. AutoML과 같은 도구를 사용하여 더 많은 학문적 기술을 자동화함으로써 데이터 과학자는 조직이 데이터를 통해 비즈니스 문제에 대한 해결책을 찾는 데 집중할 수 있습니다.

여러면에서 이는 AutoML이 머신 러닝을 실행하는 노력을 대중화하기 때문입니다. 스타트 업에서 클라우드 하이퍼 스케일러에 이르기까지 공급 업체는 개발자가 큰 교육적 또는 경험적 진입 장벽없이 사용하고 실험 할 수있는 쉬운 솔루션을 출시했습니다. 마찬가지로 일부 AutoML 애플리케이션은 직관적이고 단순하므로 비전문가가 자신의 부서에서 문제에 대한 솔루션을 만들어 조직 내에서 일종의 '시민 데이터 과학자'를 만들 수 있습니다.

이러한 유형의 도구가 개발자와 데이터 과학자 모두에게 개방 될 가능성을 탐색하려면 먼저 머신 러닝 개발과 관련된 데이터 과학의 현재 상태를 이해해야합니다. 성숙도 척도에 배치하면 이해하는 것이 가장 쉽습니다.

디지털 변환 (즉, 담당 전통적인 역할과 작은 단체와 기업 있지 고전적인 훈련 데이터 과학자) 일반적으로이 규모의이 말에가. 현재 그들은 기계 학습의 복잡성에 익숙하지 않은 청중을 대상으로하는 즉시 사용 가능한 기계 학습 애플리케이션의 가장 큰 고객입니다.

  • 장점 : 이러한 턴키 애플리케이션은 구현하기 쉽고 상대적으로 저렴하고 배포하기 쉽습니다. 자동화 또는 개선 할 매우 구체적인 프로세스가있는 소규모 회사의 경우 시장에 몇 가지 실행 가능한 옵션이있을 수 있습니다. 진입 장벽이 낮기 때문에 이러한 애플리케이션은 처음으로 머신 러닝을 시작하는 데이터 과학자에게 완벽합니다. 일부 응용 프로그램은 매우 직관적이기 때문에 비 기술 직원이 자동화 및 고급 데이터 기능을 실험 할 수있는 기회를 제공하여 잠재적으로 귀중한 샌드 박스를 조직에 도입 할 수 있습니다.
  • 단점 : 이 종류의 기계 학습 애플리케이션은 유연성이 떨어지는 것으로 악명이 높습니다. 쉽게 구현할 수 있지만 쉽게 사용자 정의 할 수는 없습니다. 따라서 특정 애플리케이션에서는 특정 수준의 정확도가 불가능할 수 있습니다. 또한 이러한 응용 프로그램은 사전 훈련 된 모델 및 데이터에 대한 의존도로 인해 크게 제한 될 수 있습니다. 

이러한 애플리케이션의 예로는 Amazon Web Services의 Amazon Comprehend, Amazon Lex, Amazon Forecast, Azure Speech Services 및 Microsoft Azure의 LUIS (Azure Language Understanding)가 있습니다. 이러한 도구는 급성장하는 데이터 과학자가 기계 학습의 첫 번째 단계를 수행하고 조직이 성숙도 범위를 더 낮출 수 있도록 충분한 경우가 많습니다.

AutoML로 맞춤 설정 가능한 솔루션

고객 거래 데이터 또는 마케팅 이메일 메트릭과 같이 크고 상대적으로 일반적인 데이터 세트를 보유한 조직은 기계 학습을 사용하여 문제를 해결할 때 더 많은 유연성이 필요합니다. AutoML을 입력합니다. AutoML은 수동 머신 러닝 워크 플로 (데이터 검색, 탐색 데이터 분석, 초 매개 변수 조정 등)의 단계를 수행하여 구성 가능한 스택으로 압축합니다.

  • 장점 : AutoML 애플리케이션을 사용하면 더 큰 공간의 데이터에 대해 더 많은 실험을 실행할 수 있습니다. 하지만 AutoML의 진정한 강점은 접근성입니다. 맞춤 구성을 구축하고 입력을 비교적 쉽게 다듬을 수 있습니다. 뿐만 아니라 AutoML은 데이터 과학자만을 대상으로하는 것이 아닙니다. 또한 개발자는 샌드 박스 내에서 쉽게 수정하여 기계 학습 요소를 자체 제품 또는 프로젝트에 가져올 수 있습니다.
  • 단점 : 거의 다가 오지만 AutoML의 한계는 출력의 정확성이 완벽하기 어렵다는 것을 의미합니다. 이 때문에 데이터 과학자는 학위 보유 카드를 가지고있는 데이터 과학자가 AutoML의 도움으로 구축 된 애플리케이션을 종종 무시합니다. 비록 결과가 당면한 문제를 해결할만큼 정확하더라도.

이러한 애플리케이션의 예로는 Amazon SageMaker AutoPilot 또는 Google Cloud AutoML이 있습니다. 지금부터 10 년 후의 데이터 과학자는 의심 할 여지없이 이러한 도구에 익숙해 져야합니다. 여러 프로그래밍 언어에 능통 한 개발자처럼 데이터 과학자는 최고의 인재로 간주 되려면 여러 AutoML 환경에 능숙해야합니다.

"수작업"및 자체 개발 한 기계 학습 솔루션 

가장 큰 기업 규모의 기업과 Fortune 500 대 기업은 현재 대부분의 고급 및 독점 기계 학습 애플리케이션이 개발되고있는 곳입니다. 이러한 조직의 데이터 과학자는 과거 회사 데이터를 사용하여 기계 학습 알고리즘을 완성하고 이러한 애플리케이션을 처음부터 구축하는 대규모 팀의 일원입니다. 이와 같은 사용자 지정 응용 프로그램은 상당한 자원과 재능이 있어야만 가능하므로 결과와 위험이 매우 큽니다.

  • 장점 : 처음부터 빌드 된 모든 애플리케이션과 마찬가지로 커스텀 머신 러닝은 "최첨단"이며 당면한 문제에 대한 깊은 이해를 기반으로 빌드됩니다. 또한 AutoML 및 즉시 사용 가능한 머신 러닝 솔루션보다 더 정확합니다.
  • 단점 : 사용자 지정 기계 학습 응용 프로그램을 특정 정확도 임계 값에 도달하는 것은 매우 어려울 수 있으며 데이터 과학자 팀의 무거운 작업이 필요한 경우가 많습니다. 또한 사용자 지정 기계 학습 옵션은 가장 많은 시간과 개발 비용이 소요됩니다.

수동 머신 러닝 솔루션의 예는 빈 Jupyter 노트북으로 시작하여 수동으로 데이터를 가져온 다음 탐색 적 데이터 분석에서 수동으로 모델 튜닝을 통해 각 단계를 수행하는 것입니다. 이는 종종 Scikit-learn, TensorFlow, PyTorch 등과 같은 오픈 소스 기계 학습 프레임 워크를 사용하여 사용자 지정 코드를 작성함으로써 달성됩니다. 이 접근 방식에는 높은 수준의 경험과 직관이 필요하지만 턴키 머신 러닝 서비스와 AutoML을 능가하는 결과를 생성 할 수 있습니다.

AutoML과 같은 도구는 향후 10 년 동안 데이터 과학의 역할과 책임을 바꿀 것입니다. AutoML은 데이터 과학자가 처음부터 머신 러닝을 개발해야하는 부담을 덜어주고 대신 머신 러닝 기술의 가능성을 다른 문제 해결사에게 직접 제공합니다. 자신이 알고있는 데이터 및 입력 자체에 집중할 시간이 확보되면 지금부터 10 년 후 데이터 과학자는 조직에 더욱 가치있는 가이드 역할을 할 것입니다.

Eric Miller는 Rackspace의 기술 전략 수석 이사로 일하며 Amazon Partner Network (APN) 생태계에서 입증 된 실무 기록을 바탕으로 전략적 컨설팅 리더십을 제공합니다. 엔터프라이즈 IT에서 20 년 동안 입증 된 성공을 거둔 뛰어난 기술 리더 인 Eric은 AWS Well Architected Framework (WAF) 평가 파트너 프로그램, Windows Server 용 Amazon EC2 AWS 서비스 제공 프로그램 및 다양한 범위를 포함한 여러 AWS 및 솔루션 아키텍처 이니셔티브를 이끌었습니다. 수십억 달러 규모의 조직을위한 AWS 재 작성 횟수.

New Tech Forum은 새로운 엔터프라이즈 기술을 전례없이 깊이 있고 폭넓게 탐구하고 논의 할 수있는 장을 제공합니다. 선택은 우리가 중요하고 독자들에게 가장 큰 관심을 가지고 있다고 생각하는 기술을 선택하여 주관적입니다. 는 게시를위한 마케팅 자료를 허용하지 않으며 제공되는 모든 콘텐츠를 편집 할 권리를 보유합니다. 모든 문의 사항은 [email protected]으로 보내주십시오.