빅 데이터 분석이란 무엇입니까? 다양한 데이터 세트의 빠른 답변

데이터가 있고 빅 데이터가 있습니다. 그렇다면 차이점은 무엇입니까?

정의 된 빅 데이터

빅 데이터는 다양한 사용 사례를 포함 할 수 있기 때문에 명확한 빅 데이터 정의를 파악하기 어려울 수 있습니다. 그러나 일반적으로이 용어는 볼륨이 너무 크고 복잡하여 기존 데이터 처리 소프트웨어 제품이 합리적인 시간 내에 데이터를 캡처, 관리 및 처리 할 수없는 데이터 집합을 의미합니다.

이러한 빅 데이터 세트에는 정형, 비정형 및 반 정형 데이터가 포함될 수 있으며, 각 데이터는 인사이트를 위해 마이닝 할 수 있습니다.

실제로 얼마나 많은 데이터가 "대형"을 구성하는지는 논쟁의 여지가 있지만 일반적으로 수 페타 바이트에 해당 할 수 있으며 엑사 바이트 범위에서 가장 큰 프로젝트의 경우입니다.

종종 빅 데이터는 다음과 같은 세 가지 대가 특징입니다.

  • 엄청난 의 데이터
  • 다양한 종류 의 데이터 형식
  • 속도 데이터가 필요로하는 처리 및 분석 할

빅 데이터 저장소를 구성하는 데이터는 웹 사이트, 소셜 미디어, 데스크톱 및 모바일 앱, 과학적 실험, 그리고 점점 더 많은 사물 인터넷 (IoT)의 센서 및 기타 장치를 포함하는 소스에서 가져올 수 있습니다.

빅 데이터의 개념은 조직이 데이터를 실제 사용하고 여러 비즈니스 문제를 해결할 수 있도록하는 일련의 관련 구성 요소와 함께 제공됩니다. 여기에는 빅 데이터 기술을 지원하는 데 필요한 IT 인프라, 데이터에 적용된 분석이 포함됩니다. 프로젝트에 필요한 빅 데이터 플랫폼, 관련 기술 세트 및 빅 데이터에 적합한 실제 사용 사례.

데이터 분석이란 무엇입니까?

조직이 수집하는 모든 빅 데이터에서 실제로 가치를 제공하는 것은 데이터에 적용된 분석입니다. 패턴, 상관 관계, 통찰력 및 추세를 발견하기 위해 데이터를 검사하는 분석이 없으면 데이터는 제한된 비즈니스 용도로 1과 0에 불과합니다.

빅 데이터에 분석을 적용함으로써 기업은 매출 증가, 고객 서비스 향상, 효율성 향상, 전반적인 경쟁력 향상과 같은 이점을 확인할 수 있습니다.

데이터 분석에는 데이터 세트를 검사하여 통찰력을 얻거나 미래 활동에 대한 추세 및 예측과 같이 포함 된 내용에 대한 결론을 도출하는 것이 포함됩니다.

빅 데이터 분석 도구를 사용하여 정보를 분석함으로써 조직은 마케팅 캠페인을 실행하거나 새로운 제품 또는 서비스를 도입 할시기와 장소와 같은 정보에 입각 한 비즈니스 결정을 내릴 수 있습니다.

분석은 기본 비즈니스 인텔리전스 애플리케이션 또는 과학 조직에서 사용하는 것과 같은 고급 예측 분석을 참조 할 수 있습니다. 가장 진보 된 유형의 데이터 분석 중에는 분석가가 대규모 데이터 세트를 평가하여 관계, 패턴 및 추세를 식별하는 데이터 마이닝이 있습니다.

데이터 분석에는 탐색 적 데이터 분석 (데이터의 패턴 및 관계 식별)과 확인 데이터 분석 (통계 기법을 적용하여 특정 데이터 세트에 대한 가정이 참인지 확인하기위한 것)이 포함될 수 있습니다.

또 다른 차이점은 정량적 데이터 분석 (또는 통계적으로 비교할 수있는 정량화 가능한 변수가있는 수치 데이터 분석)과 정 성적 데이터 분석 (비디오, 이미지 및 텍스트와 같은 비 숫자 데이터에 중점을 둔)입니다.

빅 데이터를 지원하는 IT 인프라

빅 데이터의 개념이 작동하려면 조직은 데이터를 수집 및 보관하고, 데이터에 대한 액세스를 제공하고, 저장 및 전송 중에 정보를 보호 할 인프라를 갖추고 있어야합니다. 이를 위해서는 빅 데이터 분석 도구를 배포해야합니다.

상위 수준에서 여기에는 빅 데이터, 데이터 관리 및 통합 소프트웨어, 비즈니스 인텔리전스 및 데이터 분석 소프트웨어, 빅 데이터 애플리케이션 용으로 설계된 스토리지 시스템 및 서버가 포함됩니다.

기업이 데이터 센터 투자를 계속 활용하려고하므로이 인프라의 대부분은 온 프레미스 일 가능성이 높습니다. 그러나 점점 더 많은 조직이 빅 데이터 요구 사항을 처리하기 위해 클라우드 컴퓨팅 서비스에 의존하고 있습니다.

데이터 수집에는 데이터 수집을위한 소스가 필요합니다. 웹 애플리케이션, 소셜 미디어 채널, 모바일 앱 및 이메일 아카이브와 같은 많은 것들이 이미 제자리에 있습니다. 그러나 IoT가 자리를 잡으면 기업은 데이터를 수집하기 위해 모든 종류의 장치, 차량 및 제품에 센서를 배치하고 사용자 데이터를 생성하는 새로운 애플리케이션을 구축해야 할 수도 있습니다. (IoT 지향 빅 데이터 분석에는 고유 한 전문 기술과 도구가 있습니다.)

들어오는 모든 데이터를 저장하려면 조직에 적절한 데이터 저장소가 있어야합니다. 스토리지 옵션 중에는 기존 데이터웨어 하우스, 데이터 레이크 및 클라우드 기반 스토리지가 있습니다.

보안 인프라 도구에는 데이터 암호화, 사용자 인증 및 기타 액세스 제어, 모니터링 시스템, 방화벽, 엔터프라이즈 모빌리티 관리 및 시스템과 데이터를 보호하기위한 기타 제품이 포함될 수 있습니다.

빅 데이터 기술

일반적으로 데이터에 사용되는 전술 한 IT 인프라에 추가합니다. IT 인프라가 지원해야하는 빅 데이터와 관련된 몇 가지 기술이 있습니다.

Hadoop 생태계

Hadoop은 빅 데이터와 가장 밀접하게 관련된 기술 중 하나입니다. Apache Hadoop 프로젝트는 확장 가능한 분산 컴퓨팅을위한 오픈 소스 소프트웨어를 개발합니다.

Hadoop 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터에 걸쳐 대규모 데이터 세트를 분산 처리 할 수있는 프레임 워크입니다. 단일 서버에서 수천 개로 확장하도록 설계되었으며 각 서버는 로컬 계산 및 스토리지를 제공합니다.

이 프로젝트에는 여러 모듈이 포함됩니다.

  • 다른 Hadoop 모듈을 지원하는 공통 유틸리티 인 Hadoop Common
  • 애플리케이션 데이터에 대한 높은 처리량 액세스를 제공하는 Hadoop 분산 파일 시스템
  • 작업 스케줄링 및 클러스터 리소스 관리를위한 프레임 워크 인 Hadoop YARN
  • 대규모 데이터 세트의 병렬 처리를위한 YARN 기반 시스템 인 Hadoop MapReduce.

Apache Spark

Hadoop 에코 시스템의 일부인 Apache Spark는 Hadoop 내에서 빅 데이터를 처리하기위한 엔진 역할을하는 오픈 소스 클러스터 컴퓨팅 프레임 워크입니다. Spark는 주요 빅 데이터 분산 처리 프레임 워크 중 하나가되었으며 다양한 방법으로 배포 할 수 있습니다. Java, Scala, Python (특히 Anaconda Python 배포판) 및 R 프로그래밍 언어 (R은 특히 빅 데이터에 적합)에 대한 기본 바인딩을 제공하며 SQL, 스트리밍 데이터, 기계 학습 및 그래프 처리를 지원합니다.

데이터 레이크

데이터 레이크는 비즈니스 사용자가 데이터를 필요로 할 때까지 매우 많은 양의 원시 데이터를 기본 형식으로 보관하는 스토리지 저장소입니다. 데이터 레이크의 성장을 촉진하는 데 도움이되는 것은 디지털 혁신 이니셔티브와 IoT의 성장입니다. 데이터 레이크는 사용자가 필요할 때 방대한 양의 데이터에 쉽게 액세스 할 수 있도록 설계되었습니다.

NoSQL 데이터베이스

기존 SQL 데이터베이스는 신뢰할 수있는 트랜잭션 및 임시 쿼리를 위해 설계되었지만 일부 유형의 응용 프로그램에는 적합하지 않게 만드는 엄격한 스키마와 같은 제한이 있습니다. NoSQL 데이터베이스는 이러한 제한을 해결하고 높은 운영 속도와 뛰어난 유연성을 허용하는 방식으로 데이터를 저장 및 관리합니다. 대부분은 대규모 웹 사이트의 콘텐츠를 저장하거나 데이터를 처리하는 더 나은 방법을 모색 한 회사에서 개발했습니다. SQL 데이터베이스와 달리 많은 NoSQL 데이터베이스는 수백 또는 수천 대의 서버에서 수평으로 확장 할 수 있습니다.

인 메모리 데이터베이스

인 메모리 데이터베이스 (IMDB)는 데이터 저장을 위해 주로 디스크가 아닌 주 메모리에 의존하는 데이터베이스 관리 시스템입니다. 인 메모리 데이터베이스는 디스크 최적화 데이터베이스보다 빠르며, 빅 데이터 분석 사용과 데이터웨어 하우스 및 데이터 마트 생성에 대한 중요한 고려 사항입니다.

빅 데이터 기술

빅 데이터 및 빅 데이터 분석 작업에는 조직 내부 또는 외부 전문가를 통해 제공되는 특정 기술이 필요합니다.

이러한 기술의 대부분은 Hadoop, Spark, NoSQL 데이터베이스, 인 메모리 데이터베이스 및 분석 소프트웨어와 같은 주요 빅 데이터 기술 구성 요소와 관련이 있습니다.

다른 것들은 데이터 과학, 데이터 마이닝, 통계 및 정량 분석, 데이터 시각화, 범용 프로그래밍, 데이터 구조 및 알고리즘과 같은 분야에 특정한 것입니다. 또한 전체적인 관리 기술을 가진 사람들이 빅 데이터 프로젝트를 완료 할 때까지 볼 필요가 있습니다.

빅 데이터 분석 프로젝트가 얼마나 일반화되고 이러한 유형의 기술을 가진 인력이 부족한지를 감안할 때 숙련 된 전문가를 찾는 것이 조직의 가장 큰 과제 중 하나 일 수 있습니다.

빅 데이터 분석 사용 사례

빅 데이터 및 분석은 많은 비즈니스 문제와 사용 사례에 적용될 수 있습니다. 다음은 몇 가지 예입니다.

  • 고객 분석. 기업은 고객 데이터를 조사하여 고객 경험을 향상시키고 전환율을 개선하며 유지율을 높일 수 있습니다.
  • 운영 분석. 운영 성과를 개선하고 기업 자산을 더 잘 활용하는 것이 많은 기업의 목표입니다. 빅 데이터 분석 도구는 기업이보다 효율적으로 운영하고 성능을 개선하는 방법을 찾는 데 도움이 될 수 있습니다.
  • 사기 예방. 빅 데이터 도구 및 분석은 조직이 사기 행위를 나타낼 수있는 의심스러운 활동과 패턴을 식별하고 위험을 완화하는 데 도움이 될 수 있습니다.
  • 가격 최적화. 기업은 빅 데이터 분석을 사용하여 제품 및 서비스에 대해 부과하는 가격을 최적화하여 수익을 높일 수 있습니다.