Hadoop으로 빅 데이터를 길들이기위한 7 가지 도구

태국의 하드 디스크 산업을 황폐화시킨 홍수는 이제 반년이 지났으며 테라 바이트 당 가격은 마침내 다시 한 번 하락하고 있습니다. 즉, 데이터가 쌓이기 시작하고 사무실 주변 사람들이 데이터로 무엇을 할 수 있는지 궁금해 할 것입니다. 아마도 해당 로그 파일에 몇 가지 통찰력이 있습니까? 아마도 약간의 통계 분석을 통해 그 모든 소음에 묻힌 금 덩어리를 찾을 수 있습니까? 이 파일의 소파 쿠션에 묻혀있는 잔돈을 충분히 찾아서 우리 모두에게 인상을 줄 수 있을까요?

이제 업계는 막대한 양의 정보가 쌓이는 상황에서 우리가 어떤 일을 할 것인지에 대한 "빅 데이터"라는 유행어를 가지고 있습니다. "빅 데이터"는 "보고"를 포함하는 "비즈니스 인텔리전스"를 대체하고 있으며, "스프레드 시트"에 더 좋은 광택을 부여하여 구식 "인쇄물"을 능가합니다. 오래 전에 인쇄물을 연구 한 관리자는 이제 빅 데이터 전문가라고 주장하는 수학자를 고용하여 동일한 오래된 문제를 해결하는 데 도움을주고 있습니다.

[추가 정보 : Enterprise Hadoop : 빅 데이터 처리가 더 쉬워 짐 | 의 대화 형 비즈니스 인텔리전스 iGuide를 사용하여 BI의 현재 트렌드와 솔루션을 살펴보십시오. | 의 기술 : 애플리케이션 뉴스 레터를 통해 비즈니스 애플리케이션의 새로운 기능을 알아보십시오. ]

이러한 유행어가 서로를 단순하게 대체한다고 제안하는 것은 공정하지 않습니다. 빅 데이터는 규모가 훨씬 더 크기 때문에 더 복잡한 세상입니다. 정보는 일반적으로 여러 서버에 분산되어 있으며 데이터 컴파일 작업은 서버간에 조정되어야합니다. 과거에는 작업이 주로 데이터베이스 소프트웨어에 위임되었는데,이 소프트웨어는 마법의 JOIN 메커니즘을 사용하여 테이블을 컴파일 한 다음 데이터 사각형을보고 소프트웨어로 넘겨주기 전에 열을 추가했습니다. 이것은 종종 들리는 것보다 더 어려웠습니다. 데이터베이스 프로그래머는 자신의 칼럼을 원하는 상사를 위해 보고서를 생성하려고 할 때 데이터베이스를 몇 시간 동안 잠그는 복잡한 JOIN 명령에 대한 이야기를 들려 줄 수 있습니다.

이제 게임이 많이 다릅니다. Hadoop은 랙과 서버 랙을 구성하는 데 널리 사용되는 도구이며 NoSQL 데이터베이스는 이러한 랙에 데이터를 저장하는 데 널리 사용되는 도구입니다. 이러한 메커니즘은 이전 단일 머신보다 훨씬 강력 할 수 있지만 이전 데이터베이스 서버만큼 세련되지는 않습니다. SQL은 복잡 할 수 있지만 SQL 데이터베이스에 대한 JOIN 쿼리를 작성하는 것은 수십 대의 시스템에서 정보를 수집하여 하나의 일관된 답변으로 컴파일하는 것보다 훨씬 간단합니다. Hadoop 작업은 Java로 작성되며 다른 수준의 정교함이 필요합니다. 빅 데이터를 처리하기위한 도구는이 분산 컴퓨팅 파워를 사용하기 쉬운 방식으로 패키징하기 시작했습니다.

많은 빅 데이터 도구도 NoSQL 데이터 저장소와 함께 작동합니다. 이는 기존의 관계형 데이터베이스보다 더 유연하지만 유연성은 Hadoop만큼 과거와 크게 다르지 않습니다. NoSQL 쿼리는 데이터베이스 디자인이 SQL 작업의 복잡성을 유발하는 복잡한 테이블 형식 구조를 방지하기 때문에 더 간단 할 수 있습니다. 주된 걱정은 소프트웨어가 모든 행에 모든 열에 대해 일부 데이터가있는 것은 아닐 가능성을 예상해야한다는 것입니다.

가장 큰 도전은 영화 '머니 볼'이 만들어 낸 기대치를 다루는 것입니다. 모든 보스는 그것을보고 일부 영리한 통계가 소규모 팀을 월드 시리즈 우승자로 만들 수 있다는 메시지를 흡수했습니다. 오클랜드 애슬레틱스가 "머니 볼"시대에 월드 시리즈에서 우승 한 적이 없다는 사실을 염두에 두지 마십시오. 그것이 마이클 루이스의 산문의 마법입니다. 상사들은 모두 "내가 좋은 통계를 얻을 수 있다면 할리우드가 브래드 피트를 고용해 영화 버전에서 나를 연기 할 것"이라고 생각하고있다.

이 컬렉션의 어떤 소프트웨어도 브래드 피트에게 하둡 작업의 영화 버전에 대한 스크립트 사본을 에이전트에게 요청하도록 유인하지 않습니다. 그것은 당신이나 프로젝트에 참여하는 다른 인간들에게서 나와야합니다. 데이터를 이해하고 올바른 질문을 찾는 것은 Hadoop 작업을 빠르게 실행하는 것보다 훨씬 더 복잡합니다. 이 도구는 작업의 절반에 불과하기 때문에 실제로 의미가 있습니다.

현장의 가능성을 파악하기 위해 빅 데이터 도구를 다운로드하고 데이터를 혼합 한 다음 아인슈타인 수준의 통찰력에 대한 답변을 살펴 보았습니다. 이 정보는 로그 파일에서 내 책 일부를 판매하는 웹 사이트 (wayner.org)로 전송되었으며, 무엇을 왜 판매하는지에 대한 아이디어를 찾고있었습니다. 그래서 소프트웨어의 포장을 풀고 질문을했습니다.

 

빅 데이터 도구 : Jaspersoft BI Suite

Jaspersoft 패키지는 데이터베이스 열에서 보고서를 생성하는 오픈 소스 리더 중 하나입니다. 이 소프트웨어는 잘 다듬어졌으며 이미 많은 비즈니스에 설치되어 SQL 테이블을 모든 사람이 회의에서 면밀히 조사 할 수있는 PDF로 변환합니다.

이 회사는 빅 데이터 열차에 뛰어 들고 있으며 이는 보고서 생성 소프트웨어를 빅 데이터가 저장되는 장소에 연결하는 소프트웨어 계층을 추가하는 것을 의미합니다. JasperReports Server는 이제 MongoDB, Cassandra, Redis, Riak, CouchDB 및 Neo4j를 포함한 많은 주요 스토리지 플랫폼에서 데이터를 빨아들이는 소프트웨어를 제공합니다. Hadoop도 잘 알려져 있으며 JasperReports는 HBase 내부에 도달 할 수있는 Hive 커넥터를 제공합니다.

이 노력은 여전히 ​​시작되는 것처럼 느껴집니다. 문서 위키의 많은 페이지가 비어 있고 도구가 완전히 통합되지 않았습니다. 예를 들어 시각적 쿼리 디자이너는 아직 Cassandra의 CQL에서 작동하지 않습니다. 이러한 쿼리를 직접 입력하게됩니다.

이러한 소스에서 데이터를 가져 오면 Jaspersoft의 서버는이를 대화 형 테이블과 그래프로 요약합니다. 보고서는 다양한 코너로 드릴 다운 할 수있는 매우 정교한 대화 형 도구 일 수 있습니다. 필요한 경우 더 많은 세부 정보를 요청할 수 있습니다.

이것은 소프트웨어 세계에서 잘 발달 된 코너이며 Jaspersoft는 이러한 정교한 보고서를 최신 데이터 소스와 함께 사용하기 쉽게 만들어 확장하고 있습니다. Jaspersoft는 데이터를 보는 새로운 방법을 제공하지 않고 새로운 위치에 저장된 데이터에 액세스하는보다 정교한 방법을 제공합니다. 나는 이것이 놀랍도록 유용하다는 것을 알았습니다. 내 데이터의 집계는 웹 사이트에 누가 언제 방문하는지 기본적으로 이해하기에 충분했습니다.

 

빅 데이터 도구 : Pentaho Business Analytics

Pentaho는 보고서 생성 엔진으로 시작된 또 다른 소프트웨어 플랫폼입니다. JasperSoft와 마찬가지로 새로운 소스에서 정보를 쉽게 흡수 할 수 있도록하여 빅 데이터로 분기합니다. Pentaho의 도구를 MongoDB 및 Cassandra와 같은 가장 인기있는 많은 NoSQL 데이터베이스에 연결할 수 있습니다. 데이터베이스가 연결되면 마치 SQL 데이터베이스에서 정보를 가져온 것처럼 열을 뷰와 보고서로 끌어다 놓을 수 있습니다.

내 웹 사이트에서 가장 많은 시간을 보내는 사람을 이해하는 데 고전적인 분류 및 선별 테이블이 매우 유용하다는 것을 알았습니다. 로그 파일에서 IP 주소로 간단히 정렬하면 헤비 사용자가 무엇을하고 있는지 알 수 있습니다.

Pentaho는 또한 Hadoop 클러스터에서 HDFS 파일 데이터 및 HBase 데이터를 그리기위한 소프트웨어를 제공합니다. 더 흥미로운 도구 중 하나는 Kettle 또는 Pentaho Data Integration으로 알려진 그래픽 프로그래밍 인터페이스입니다. 사진에 끌어다 놓은 다음 연결할 수있는 내장 모듈이 많이 있습니다. Pentaho는 Hadoop 및 기타 소스를 여기에 완전히 통합 했으므로 코드를 작성하고 클러스터에서 실행하도록 보낼 수 있습니다.

 

빅 데이터 도구 : Karmasphere Studio 및 분석가

많은 빅 데이터 도구가보고 도구로 시작되지 않았습니다. 예를 들어 Karmasphere Studio는 Eclipse를 기반으로 구축 된 플러그인 세트입니다. Hadoop 작업을보다 쉽게 ​​생성하고 실행할 수있는 특수 IDE입니다.

이 개발자 도구를 사용하여 Hadoop 작업을 구성하기 시작했을 때 드문 기쁨을 느꼈습니다. Hadoop 작업의 수명에는 여러 단계가 있으며 Karmasphere의 도구는 각 단계를 안내하여 그 과정에서 부분적인 결과를 보여줍니다. 디버거를 사용하면 항상 메커니즘이 작동하는 방식을 살펴볼 수 있었지만 Karmasphere Studio는 더 나은 작업을 수행합니다. 워크 플로를 설정하면 도구가 각 단계에서 테스트 데이터의 상태를 표시합니다. 분할, 분석, 축소 된 임시 데이터의 모습을 볼 수 있습니다.

Karmasphere는 또한 Karmasphere Analyst라는 도구를 배포합니다.이 도구는 Hadoop 클러스터의 모든 데이터를 훑어 보는 과정을 단순화하도록 설계되었습니다. 압축 된 로그 파일의 압축을 풀기위한 서브 루틴과 같이 좋은 Hadoop 작업을 프로그래밍하는 데 유용한 많은 빌딩 블록이 함께 제공됩니다. 그런 다음이를 함께 묶고 Hive 호출을 매개 변수화하여 정독 할 출력 테이블을 생성합니다.

 

빅 데이터 도구 : Talend Open Studio

Talend는 또한 데이터 처리 작업을 Hadoop과 연결하기위한 Eclipse 기반 IDE를 제공합니다. 이 도구는 이러한 작업에 맞게 조정 된 서브 루틴을 사용하여 데이터 통합, 데이터 품질 및 데이터 관리를 지원하도록 설계되었습니다.

Talend Studio를 사용하면 작은 아이콘을 캔버스에 끌어다 놓아 작업을 구축 할 수 있습니다. RSS 피드를 얻으려면 Talend의 구성 요소가 RSS를 가져오고 필요한 경우 프록시를 추가합니다. 정보 수집을위한 수십 가지 구성 요소와 "퍼지 일치"와 같은 작업을 수행하기위한 구성 요소가 수십 개 더 있습니다. 그런 다음 결과를 출력 할 수 있습니다.

구성 요소가 실제로 수행하는 작업과 수행하지 않는 작업을 파악한 후 블록을 시각적으로 묶는 것은 간단 할 수 있습니다. 이것은 캔버스 뒤에서 어셈블되는 소스 코드를보기 시작했을 때 이해하기 더 쉬웠습니다. Talend를 사용하면 이것을 볼 수 있으며 이상적인 타협이라고 생각합니다. 시각적 프로그래밍은 고상한 목표처럼 보일 수 있지만, 아이콘은 무슨 일이 일어나고 있는지 이해할 수있을만큼 충분히 세부적으로 메커니즘을 표현할 수 없다는 것을 발견했습니다. 소스 코드가 필요합니다.

Talend는 또한 회사의 제품을보다 쉽게 ​​사용할 수 있도록하는 오픈 소스 확장 모음 인 TalendForge를 유지합니다. 대부분의 도구는 Talend의 소프트웨어를 Salesforce.com 및 SugarCRM과 같은 다른 주요 제품에 연결하는 필터 또는 라이브러리 인 것 같습니다. 이러한 시스템의 정보를 자신의 프로젝트로 가져와 통합을 단순화 할 수 있습니다.

 

빅 데이터 도구 : Skytree Server

모든 도구가 시각적 메커니즘을 사용하여 코드를 더 쉽게 연결할 수 있도록 설계된 것은 아닙니다. Skytree는보다 정교한 기계 학습 알고리즘을 많이 수행하는 번들을 제공합니다. 명령 줄에 올바른 명령을 입력하기 만하면됩니다.

Skytree는 반짝이는 GUI보다 내장에 더 중점을 둡니다. Skytree Server는 회사가 다른 패키지보다 10,000 배 더 빠를 수 있다고 주장하는 구현을 사용하여 데이터에 대한 여러 고전적인 기계 학습 알고리즘을 실행하도록 최적화되어 있습니다. 데이터를 통해 수학적으로 유사한 항목의 클러스터를 찾은 다음이를 반전하여 문제, 기회 또는 둘 다일 수있는 이상 치를 식별 할 수 있습니다. 알고리즘은 인간보다 더 정확할 수 있으며 방대한 양의 데이터를 검색하여 평범하지 않은 항목을 찾을 수 있습니다. 이것은 사기 일 수도 있고 지출하고 지출 할 특히 좋은 고객 일 수도 있습니다.

무료 버전의 소프트웨어는 독점 버전과 동일한 알고리즘을 제공하지만 100,000 행의 데이터 세트로 제한됩니다. 이는 소프트웨어가 잘 일치하는지 여부를 확인하는 데 충분해야합니다.

 

빅 데이터 도구 : Tableau Desktop 및 Server

Tableau Desktop은 데이터를 새로운 방식으로 쉽게 확인한 다음 분할하여 다른 방식으로 볼 수있게 해주는 시각화 도구입니다. 데이터를 다른 데이터와 혼합하여 또 다른 관점에서 검토 할 수도 있습니다. 이 도구는 데이터에 대한 모든 열을 제공하도록 최적화되어 있으며 제공된 수십 개의 그래픽 템플릿 중 하나에 데이터를 채우기 전에 혼합 할 수 있습니다.

Tableau Software는 여러 버전 전에 Hadoop을 채택하기 시작했으며 이제는 "데이터 연결과 마찬가지로"Hadoop을 처리 할 수 ​​있습니다. Tableau는 Hive를 사용하여 쿼리를 구조화 한 다음 도구가 대화 형이 될 수 있도록 최대한 많은 정보를 메모리에 캐시합니다. 다른 많은보고 도구는 오프라인에서 보고서를 생성하는 전통을 기반으로 구축되었지만 Tableau는 데이터를 몇 번이고 분할 할 수 있도록 대화 형 메커니즘을 제공하고자합니다. 캐싱은 Hadoop 클러스터의 일부 지연 시간을 처리하는 데 도움이됩니다.

이 소프트웨어는 잘 연마되고 미학적으로 즐겁습니다. 파이 차트에서 막대 그래프 및 그 이상으로 전환하여 배울 새로운 내용이 많지 않았지만 다른 그래프에서 데이터를보기 위해 데이터를 복제하는 경우가 많았습니다. 소프트웨어 팀에는 예술적 재능을 가진 많은 사람들이 분명히 포함되어 있습니다.

 

빅 데이터 도구 : Splunk

Splunk는 다른 옵션과 약간 다릅니다. 보고서 생성 도구 나 AI 루틴 모음은 아니지만 그 과정에서 많은 것을 수행합니다. 데이터가 책이나 텍스트 블록 인 것처럼 데이터 색인을 생성합니다. 예, 데이터베이스도 인덱스를 작성하지만 Splunk의 접근 방식은 텍스트 검색 프로세스에 훨씬 더 가깝습니다.

이 인덱싱은 놀랍도록 유연합니다. Splunk는 이미 내 특정 응용 프로그램에 맞게 조정되어 로그 파일을 이해하고 있습니다. 또한 Microsoft Exchange 서버 모니터링 용과 웹 공격 감지 용을 포함하여 다양한 솔루션 패키지로 판매됩니다. 인덱스는 이러한 데이터와 기타 몇 가지 일반적인 서버 측 시나리오의 데이터를 연관시키는 데 도움이됩니다.