SQL e Hadoop: É complicado

Dentro e fora, ao longo dos anos, tenho seguido e escrito sobre a saga SQL-on-Hadoop. A aventura começou com Apache Hive, que previa, inicialmente, uma camada de SQL no topo do MapReduce, trazendo nova usabilidade para Hadoop, mas pouca utilidade para cenários de consulta interactiva. As coisas começam a ficar interessantes no outono de 2012, quando Cloudera introduziu a versão beta do Impala, o seu motor de SQL-on-Hadoop MapReduce que ignorada completamente, proporcionando uma verdadeira consulta interativa sobre os dados Hive-compatíveis em Hadoop.

Muita coisa aconteceu posteriormente a essa, mas pode ser muito facilmente resumida da seguinte forma: (1) praticamente todos os fornecedores de banco de dados e data warehouse relacional introduzida uma tecnologia interativa SQL-on-Hadoop para consultar dados do Hadoop com o seu próprio mecanismo de consulta e (2) memória distribuída e estrutura de dados baseada em disco Apache faísca tornou-se uma coisa, e a introdução de seu módulo de ignição SQL forneceu uma maneira para consultar dados Hive compatíveis usando o seu próprio substrato processamento.

Isso deixou o que parecia ser uma tricotomia do SQL-on-Hadoop se aproxima: orientada Hadoop Hive, independente Impala e SQL faísca orientada a memória. Mas com as novas versões do Apache Hive e Apache Broca, sendo que ambos saiu na terça-feira, uma nova categoria está emergindo, e outras categorias que pareciam mutuamente exclusivas estão começando a se sobrepor.

Nos aprofundarmos em que a Internet das coisas vai ter o maior impacto eo que isso significa para o futuro de grandes análise de dados.

Então, vamos fazer um balanço dos anúncios de terça-feira e, em seguida, juntar uma nova taxonomia adequado da tecnologia SQL-on-Hadoop.

Broca: Omni-SQL; Vamos começar com Apache Drill. Eu tenho escrito sobre este projeto open source interessante antes. Em grande parte impulsionado pelos membros da equipe em MapR, Apache broca é diferente de outros motores de SQL de Big Data. Em vez de trabalhar com baseados no esquema de tabelas Hive-formatados, juntamente com algum suporte para dados HBase, Broca possui um plug-in motor capaz que, actualmente, é possível consultar arquivos de esquema-less, JSON, colmeia, HBase e até mesmo dados MongoDB. E pode chegar a arquivos armazenados localmente, no HDFS, e sistemas de armazenamento em nuvem da Amazon, Microsoft e Google.

Considerando que os outros motores que estamos discutindo aqui criar um ambiente de banco de dados relacional em cima do Hadoop, Broca vez permite uma interface de linguagem SQL para dados em vários formatos, sem a necessidade de um esquema formal para ser declarada. Isto permite a descoberta plug-and-play ao longo de um enorme universo de dados sem pré-requisitos e preparação. Assim, enquanto broca usa SQL, e pode se conectar ao Hadoop, chamando-SQL-on Hadoop tipo de perder o ponto. Um nome melhor seria SQL-on-Tudo, com requisitos muito baixos de configuração.

Adicione os controladores ODBC e JDBC para broca e que o poder exploratório fica prorrogado para uma ampla gama de ferramentas de inteligência de negócios. E agora que o lançamento oficial versão 1.0 chegou, Broca pode tornar-se estratégica para uma série de fornecedores de BI. Na verdade, MapR já trabalhou com a Information Builders, MicroStrategy, Qlik, SAP, Simba, Tableau, TIBCO e outros para assegurar a compatibilidade entre as ferramentas aqueles dos vendedores e da broca, através dos seus drivers / JDBC ODBC.

Hive reinventado; Enquanto isso, de volta à colméia, algumas coisas muito interessantes foram acontecendo. Em primeiro lugar, o pessoal da Hortonworks levaram um esforço que eles chamam de “Stinger” iniciativa (colmeia, abelha, ferrão, entendeu?) Para modernizar Hive e transformá-lo de, um motor de modo de lote-base MapReduce para um capaz de consulta interativa como bem. Trabalhando em estreita colaboração com outros colaboradores, incluindo a participação significativa de engenheiros na equipe Microsoft SQL Server, Hive foi imbuído de uma série de características do motor de banco de dados relacionais empresariais.

Mas a coisa interessante sobre Hive é que é comum a toda a comunidade Hadoop. Assim, enquanto Hortonworks sentiu fortemente que a melhoria Hive é uma estratégia superior para a introdução de novos motores Hive-compatíveis, a empresa não tem controle exclusivo sobre o projeto. Caso em questão: a versão 1.1 trouxe uma grande contribuição da Cloudera que permite Hive para executar consultas sobre Apache Spark.

Será o melhor motor de SQL poderia se levantar;? Não surpreendentemente, Cloudera é muito animado sobre este projecto, enquanto Hortonworks oferece materiais volumosos explicando como Hive-on-Tez é muito mais rápido do que faísca Hive-on-. Claro, Hive-on-faísca não é realmente feito ainda, e as taxas de Cloudera neste liberar um beta. O que é significativo é que Hive 1.1 foi a primeira versão a incluir o código Hive-on-faísca e 1,2 contrafortes que o código, antes Hive 1.1, ele estava disponível como um download separado instalável como um overlay “parcela” de distribuição de Hadoop da Cloudera.

Big data está em transição de uma das tendências de tecnologia mais sensacionalistas e esperados dos últimos anos em um dos maiores desafios que a TI está agora a tentar lutar e arreios. Examinamos as tecnologias e as melhores práticas para tirar vantagem dos dados grandes e proporcionar um olhar para as organizações que estão colocando-lo em bom uso.

Onde é que isso deixe Faísca SQL? Honestamente, é difícil dizer. Por seu lado, Hortonworks aponta, na verdade, que faísca SQL é mais rápido que Hive-on-Spark. Mas se os clientes precisam escolher entre um motor de SQL que é executado somente sobre Spark, e um que pode fazer isso e passar por cima do Hadoop MapReduce e Apache Tez, bem como, Faísca SQL pode ter algumas explicações a dar.

E depois há as guloseimas projeto Stinger em Hive, incluindo um otimizador baseado em custo da consulta, o LLAP ( “live processo longo e” – I kid você não) camada que fornece serviços de cache de consulta, ea lógica de processamento do vetor, que processa múltiplos linhas de dados ao mesmo tempo em vez de um-em-um-tempo.

A nova taxonomia; Assim, enquanto o mundo SQL-on-Hadoop costumava ser dividida em lotes, interativo e implementações dos fornecedores de banco de dados proprietárias, agora é sobre muito mais.

Com Hive, você tem recursos RDBMS empresariais e execução multi-motor. Com Broca, você tem SQL e acesso baseado em ferramenta de BI aos dados em uma diversidade de locais e formatos, e toda a gama de graus de estrutura.

Empresa social; LinkedIn revela a sua nova plataforma de blogs; Big Data Analytics; não é a idade de grandes OLAP;? Big Data Analytics; DataRobot visa automatizar baixo pendurado fruto de ciência de dados; Big Data Analytics; fundador MapR John Schroeder desce, COO para substituir

Faísca SQL tem a vantagem da integração com o núcleo Spark, desencadear Streaming e desencadear MLLib. Enquanto isso, os fornecedores de banco de dados permitem que você veja os dados do Hadoop como se fosse mesas convencionais em seu banco de dados ou data warehouse relacional.

Muitas opções, para ter certeza. Agora é hora de construir uma estratégia, para que possa avançar com a sua análise de Big Data trabalho.

Correção: a versão inicial deste post indicou que Hive 1.2 foi a primeira versão a incluir o código Hive-on-Spark. Na verdade, Hive 1.1 foi o primeiro a incluí-lo.

LinkedIn revela a sua nova plataforma de blogs

É esta a idade de Big OLAP?

DataRobot visa automatizar fruto maduro da ciência de dados

fundador MapR John Schroeder desce, COO para substituir