Presto – Distributed Query Engine for Big Data Environment | Concepts

Pessoal, esse post irá iniciar uma série de posts sobre o Presto. A ideia é que demos início a um conjunto de séries com conteúdo exclusivamente voltado para Big Data. Iniciaremos com essa série sobre Presto e logo em seguida, começaremos uma outra sobre Apache Kafka. Pretendo abordar também o Apache Drill, e algumas outras tecnologias do Azure para armazenamento e processamento de “Big Dados”.

O Presto, dentro do cenário de Big Data está qualificado como um ferramenta de query distribuída. Iremos aqui desde a introdução até como configurarmos e usarmos em ambientes on-premises e Azure Cloud.


O projeto do Presto foi iniciado com a equipe do Facebook em 2012. A ideia era criar uma ferramenta que fosse capaz de permitir uma performance maior em comparação, por exemplo, ao Apache Hive onde, para isso, seria necessário não mais usar o Map Reduce como mecanismo de busca. Dessa forma, o Presto trabalha apenas com memória.

Muitas pessoas confundem a ferramenta como sendo um banco de dados em memória, porém, o Presto é apenas um layer de processamento. Isso quer dizer que os dados são usados apenas em tempo de execução e são buscados de suas respectivas origens.

Um outro ponto muito interessante do Presto é que, com ele, é possível conectar em diversas fontes diferentes e realizar join entre essas fontes de dados permitindo um resultado integrado sem a necessidade de um processo de integração de dados para isso. Por exemplo: se você precisa cruzar informação do seu SQL Server On-Premises, com seu MongoDb NOSQL, com seu DataLake que está no Hadoop e em um outro repositório que está no Azure,  você poderia usar o Presto para isso.

O Presto é uma ferramenta desenhada para eficientemente trabalhar com uma grande quantidade de informações usando uma arquitetura distribuída. Com ele você pode trabalhar com terabytes ou petabytes de informações dentro do HDFS ou de outro storage layer. Ele foi desenhado para trabalhar com data warehouse e analytics: Analises de dados e agregações de grandes massas para produção de reports.

Só para termos uma ideia, em 2014 a Netflix divulgou usar o Presto para construção de análises sobre 10 petabytes de informações.


No próximo post iremos abordar conceitos e a arquitetura do funcionamento do Presto. Será possível iniciar o entendimento da ferramenta e descobrir o porquê de o Presto ser tão interessante em cenários de Big Data.

Anúncios

Dados – Novos Conceitos

Quanto mais tenho me dedicado a estudar e me especializar, mais tenho visto e percebido que, um dos principais problemas na grande maioria dos projetos, é o não uso dos conceitos corretos para situações e problemas específicos.

Com o avanço e constante evolução das tecnologias, mais os profissionais são forçados a focar em ferramentas.

Porém, como sempre digo em cursos e palestras, a correta aplicabilidade dos conceitos é o que faz um projeto ser ou não bem sucedido. Ferramentas são somente uma forma de conquistar um fim com base em uma arquitetura específica.

Esse post foi especificamente pensando para ajudar entender como e onde cada conceito se encaixa.


Primeiramente começemos do início com o conceitos de Business Intelligence (Inteligência de Negócios) também conhecido pela sigla BI. A idéia principal por detrás desse conceitos está em usar os dados criados pela instituição para gerar insumos para tomada de decisões. Desta forma, elimina-se a necessidade de “feeling” dos gestores e responsáveis para decisões importantes apoiando-os com dados e não somente com sentimentos (achismos).

Partimos então para os nossos conhecidos Immon e Kimball com as teórias relacionadas a Data Warehouse. Basicamente, um Data Warehouse (ou Armazem de Dados) é o repositório centralizado para o armazenamento de informações usadas para a tomada de decisões.

Com base no livro Data Warehouse Toolkit, esse (o DW) deve ser histórico e responsável por unir os dados importantes para o BI em um lugar único visando com que relatórios que usem a mesma informação não apresentem dados divergentes, tornando-se assim, a Fonte da Verdade para toma de decisões.

Esses dados são extraídos, integrados, limpos e carregados por um processo chamado Extract, Transformation and Load (Extração, Transformação e Carga) ou ETL. Um processo de ETL consiste em extrair os dados das várias fontes, trabalhá-los e depois armazená-los dentro do repositório centralizado.

Veja que os conceitos Data Warehouse e Business Intelligence são totalmente diferentes mas que, muitas vezes, são confundidos. É importante entender essa diferença para que consigamos entender melhor os conceitos a seguir.


Partindo para o próximo ponto temos o tão falado de Big Data. Bom, o famoso conceito “dado grande” teve sua origem em 1997 em uma conferência de engenharia e teve sua formação em 2001 onde tomou forma nos 3 “V”s. São eles:

  1. Variedade = Dados estruturados (CSV), semi-estruturados (JSON) e não-estruturados (Dados de vídeo e fotos, por exemplo).
  2. Velocidade = Necessidade consumo dos dados em formatos diferentes de forma mais rápida.
  3. Volume = Necessidade de armazenamento desses gigantesco desses dados de todos os tipos permitindo o seu consumo de forma performática.

O nascimento da tecnologia para o termo Big Data ocorreu em 2003 com o Google File System (para armazenamento) e o Map Reduce (como técnica de consumo de dados distribuído). Porém, o seu grande advento deu-se quando o Yahoo, com base nos white papers do google criou o Hadoop. Essa tecnologia tornou-se um projeto da Fundação Apache e hoje, os dois termos (Big Data e Hadoop) normalmente confundem-se.

Após a leitura acima é possível entender que, o termo Big Data não diz respeito a análise de dados em si, mas sim, a uma arquitetura capaz de trabalhar com grandes volumes de informações usandas-as, não somente para tomada de decisões, mas para o funcionamento da empresa ou como um todo. É o que chamamos de Data Driven.

Vamos pensar de uma maneira um pouco mais prática. Empresas hoje conseguem receber dados de sensores fazendo com que seus softwares e hardwares tomem decisões de forma autônoma. Graças a isso tivemos o advento da Industria 4.0.


Com base no abrangente conceito de Big Data foi indispensável dar forma a uma nova arquitetura de armazenamento centralizado de dados que permita a criação de uma Fonte da Verdade, não somente para áreas responsáveis pela tomada de decisões, mas para toda a empresa.

o responsável por esse conceito chamado Data Lake foi o, então CTO da Pentaho, James Dixon. O “Lago de Dados” nada mais é que um repositório central para o armazenamento de dados crús (Raw Data) de todas as origens e tipos visando com que toda a instituição use essas informações para todo o qualquer tipo de possibilidades.

O seu principal argumento para criação da arquitetura foi a extinção dos silos de dado, problema esse herdado dos conceitos de Data Mart.

Dessa forma, quando nos referimos à tomada de decisões, ainda precisaremos. (na maioria das vezes e para a maioria dos propósitos) de um Data Warehouse (Conceitualmente).


Se partirmos para a análise de dados provenientes de um Data Lake deveremos tocar em um outro importante conceito chamado ELT. Bom, o Extract, Load and Transformations tem uma aplicabilidade idêntica ao ETL já abordado acima com a diferença, não somente da ordenação das três letras: Aqui, os dados são extraídos e armazenados no Data Lake e depois, através de outras tecnologias, são transformados e apresentados.

Se pensarmos na Fonte da Verdade de dados usada não somente para uma parte da empresa, mas sim para ela como um todo, será possível entender que, ao aplicar uma regra de negócio específica e só depois armazenar esse dado, tem-se a perda da característica de Raw Data da informação. Ou seja, o processo de transformação é realizado após a inserção do “dado crú”.

A ideia do post é falar sobre conceitos, mas citarei com exemplos de ferramentas de ELT o Hive (Possibilita o uso da interface de SQL para consumo de dados dentro do HDFS usando Map Reduce) e o ApacheDrill (Tecnologia que lê dados do HDFS usando conceitos de armazenamento colunar em memória).


Bom, com base em todo o contexto criado acima, foi possível observar que, Big Data não é a evolução do Data Warehouse, e nem um substitui ou substituíra o outro. São conceitos que se complementam e que sempre terão seu espaço, todavia, em tecnologias novas.


Aproveitando o post, falarei também de dois conceitos que muito se confundem por terem uma linha muito tênue de divisão apesar de estarem muito afastados dentro de uma arquitetura de dados. São eles o Self Service BI e o Data Discovery.

Self Service BI diz-se respeito à possibilidade de consumir dados para sua análise de maneira simples e rápida. Geralmente usado por gestores para construção de insumos e indicadores sobre as informações de seu negócio sem a necessidade do uso da TI.

Ora, é importante assinalar bem o “sem o uso da TI” porque, devido a esse pensamento, as empresas tendem a criar uma ideia errônea de que seria possível a criação desses reports em cima dos dados crús sem a aplicação das regras de negócios ou, aplicando-as inconsequentemente de acordo com cada área da instituição. Essa forma de abordagem cria um dos problemas que o Data Warehouse deve ser usado para resolver: Inconsistência de dados para o mesmo tipo de informação.

Vejamos: O que seria um self service? Pensemos em um self service de comida. Entramos em um restaurante e escolhemos nosso cardápio. Colocamos no prato arroz, farofa, feijão, frango, um pouco de salada e um molho qualquer.

Agora vejamos: em algum momento entrou-se na cozinha e preparou-se o arroz, o feijão e o frango? Não, certo? Logo, Self Service BI diz-se da possibilidade de consumir informações já trabalhadas pela TI.

Agora vamos para a ideia de Data Discovery. Com o crescente aumento dos dados dia após dia gera-se cada vez mais a necessidade de cruzar as informações “locais” com dados externos possibilitando novas análises mais rebuscadas. Muitas vezes os gestores e analistas precisarão verificar onde e como cada novo dado se encaixa ao seu e, respectivamente, poderá ajudar em novos insights.

O Data Discovery consiste em possibilitar a essas pessoas o cruzamento dessas novas informações visando exatamente realizar a “Descoberta de Dados”.

Ferramentas como o Power BI da Microsoft permitem ambas as possibilidades, porém, uma arquitetura mal formulada confundindo-se os temos pode criar um problema catastrófico em uma empresa.


A ideia deste post é ajudar os profissionais de dados a realizarem uma melhor escolha da tecnologia a ser usada com base no conceito correto para o tipo de problema a ser resolvido. Espero ter ajudado. Até o próximo.

SQL Saturday #804 – São Paulo

Pessoal, no último sábado ocorreu mais uma edição do SQL Saturday em São Paulo. Tive mais uma vez a honra de estar dentre esses profissionais de altíssimo nível que disponibilizam do seu tempo para disseminar conteúdo.

Agradeço de todo coração aos organizadores do evento pelo grandioso trabalho e pelo evento de grande qualidade.

Neste ano palestrei sobre O Ecossistema de BI no Azure. Falei um pouco sobre a arquitetura de BI com base das metodologias de Kimball e, além disso, explorei de maneira robusta sobre as formas de implementar um projeto do zero usando a núvem da Microsoft em modelo IaaS ou PaaS.

Seguem abaixo o slide da palestra.

Não percam as próximas edições em Salvador (clique no link para ter acesso à grade de palestras) e No Rio de Janeiro.

Microsoft – 10 anos em 18 meses

Pessoal, estou voltando hoje com as atividades do blog. Primeiramente peço desculpas para todos que o acompanham e que tenham me mandado mensagens e/ou emails nos últimos meses. Foi bem difícil conciliar as viagens e vários projetos. Mas prometo que agora estou de volta ativamente!

Bom, como quem acompanha os posts do blog já sabe, no final do ano de 2016 iniciei um novo ciclo de vida profissional quando comecei as atividades no time de consultoria da Microsoft. De lá pra cá, tive a oportunidade de trabalhar em clientes e projetos fantásticos e de conhecer pessoas maravilhosas com as quais aprendi muito e das quais trouxe pra vida muita inspiração e histórias pra contar.

Esse post é de agradecimento a essas pessoas pela oportunidade que me deram de me tornar, não somente um profissional, mas sim uma pessoa melhor.


Vou começar agradecendo às pessoas com as quais tive o primeiro contato na minha “vida Microsoft”. São eles: Wandenkolk e Bia. Eles fizeram minha entrevista. Foi a uma hora e meia mais tensa e prazerosa que já tive no que diz respeito à perguntas e respostas técnicas sobre o universo de BI e Microsoft. Com o passar do tempo, comecei a admirar essas duas pessoas: ele, pelo seu jeito contagiante e direto; ela por sua forma tranquila e calma de resolver QUALQUER coisa.

Depois, representando o time de negócio de Brasília, Celina e Fábio. Obrigado, Celina, por me ensinar o significado de “Hard Work” e de como saber falar com qualquer pessoa, em qualquer situação com elegância e profissionalismo. Ao Fábio agradeço por seu companherismo e amizade. Aprendi com você que manter relacionamentos é importante e que, olhar para nós mesmos, e nos cuidarmos também. Ninguém é de ferro!

Depois disso, vem o time de Data Insights, representado aqui pelo Giuliano, Emerson e o grande Arvolea. O Giuliano virou mais que um amigo, virou um irmão. Acredito que baste isso para me referir a tudo que absorvi dele. O Emerson, com seu jeito humilde de ser, mas completamente competente me ensinou a ser mais calmo e que, as vezes, um talvez é mais acertivo. O Rodrigo Arvolea, apesar do pouco contato que tivemos, me mostrou o significado de POLIDEZ. Essa é a palavra!

A Ana Paula, na unificação do time de PFEs com o nosso, de Consultores, se  tornou minha chefe direta e me mostrou o significado de perfeição no trabalho, unido a uma total transparência e carinho por todos. Se um dia eu tiver alguém que se remeta a mim profissionalmente, terei sempre em mente a sua figura como inspiração.

No mais, a todos os quais não me referi aqui, MUITO OBRIGADO por tudo. Vocês são demais e a Microsoft tem sorte de tê-los como parte do time.


Mas Arthur, o que vêm por aí?

Com o meu desligamento da Microsoft, uni-me a meu irmão Heitor Luz e, juntos, montamos a Data’s Light. É a realização de um sonho somados a uma experiência de mercado que vai, desde a análise de dados, Nuvem e Big Data até desenvolvimento web e Mobile.

Estamos trabalhando na interface visual da marca, site, camisas e etc. Em breve farei um post apresentado publicamente a empresa mas já adianto que estamos bastante animados e empolgados.

Tão empolgados que aproveitei o SQL Day em Vitória para fazer uma reunião com o MVP Fabrício Lima e formamos uma parceria. Em breve também falaremos mais sobre isso também.


Os próximos posts serão técnicos. Atualmente estou trabalhando não somente com BI mas com algumas tecnologias de Big Data. Vou começar a atualizar o blog com esses conteúdos. Virá coisa muito legal por ai!

No mais, Muito obrigado a todos.

Eventos Ocorridos & Próximos Eventos

Pessoal, tem algum tempo que não escrevo e gostaria de, com esse post, retomar a constância no post de novidades / eventos / novas dicas técnicas.


Este post será para falarmos acerca dos próximos eventos que irão ocorrer na comunidade Brasil e um pouco a respeito dos que já ocorreram.


SQL Saturday #676 – São Paulo SP – O evento irá correr no dia 30 de setembro (próximo sábado) na UNIP Tatuapé. O evento vai contar com grandes nomes da comunidade Microsoft no Brasil e Mundo falando sobre diversos assuntos técnicos e novidades acerca do mundo de banco de dados, BI e Analytics.

Eu terei novamente a honra de estar entre essa galera falando sobre o tema: “Multidimensional ou Tabular? Qual modelo devo usar?”. Nesta sessão você irá aprender sobre as principais diferenças entre os modelos Multidimensional e Tabular do SQL Server Analysis Services. Será discutido, de acordo com os principais pontos positivos e negativos dos dois modelos, onde encaixar cada um deles em um projeto Enterprise. Irei falar também sobre o quando usar o modelo PaaS do SSAS Tabular no Azure.

Veja o SCHEDULE e se programe para obter o máximo de conhecimento e network possível.


SQL Saturday #663 – Rio de Janeiro RJ – O evento irá correr no dia 21 de Outubro no instituto INFNET. Estarei dentre as grandes feras também falando sobre o tema “Por Detrás dos Relatórios”.

Nesta sessão você irá descobrir o que deve existir por detrás dos relatórios empresariais para que o suporte a tomada de decisão seja rápido, seguro e correto. Após entender os passos que existem até a criação dos reports será possível entender toda a arquitetura de um ambiente de Data Warehouse corporativo.

Veja o SCHEDULE e se programe para obter o máximo de conhecimento e network possível.


SQL Saturday #677 – Salvador BA – O evento irá correr no dia 18 de Novembro no Centro Universitário Estacio.

Em breve teremos mais informações sobre o Schedule de assuntos e palestrantes. Fiquem Atentos!


The Developer’s Conference – Porto Alegre RS – O evento ocorrerá nos dias 08, 09, 10 e 11 de Novembro na universidade UniRitter. Serão várias trilhas de assuntos relacionados a TI ocorrendo simultaneamente.

Estarei falando no sábado (Dia 11/11) sobre o tema: “SQL Server 2016 Temporal Tables”. Através desta feature do SQL Server 2016 é possível armazenar dados históricos em ambiente OLTP de maneira simples. Com isso é possível realizar rollback de transações já comitadas, fazer consultas históricas em ambiente OLTP e realizar análises de Slowly Changing Dimension em ambientes de Business Intelligence.

Veja o SCHEDULE e se programe para obter o máximo de conhecimento e network possível.


Agora vou falar um pouco sobre os últimos eventos que ocorreram na comunidade Microsoft. É muito importante que de uma forma geral valorizemos esses eventos, não somente pelo conhecimento que é possível de ser adquirido, mas também pelo network que se é sempre conquistado. Toda minha carreira profissional e até mesmo este blog é uma prova disso! 😉


SQL Saturday #609 – Caxias do Sul RS – O evento ocorreu no dia 24 de Junho na faculdade Uniftec. Foi um dia fantástico onde tive a oportunidade de estar com grandes amigos da comunidade e mais de 300 pessoas (dentre alunos e profissionais da área) trocando experiência e conhecimento.

Falei lá sobre o tema “Por Detrás dos Relatórios” onde tive mais de 85 pessoas debatendo junto comigo sobre esse assunto que tanto amo conhecido como Inteligência de Negócios.

Recebi várias críticas (todas construtivas) sobre minha didática e sobre improvements que realizarei no tema nas próximas oportunidades. Agradeço a todos que deixaram um pouco de suas opiniões me ajudando a ser um profissional melhor.

Agradeço também de todo o coração ao time organizador do evento e em especial ao MVP Rodrigo Crespi por ter não somente me permitido estar lá levando um pouco do meu conhecimento para os inscritos, mas também por toda a recepção e pela organização impecável do evento!


MTAC Week [Online] – O evento ocorreu nos dias 26 a 30 de Junho com vários especialistas falando sobre diversos assuntos, não somente relacionados a dados.

Caso você queira assistir as apresentações, segue link.


SQL Saturday #618 – Brasília DF – O evento ocorreu no dia 19 de Agosto na faculdade Uniprojeção que como sempre tem apoiado a comunidade.

Foi um dia fantástico onde tive a oportunidade de estar mais uma vez com grandes amigos da e também com mais de 300 pessoas (dentre alunos e profissionais da área) trocando experiência e conhecimento.

Falei novamente sobre o tema “Por Detrás dos Relatórios” onde tive mais de 50 pessoas debatendo junto comigo sobre esse assunto “Inteligência de Negócios”.

Agradeço grandemente a todo o time organizador do evento e  em especial ao Raul e ao Gustavo pela oportunidade, organização e presteza que sempre têm. Parabéns pelo evento fantástico!


No mais, nos vemos nos próximos eventos! E sim, o Blog Data’s Light voltou a ativa! 😀

DATABASECAST #78 – Projetos de BI na Prática

Pessoal, tive o grande prazer e honra de ser convidado pelos especialistas Wagner Crivelini e Mauro Pichiliani para participar do episódio 78 do DatabaseCast da iMaster. Batemos um papo bem legal sobre problemas, principais considerações, pontos positivos e negativos, e mais outros assuntos relacionados a um projeto de Business Intelligence.

Gostaria de grandemente agradecer ao Pichiliani e ao Crivelini pelo convite e, repito: foi uma honra estar ao lado dessas feras faland0 sobre esses assuntos que tanto amo.

Segue o link para acesso ao databasecast #78 – Projetos de BI na Prática.

Espero que poder ajudar!

Microsoft Certified Solutions Associate & Expert – SQL Server 2016

Pessoal, recentemente finalizei a carreira de certificações (por enquanto) em SQL Server. Gostaria de através desse post compartilhar com vocês como está atualmente a carreira de certificações da Microsoft, com relação à plataforma de dados, e também dar algumas dicas de como vocês podem também alcançar um ou vários dos titulo de Microsoft Certified Professional.


Carreira de certificações atual (MCSA SQL 2016)

No que diz respeito ao SQL Server 2012/2014, a carreira de certificações se resumia a apenas uma onde, para conseguir o título de Microsoft Certified Solutions Associate, era necessário realizar 3 provas onde, em cada uma delas, eram medidos conhecimentos em três áreas diferentes: Desenvolvimento (Exame 70-461), Administração (Exame 70-462) e Desenvolvimento de Ambientes de BI (Exame 70-463).

Conseguir adquirir essa certificação não era tarefa fácil pois demandava do candidato conhecimentos profundos de 3 assuntos totalmente distintos.

Atualmente, no SQL Server 2016, a Microsoft mudou um pouco a maneira de pensar com relação à carreira de certificações e dividiu o MCSA em três trilhas diferentes. São elas:

  • MCSA SQL 2016 | Database Development – Esse título é adquirido pelo candidato que for bem sucedido nos exames 70-761 – Querying Data with Transact-SQL e 70-762 – Developing SQL Databases.
  • MCSA SQL 2016 | Database Administration – Esse título é adquirido pelo candidato que for bem sucedido nos exames 70-764 – Administering a SQL Database Infrastructure e 70-765 – Provisioning SQL Databases.
  • MCSA SQL 2016 | BI Development – Esse título é adquirido pelo candidato que for bem sucedido nos exames 70-767 – Implementing a SQL Data Warehouse e 70-768 – Developing SQL Data Models.

Impressões sobre as provas (MCSA SQL 2016)

            

Quando iniciei a jornada de certificações da plataforma do SQL Server 2016 eu já possuía o título de SQL Server MCSA 2012/2014 e, por isso, não houve a necessidade de que eu realizasse os 6 exames para conquistar cada um dos 3 títulos do MCSA do SQL Server 2016 pois, cada uma das 3 provas substitui a primeira prova (70-761, 70-764 e 70-767) do novo ciclo.

Essa substituição ocorre pelo simples fato de que o conteúdo estudado para as 3 provas do SQL Server 2014 é praticamente o mesmo que para a primeira prova de cada uma das novas carreiras. com base nisso, leiam:

Agora, quanto aos outros 3 exames, seguem abaixo minhas impressões:

  • Exame 70-762 – Developing SQL Databases – Esse exame é o segundo da trilha para MCSA em Desenvolvimento. Realizei essa prova quando estava em período BETA. foram em torno de 63 questões (Atualmente não deve passar de 45) onde os principais assuntos cobrados estão relacionados à identificação e solução de problemas relacionados tratamento de exceções em queryes, identificação e tratamento de Locks e Deadlocks e os demais assuntos relacionados à segurança de objetos, utilização de triggers e views para abstração de banco de dados físico na aplicação dentre outros.
  • Exame 70-765 – Provisioning SQL Databases – Esse exame é o segundo da trilha para MCSA em Administração de ambientes de bancos de dados em SQL Server. Também realizei esse exame em caráter BETA e, não se enganem, AZURE é o tema dessa prova. Dentre os assuntos mais cobrados estão: Identificar qual o melhor caminho para criação de uma infraestrutura no AZURE (Infrastructure as a Services [IaaS] ou Platform as a Services [PaaS]), como identificar o melhor tipo de Tier para Azure SQL Database com base nas possibilidades disponíveis em cada um deles, Como realizar Backup e Restore no ambiente Cloud, configuração do ambiente de dados do SQL Server em VMs no AZURE dentre outros.
  • Exame 70-768 – Developing SQL Data Models – Esse exame é o segundo da trilha para MCSA em Business Intelligence com a plataforma do SQL Server 2016. Esse exame é unica e exclusivamente relacionado ao SQL Server Analysis Services. Dentre outros assuntos, os mais cobrados são: Qual modelo (Multidimensional ou Tabular) usar dependendo dos requisitos fornecidos, Como desenvolver KPIs e Campos Calculados com MDX e DAX, Como ocultar dos usuários finais colunas e tabelas em ambos os modelos, Como otimizar cubos multidimensionais através de relacionamentos entre atributos, qual tipo de armazenamento utilizar em ambos os modelos (MOLAP/ROLAP x InMemory/DirectQuery) dentre outros.

    Carreira de certificações atual (MCSE SQL 2016)

Anteriormente existiam duas carreiras para se tornar um Expert nas soluções da plataforma de dados do SQL Server. Era possível se tornar Solutions Expert em Data Platform (Exame 70-464 e Exame 70-465) ou em Business Intelligence (Exame 70-466 e Exame 70-467).

Atualmente, essas duas certificações foram descontinuadas. Existe epenas um título que pode ser adquirido. Ele se chama Microsoft Certified Solutions Expert in Data Management and Analytics. Para adquirir essa certificação basta que você possua uma das certificações em MCSA SQL 2016 (Desenvolvimento, Administração ou BI) e seja bem sucedido em um dos exames abaixo:

  1. Exame 70-473 – Designing and Implementing Cloud Data Platform Solutions – “Este exame foi criado para candidatos que estiverem interessados em confirmar suas habilidades em projetar e implementar soluções de plataforma de dados da Microsoft. Os candidatos deste exame devem ter experiência relevante de trabalho em soluções de plataforma locais e baseadas em nuvem.”
  2. Exame 70-475 – Designing and Implementing Big Data Analytics Solutions – “Este exame de certificação destina-se a profissionais de gerenciamento de dados, arquitetos de dados, cientistas de dados e desenvolvedores de dados que criam soluções de análise para Big Data no Microsoft Azure. Os candidatos deste exame devem ter experiência relevante de trabalho em soluções de análise de Big Data.”
  3. Exame 70-464 – Developing Microsoft SQL Server Databases – “Este exame se destina a profissionais de banco de dados que compilam e implementam bancos de dados em várias organizações e garantem níveis elevados de disponibilidade de dados. Entre suas responsabilidades estão criar arquivos de banco de dados, tipos de dados e tabelas; planejar, criar e otimizar índices; garantir integridade de dados; implementar exibições, procedimentos armazenados e funções; e gerenciar transações e bloqueios.”
  4. Exame 70-465 – Designing Database Solutions for Microsoft SQL Server – “Este exame é destinado a profissionais de banco de dados que projetam e compilam soluções de banco de dados na organização. Eles são responsáveis pela criação de planos e projetos para estrutura, armazenamento, objetos e servidores de banco de dados. Eles criam o plano para o ambiente em que a solução de banco de dados é executada.”
  5. Exame 70-466 – Implementing Data Models and Reports with Microsoft SQL Server – “Este exame é destinado a desenvolvedores de Business Intelligence (BI) com foco na criação de soluções de BI que exigem implementar modelos de dados multidimensionais, implementar e manter cubos OLAP e criar exibições de informações usadas na tomada de decisão de negócios.”
  6. Exame 70-467 – Designing Business Intelligence Solutions with Microsoft SQL Server – “Este exame é destinado a arquitetos de Business Intelligence (BI), que são responsáveis pelo projeto geral de uma infraestrutura de BI e pelo modo como esta se relaciona com outros sistemas de dados em uso.”

    Impressões sobre as provas (MCSE SQL 2016)

Para adquirir a certificação de MCSE em SQL Server 2016 realizei primeiramente o Exame 70-466 e em seguida o exame 70-767 ( não que esse fosse necessário mas decidi o fazer pois os dois exames eram necessários para a carreira de MCSE de Business Intelligence).

  • Exame 70-466 – Implementing Data Models and Reports with Microsoft SQL Server – Esse exame é muito parecido com a segunda prova necessária para o MCSA em BI do SQL Server 2016 (Exame 70-768). A diferença entre eles é que, neste, conhecimentos em Reporting Services são necessários. Dentre eles: saber que componentes usar dependendo do tipo de análise solicitada, saber quais permissões usar exatamente dependendo da necessidade, como realizar migrações de ambiente em situações de disaster/recovery, dentre outros.
  • Exame 70-467 – Designing Business Intelligence Solutions with Microsoft SQL Server – Esse exame foi o MAIS DIFÍCIL que já realizei. Ele não exige simplesmente que saiba-se construir, desde modelos Dimensionais (Kimball x Immon) em SQL Server, Projetos de Integração de Dados com Integration Services, Projetos de Cubos Tabulares e/ou Multidimensionais e projetos de Reporting Services em modo Nativo e/ou integrados com sharepoint, mas também o que é MELHOR dentre as várias opções disponibilizadas. Outros assuntos abordados também são cubos dentro do Power Pivot (e como importá-los para um modelo Tabular dentro do SSAS) e análises dentro do Power View (Ainda não encontramos aqui Mobile Report e Power BI).

Como se preparar – Material para Estudo

Essa área do post se dedica às pessoas que querem aprender o conteúdo necessário para se tornarem Microsoft Certified Solutions Associate / Solutions Expert em SQL Server 2016. Abaixo seguem os livros e materiais que utilizei para conseguir ser bem sucedido em todos esses exames os quais listei.

  • Para os exames relacionados a desenvolvimento de SQL Server (70-461, 70-761, 70-762 e 70-464) aconselho o estudo APROFUNDADO do livro Querying Microsoft® SQL Server® 2012 Exam 70-461 Training Kit.
  • Para os exames relacionados a administração de ambiente em SQL Server (70-462, 70-764 e 70-465) aconselho também o estudo aprofundado dos livros Training Kit Exam 70-462: Administering Microsoft® SQL Sever® 2012 DatabasesProfessional Microsoft SQL Server 2014 Administration. Em se tratando de alta disponibilidade com AlwaysOn FCI aconselho o livro SQL Server 2014 – Alta Disponibilidade na Prática Com Alwayson Failover Cluster Instances e para AlwaysOn AG a documentação no link.
  • Para estudos relacionados a AZURE (70-765 e 70-473) aconselho o estudo através das documentações (Não há muito conteúdo em livros ainda sobre o assunto).
  • Para os exames relacionados à Business Intelligence (70-463, 70-767, 70-768, 70-466 e 70-767) não existe melhor fonte, na minha opinião, que estudar profundamente os livros: The Data Warehouse Toolkit (Para modelagem), Professional Microsoft SQL Server 2014 Integration Services (Para Integração de Dados), Professional Microsoft SQL Server 2012 Analysis Services with MDX and DAX (Envolve todo o conteúdo OLAP da plataforma do SQL Server + dicas avançadas de performance e troubleshoot + conteúdo para desenvolvimento de códigos em Multidimensional Expression [MDX] e Data Analysis Expression [DAX]) e o Professional Microsoft SQL Server 2016 Reporting Services and Mobile Reports (Todo o conteúdo de Reporting Services com o Adicional do Mobile Report [Ainda não cobrado para os exames]).

    Espero poder conseguir ajudá-los e desejo que todos tenham sucesso nos exames.