Roteiro de estudos para DP 900 part.01

Recentemente eu comecei a estudar para minha primeira certificação Microsoft, a certificação que escolhi é a Azure data fundamentals ou DP-900, essa certificação proporciona uma compreensão sólida dos conceitos básicos de dados, como dados relacionais, dados não relacionais, Big Data e análise. Então resolvi compartilhar com a comunidade o meu roteiro de estudos para a prova.

Existem alguma coisas importantes de saber antes da prova, por exemplo, um processamento em batch tem alta latência, então se você quiser algo em real time, vai ter que ir de streaming. Mas qual a melhor API para o streaming? tambem cobram esse tipo de questão. Ainda dentro do Cosmos DB, é fundamental além de saber as características das APIs, saber quando usá-las. Por exemplo, Key and Value encripta os dados e não é transparente para o Banco de Dados, consequentemente, a leitura é demorada. Porém a escrita em grande escala é muito rápida. O que isso favorece? Ao processamento de batch. E assim você vai entendendo o quebra-cabeças. Descrever conceitos de dados.

Então aqui vai a minha primeira parte do roteiro de estudos “first things first”

Descrever conceitos de dados

O primeiro ponto é descrever os conceitos de dados. São eles:

  • Dados estruturados
  • Semiestruturados
  • Não estruturados.

Dados estruturados

Dados estruturados obedecem a um esquema fixo, portanto, todos os dados têm os mesmos campos ou propriedades. Normalmente, o esquema para entidades de dados estruturados é tabular, os dados são representados em uma ou mais tabelas que consistem em linhas para representar cada instância de uma entidade de dados e colunas para representar os atributos da entidade.

Dados semiestruturados

Dados semiestruturados são informações que têm alguma estrutura, mas que permitem alguma variação entre instâncias da entidade. Por exemplo, embora a maioria dos clientes possa ter um endereço de e-mail, alguns podem ter vários endereços de e- mail e outros podem não ter nenhum. Um formato comum para dados semiestruturados é o JSON (JavaScript Object Notation).

Dados não estruturados

Nem todos os dados são estruturados ou até mesmo semiestruturados. Por exemplo, documentos, imagens, dados de áudio e vídeo e arquivos binários podem não ter uma estrutura específica. Esse tipo de dados é conhecido como dados não estruturados.

O segundo passo é conseguir identificar as opções para armazenamento de dados e descrever os formatos maus comuns para arquivos de dados.

As organizações normalmente armazenam dados em formato estruturado, semiestruturado ou não estruturado para registrar detalhes de entidades (por exemplo, clientes e produtos), eventos específicos (como transações de vendas) ou outras informações em documentos, imagens e outros formatos. Os dados armazenados podem ser recuperados para análise e relatórios posteriormente.

Há duas categorias amplas de armazenamento de dados comuns em uso:

  • Armazenamentos de arquivos
  • Bancos de dados

O formato de arquivo específico usado para armazenar dados depende de vários fatores, incluindo:

  • O tipo de dados que está sendo armazenado (estruturado, semiestruturado ou não estruturado).
  • Os aplicativos e serviços que precisarão ler, gravar e processar os dados.
  • A necessidade de que os arquivos de dados sejam legíveis por seres humanos ou otimizados para armazenamento e processamento eficientes.

Alguns formatos de arquivo comuns são discutidos abaixo.

  • Arquivos de texto delimitados
  • JSON
  • {1>linguagem XML<1}
  • BLOB

Além desses formatos existem formatos otimizados de arquivos que incluem:

  • Avro
  • ORC 
  • Parquet

Esses são os principais tipos de banco de dados:

Não relacionais: bancos de dados não relacionais geralmente são chamados de banco de dados NoSQL, embora alguns ofereçam suporte a uma variante da linguagem SQL.

Bancos de dados de chave-valor: nos quais cada registro consiste em uma chave exclusiva e um valor associado, que pode estar em qualquer formato.

Bancos de dados de documentos: que são uma forma específica de banco de dados de chave-valor na qual o valor é um documento JSON (em que o sistema é otimizado para análise e consulta)

Bancos de dados de família de colunas: que podem armazenar dados tabulares que abrangem linhas e colunas; você também pode dividir as colunas em grupos conhecidos como famílias de colunas. Cada família de colunas contém um conjunto de colunas que estão logicamente relacionadas.

Bancos de dados de grafo: que armazenam entidades como nós com links para definir relações entre eles.

Um ponto importante tambem é saber descrever as cargas de dados transacionais e analíticas.

Um sistema transacional registra transações que encapsulam eventos específicos que a organização deseja controlar. Uma transação pode ser financeira, como a movimentação de dinheiro entre contas em um sistema bancário, ou pode fazer parte de um sistema de varejo, controlando pagamentos de bens e serviços de clientes. Pense na transação como uma unidade de trabalho pequena e discreta.

Dados Analíticos : O processamento de dados analíticos normalmente usa sistemas somente leitura (ou read-mostly) que armazenam grandes volumes de dados históricos ou métricas de negócios.

  • Os arquivos de dados podem ser armazenados em um data lake central para análise.
  • Um processo de ETL (extração, transformação e carregamento) copia dados de arquivos e bancos de dados OLTP para um data warehouse otimizado para atividade de leitura. Normalmente, o esquema de um data warehouse se baseia em tabelas de fatos que contêm valores numéricos que você deseja analisar (por exemplo, valores de vendas), com tabelas de dimensões relacionadas, que representam as entidades pelas quais você deseja medir.
  • Os dados no data warehouse podem ser agregados e carregados em um modelo OLAP (processamento analítico online) ou cubo. Valores numéricos agregados (medidas) de tabelas de fatos são calculados para interseções de dimensões das tabelas de dimensões. Por exemplo, a receita de vendas pode ser totalizada por data, cliente e produto.
  • Os dados no data lake, no data warehouse e no modelo analítico podem ser consultados para produzir relatórios, visualizações e painéis.

Dados transacionais: Um sistema transacional registra transações que encapsulam eventos específicos que a organização deseja controlar. Uma transação pode ser financeira, como a movimentação de dinheiro entre contas em um sistema bancário, ou pode fazer parte de um sistema de varejo, controlando pagamentos de bens e serviços de clientes. Pense na transação como uma unidade de trabalho pequena e discreta.

Os sistemas transacionais são geralmente de alto volume às vezes manipulado muitos milhões de transações em um dia. Os trabalhos executados por sistemas transacionais são geralmente conhecidos como OLTP (Processamento de Transações Online).

Essa é só uma pequena parte dos estudos. É possível acessar o conteúdo completo no docs da Microsoft.

FONTE: https://docs.microsoft.com/pt-br/learn/certifications/exams/dp-900

Sobre Janaina Valim 91 Artigos
Como Analista de Dados, minha paixão é desvendar insights valiosos e transformá-los em estratégias de sucesso. Constantemente em busca de novos conhecimentos, minha jornada vai além das planilhas e gráficos. Fora do mundo dos dados, sou uma apreciadora entusiasta de vinhos e cervejas, sempre em busca de novos sabores e experiências.

5 Trackbacks / Pingbacks

  1. Roteiro de estudos DP900 parte 2 - 4Future
  2. Roteiro de estudos DP900 parte 3 - 4Future
  3. Espírito de comunidade - 4Future
  4. Grupos de comando SQL: DDL, DML, DCL - 4Future
  5. Grupos de comando SQL: DDL, DML, DCL - 4Future

Faça um comentário

Seu e-mail não será divulgado.


*