arrow_back

Dataprep: Qwik Start

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep: Qwik Start

Lab 1 hora universal_currency_alt 1 crédito show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Este laboratório foi desenvolvido com nossa parceira, a Trifacta. Suas informações pessoais podem ser compartilhadas com a Trifacta, patrocinadora do laboratório, caso você tenha optado por receber atualizações de produtos, anúncios e ofertas no perfil de conta.

GSP105

Laboratórios autoguiados do Google Cloud

Visão geral

O Cloud Dataprep by Trifacta é um serviço de dados inteligente para realizar a exploração visual, limpeza e preparação dos dados para análise. É um serviço sem servidor que funciona em qualquer escala. Não é necessário implantar ou gerenciar uma infraestrutura. Com o Cloud Dataprep, você prepara os dados com alguns cliques e sem código.

Neste laboratório, você usará o Dataprep para manipular um conjunto de dados. Você importará conjuntos de dados, corrigirá dados não correspondentes, além de transformar e mesclar dados. Mesmo se não tiver experiência, você vai saber realizar todas essas tarefas ao final do laboratório.

Configuração e requisitos

Antes de clicar no botão Start Lab

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. Se for preciso pagar, você verá um pop-up para selecionar a forma de pagamento. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • O botão Abrir Console do Cloud
    • Tempo restante
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações se forem necessárias
  2. Clique em Abrir Console do Google. O laboratório ativa recursos e depois abre outra guia com a página Fazer login.

    Dica: coloque as guias em janelas separadas lado a lado.

    Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
  3. Caso seja preciso, copie o Nome de usuário no painel Detalhes do laboratório e cole esse nome na caixa de diálogo Fazer login. Clique em Avançar.

  4. Copie a Senha no painel Detalhes do laboratório e a cole na caixa de diálogo Olá. Clique em Avançar.

    Importante: você precisa usar as credenciais do painel à esquerda. Não use suas credenciais do Google Cloud Ensina. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
  5. Acesse as próximas páginas:

    • Aceite os Termos e Condições.
    • Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
    • Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do GCP vai ser aberto nesta guia.

Observação: para ver uma lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Ícone do menu de navegação

Tarefa 1: crie um bucket do Cloud Storage no seu projeto

  1. No console do Cloud, selecione menu de navegação(Ícone do menu de navegação) > Cloud Storage > Buckets.

  2. Clique em Criar bucket.

  3. Na caixa de diálogo Criar um bucket, dê um Nome exclusivo ao bucket. Não altere as outras configurações.

Observação: para saber mais sobre nomes de buckets, confira a documentação do Cloud Storage.
  1. Desmarque a opção Aplicar a prevenção do acesso público neste bucket em Escolher como controlar o acesso a objetos.

  2. Clique em Criar.

Você criou um bucket. Lembre do nome dele nas próximas etapas.

Teste a tarefa concluída

Clique em Verificar meu progresso para conferir a tarefa realizada. Se o bucket do Cloud Storage foi criado, vai aparecer uma pontuação de avaliação.

crie um bucket do Cloud Storage

Tarefa 2: inicialize o Cloud Dataprep

  1. Selecione menu de navegação > Dataprep.
  2. Marque a caixa de seleção para aceitar os Termos de Serviço do Google Dataprep e clique em Accept.
  3. Marque a caixa de seleção para autorizar o compartilhamento das informações da sua conta com a Trifacta e clique em Agree and Continue.
  4. Clique em Allow para que a Trifacta acesse os dados do projeto.
  5. Clique no seu nome de usuário de aluno para fazer login no Cloud Dataprep by Trifacta. Ele está em Username no painel esquerdo do laboratório.
  6. Clique em Allow para autorizar que o Cloud Dataprep acesse sua conta do Google Cloud do laboratório.
  7. Marque a caixa de seleção para aceitar os Termos de Serviço da Trifacta e clique em Accept.
  8. Clique em Continue na tela First time set up para criar o local de armazenamento padrão.

O Dataprep será aberto.

Teste a tarefa concluída

Clique em Verificar meu progresso para conferir a tarefa realizada. Se tiver inicializado o Cloud Dataprep com o local de armazenamento padrão, você verá uma pontuação de avaliação.

Inicialize o Cloud Dataprep

Tarefa 3: crie um fluxo

O Cloud Dataprep usa um espaço de trabalho flow para acessar e manipular conjuntos de dados.

  1. Clique no ícone Flows. Depois clique no botão Create e selecione Blank Flow:

Ícone Flows, botão Create, opção "Blank Flow"

  1. Clique em Untitled Flow e digite um nome e uma descrição para o fluxo. Como este laboratório usa dados de 2016 da Comissão Eleitoral Federal dos Estados Unidos (FEC, na sigla em inglês), nomeie o fluxo como "FEC-2016" e adicione "Comissão Eleitoral Federal dos Estados Unidos de 2016" na descrição.
  2. Clique em OK.

A página do fluxo "FEC-2016" é aberta.

Tarefa 4: importe os conjuntos de dados

Nesta seção, você vai importar e adicionar dados ao fluxo FEC-2016.

  1. Clique em Add Datasets e selecione o link Import Datasets.

  2. No painel do menu à esquerda, selecione Cloud Storage para importar conjuntos de dados do Cloud Storage e clique no lápis para editar o caminho do arquivo.

Página do Cloud Storage

  1. Digite gs://spls/gsp105 na caixa de texto Choose a file or folder e clique em Go.

Talvez seja preciso ampliar a janela do navegador para ver os botões Go e Cancel.

  1. Clique em us-fec/.

  2. Clique no ícone + ao lado de cn-2016.txt para criar um conjunto de dados que será exibido no painel direito. Clique no título do conjunto de dados no painel direito e mude o nome para "Candidate Master 2016".

  3. Da mesma maneira, adicione o conjunto de dados itcont-2016-orig.txt e mude o nome dele para "Campaign Contributions 2016".

  4. Depois que os conjuntos de dados estiverem listados no painel direito, clique em Import & Add to Flow.

Dois conjuntos de dados listados no painel direito

Você verá os dois conjuntos de dados listados como um fluxo.

Tarefa 5: prepare o arquivo "Candidate"

  1. Por padrão, o conjunto de dados "Candidate Master 2016" estará selecionado. No painel direito, clique em Edit Recipe.

Página do conjunto de dados "Candidate Master 2016"

A página "Transformer" do conjunto "Candidate Master 2016" é aberta na visualização em grade.

Visualização em grade da página "Transformer" de "Candidate Master 2016"

Você vai criar o roteiro de transformação na página "Transformer" e ver os resultados aplicados à amostra. Quando o resultado for satisfatório, execute o job no conjunto de dados.

  1. Cada cabeçalho de coluna tem um nome e um valor que especificam o tipo de dados. Para ver os tipos de dados, clique no ícone da coluna:

column6

  1. Quando você clica no nome da coluna, o painel Details é aberto à direita.

  2. Clique em X no canto superior direito do painel Details para fechar.

Nas etapas a seguir, você vai analisar dados na visualização em grade e aplicar etapas de transformação ao roteiro.

  1. A "Column5" apresenta dados de 1990 a 2064. Amplie a "column5" (como em uma planilha) para separar cada ano. Clique para selecionar o agrupamento mais alto, que representa o ano de 2016.

column5

Isso cria uma etapa para selecionar esses valores.

  1. No painel Suggestions à direita, na seção Keep rows, clique em Add para adicionar essa etapa ao roteiro.

 Painel "Suggestions"

Agora o painel "Recipe" à direita tem a seguinte etapa:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. Na "Column6" ("State"), passe o cursor e clique na parte não correspondente (vermelha) do cabeçalho para selecionar as linhas incompatíveis.

column6

Role para baixo até o fim (destacado em vermelho) e observe os valores incompatíveis. A maioria desses registros tem o valor "P" em column7 e "US" em column6. A incompatibilidade acontece porque "column6" está marcada como uma coluna "State" (indicada pelo ícone de sinalização), mas inclui valores não relacionados a estados (como "US").

  1. Para corrigir esse problema e cancelar a transformação, clique em X na parte superior do painel "Suggestions". Depois clique e mude o ícone de sinalização em "Column6" para uma coluna "String".

column6

Não há mais incompatibilidade, e o marcador da coluna agora está verde.

  1. Filtre somente os candidatos presidenciais, que são os registros com o valor "P" na "column7". No histograma de "column7", passe o cursor sobre as duas barras para ver qual é "H" e qual é "P". Clique na barra "P".

column7

  1. No painel direito "Suggestions", clique em Add para aceitar a etapa no roteiro.

Mantenha a caixa das linhas

Tarefa 6: organize o arquivo Contributions e mescle ao arquivo Candidates

Na página "Join", você pode adicionar o conjunto de dados atual a outro conjunto ou roteiro com base nas informações comuns a ambos.

Organize o arquivo "Contributions" antes de mesclá-lo com o arquivo "Candidates".

  1. Clique em FEC-2016 (o seletor do conjunto de dados) na parte superior da página de visualização em grade.

FEC-2016 na parte superior da página da visualização em grade

  1. Clique no item Campaign Contributions 2016 esmaecido para selecioná-lo.

  2. No painel direito, clique em Add > Recipe e Edit Recipe.

  3. Clique no ícone do roteiro na parte superior direita da página e em Add New Step.

Ícone &quot;Recipe&quot; e botão &quot;Add New Step&quot;

Remova os delimitadores adicionais do conjunto de dados.

  1. Insira o seguinte comando de linguagem Wrangle na caixa de pesquisa:
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

O "Transformation Builder" analisa o comando Wrangle e preenche os campos de transformação "Find" e "Replace".

Transformation Builder

  1. Clique em Add para adicionar a transformação ao roteiro.

  2. Adicione uma nova etapa ao roteiro. Clique em New Step e digite "Join" na caixa de pesquisa.

Caixa &quot;Search transformations&quot;

  1. Clique em Join datasets para abrir a página "Joins".

  2. Clique em "Candidate Master 2016" para mesclá-lo com "Campaign Contributions 2016". Depois clique em Accept no canto inferior direito.

Linha de &quot;Candidate Master 2016&quot;

  1. No lado direito, passe o cursor pela seção "Join keys" e clique no lápis (ícone "Editar").

Caixa &quot;Join conditions&quot;

O Dataprep infere chaves comuns. Há muitos valores comuns que o Dataprep sugere como chaves "Join".

  1. No painel "Add Key", clique em column2 = column11 na seção "Suggested join keys".

Painel &quot;Add Key&quot;

  1. Clique em Save and continue.

As colunas 2 e 11 serão abertas para análise.

  1. Clique em Next e marque a caixa de seleção à esquerda do rótulo "Column" para adicionar as colunas de ambos os conjuntos de dados ao conjunto de dados mesclado.

Lista de rótulos de coluna

  1. Clique em Review e em Add to Recipe para retornar à visualização em grade.

Tarefa 7: resumo dos dados

Para gerar um resumo útil, agregue e conte as contribuições na coluna 16, calcule a média delas e agrupe os candidatos por IDs, nomes e afiliação partidária nas colunas 2, 24 e 8, respectivamente.

  1. Na parte superior do painel "Recipe" à direita, clique em New Step e digite a fórmula abaixo na caixa de pesquisa Transformation para ver os dados agregados.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Uma amostra inicial dos dados mesclados e agregados é exibida, representando uma tabela de resumo dos candidatos presidenciais dos EUA e as métricas de contribuição da campanha de 2016 correspondentes.

Página &quot;Campaign contributions&quot;

  1. Clique em Add para abrir uma tabela de resumo dos principais candidatos presidenciais dos EUA e as métricas de contribuição da campanha de 2016 correspondentes.

Tarefa 8: renomeie as colunas

Para facilitar a interpretação dos dados, você pode renomear as colunas.

  1. Adicione cada uma das etapas de renomeação e arredondamento ao roteiro. Para isso, clique em New Step e digite:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. Em seguida, clique em Add.

  2. Adicione a última New Step para arredondar o valor de "Average Contribution":

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. Em seguida, clique em Add.

Os resultados serão parecidos com o seguinte:

Tabela de resultados com colunas para Candidate_Id, Candidate_Name, Part_Affiliation e Total_Contribution_Sum

Parabéns!

Você usou o Dataprep para adicionar um conjunto de dados e criou roteiros para transformar os dados em resultados úteis.

Próximas etapas / Saiba mais

Este laboratório faz parte de uma série chamada Qwik Starts. Ela foi desenvolvida para apresentar a você alguns dos recursos disponíveis no Google Cloud. Pesquise "Qwik Starts" no catálogo de laboratórios para encontrar algum que seja do seu interesse.

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 15 de setembro de 2023

Laboratório testado em 15 de setembro de 2023

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.