Programa do Curso

1: HDFS (17%)

  • Descrever a função dos Daemons do HDFS
  • Descrever o funcionamento normal de um cluster Apache Hadoop, tanto no armazenamento como no processamento de dados.
  • Identificar as caraterísticas actuais dos sistemas de computação que motivam um sistema como o Apache Hadoop.
  • Classificar os principais objectivos da conceção do HDFS
  • Dado um cenário, identificar o caso de utilização adequado para a Federação HDFS
  • Identificar componentes e daemon de um cluster HDFS HA-Quorum
  • Analisar o papel da segurança do HDFS (Kerberos)
  • Determinar a melhor opção de serialização de dados para um determinado cenário
  • Descrever os caminhos de leitura e escrita de ficheiros
  • Identificar os comandos para manipular arquivos no Hadoop Shell do sistema de arquivos

2: YARN e MapReduce versão 2 (MRv2) (17%)

  • Entender como a atualização de um cluster de Hadoop 1 para Hadoop 2 afeta as configurações do cluster
  • Entender como implantar o MapReduce v2 (MRv2 / YARN), incluindo todos os daemons YARN
  • Compreender a estratégia básica de design do MapReduce v2 (MRv2)
  • Determinar como o YARN lida com alocações de recursos
  • Identificar o fluxo de trabalho do trabalho MapReduce em execução no YARN
  • Determinar quais arquivos devem ser alterados e como para migrar um cluster do MapReduce versão 1 (MRv1) para o MapReduce versão 2 (MRv2) em execução no YARN.

3: Hadoop Planejamento do cluster (16%)

  • Principais pontos a considerar na escolha do hardware e dos sistemas operativos para alojar um cluster Apache Hadoop.
  • Analisar as opções na seleção de um sistema operacional
  • Compreender o ajuste do kernel e a troca de discos
  • Dado um cenário e um padrão de carga de trabalho, identificar uma configuração de hardware apropriada para o cenário
  • Dado um cenário, determinar os componentes do ecossistema que seu cluster precisa executar para cumprir o SLA
  • Dimensionamento do cluster: dado um cenário e uma frequência de execução, identifique as especificidades da carga de trabalho, incluindo CPU, memória, armazenamento, E/S de disco
  • Dimensionamento e configuração de disco, incluindo JBOD versus RAID, SANs, virtualização e requisitos de dimensionamento de disco em um cluster
  • Topologias de rede: compreender o uso da rede em Hadoop (para HDFS e MapReduce) e propor ou identificar os principais componentes de design de rede para um determinado cenário

4: Hadoop Instalação e administração de cluster (25%)

  • Dado um cenário, identificar como o cluster lidará com falhas de disco e de máquina
  • Analisar uma configuração de registo e o formato do ficheiro de configuração de registo
  • Compreender as noções básicas de métricas Hadoop e monitorização do estado do cluster
  • Identificar a função e o objetivo das ferramentas disponíveis para a monitorização de clusters
  • Ser capaz de instalar todos os componentes do ecossistema no CDH 5, incluindo (mas não se limitando a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive e Pig
  • Identificar a função e a finalidade das ferramentas disponíveis para gerenciar o sistema de arquivos Apache Hadoop

5: Recursos Management (10%)

  • Compreender os objectivos gerais de design de cada um dos Hadoop agendadores
  • Dado um cenário, determinar como o Agendador FIFO aloca recursos do cluster
  • Dado um cenário, determinar como o Agendador Justo atribui recursos de cluster no YARN
  • Dado um cenário, determine como o Escalonador de Capacidade aloca os recursos do cluster

6: Monitorização e registo (15%)

  • Compreender as funções e os recursos das capacidades de coleta de métricas do Hadoop
  • Analisar as UIs da Web do NameNode e do JobTracker
  • Entender como monitorar Daemons de cluster
  • Identificar e monitorar o uso da CPU nos nós mestres
  • Descrever como monitorar a alocação de swap e memória em todos os nós
  • Identificar como visualizar e gerir os ficheiros de registo do Hadoop
  • Interpretar um ficheiro de registo

Requisitos

  • Competências Linux básicas de administração
  • Competências básicas de programação
 35 horas

Número de participantes


Preço por participante

Declaração de Clientes (3)

Próximas Formações Provisórias

Categorias Relacionadas