Através dos conhecimentos adquiridos no Bootcamp de engenharia de dados da Semantix. Realizei uma prática de importação de uma tabela no banco de dados do MYSQL diretamente para o Hive, realizando o armazenamento no HDFS no formato Parquet.
Realizando uma contagem de total de registros no banco de dados relacional MySql. Total de 300024 registros no banco de dados relacional.
Criação de um banco de dados chamado "Guma" no Hive.
Fazendo a importação de uma tabela do banco de dados do Mysql, diretamente para o Hive.
- Salvando no formato Parquet
- usando Paralelismo para 2
- importando diretamente no banco de dados hive chamado "Guma"
- Criando uma tabela chamada Employees
Realizando a validação de importação no Hive, realizando a contagem geral dos registros. Sendo no total de 300024 registros importados com sucesso.
Realizando a consulta diretamente no HDFS para verificação do formato do arquivo, neste caso foi validado armazenamento no formato Parquet. dentro do caminho padrão /user/hive/warehouse