Banco de Dados: O que é? O melhor jeito de manter informações!
Com o volume sempre crescente de informação, todos esses bits de dados precisavam ficar em algum lugar. É para isso que serve o Banco de Dados. Relacionais, não relacionais, Data Warehouses, Data Lakes, Data Banks, todas essas são expressões para essa nova necessidade que vai separar as empresas informatizadas daquelas que vão quebrar.
O que é um Banco de Dados? Qual sua função?
Nos idos tempos dos arquivos de papel, todas as informações de uma empresa ficavam em livros e pastas. A contabilidade era feita com tinta vermelha para perdas e preta para ganhos (daí a expressão Black Friday). Quem soubesse analisar as toneladas de papel poderia tirar insights maravilhosos para um negócio. Hoje a informação tem outro formato. O Banco de Dados é a nova forma de armazenar os bilhões de bits de informação gerados a todo instante. Portanto, a função de um Bancos de Dados é atuar como armazéns digitais de informação acessível e inter-relacionável a partir do qual você poderá traçar os raciocínios necessários para fazer a diferença na sua companhia. Existem muitas nomenclaturas para os bancos de dados, mas uma bem comum entre os especialistas da área está em dividi-los entre bancos de dados relacionais e não relacionais.
Banco de Dados Relacionais
Uma confusão comum quando se fala de Bancos de Dados Relacionais é pensar neles como tabelas do Excel. Embora seja feita na melhor das intenções, está errado. A melhor definição de Bancos de Dados Relacionais é tratá-lo como um armazém de informações classificadas. Bancos relacionais trabalham com dados estruturados e semiestruturados. E é porque essas informações são agrupadas em colunas e linhas que fazemos a confusão com o Excel. Um exemplo de banco de dados relacional seria um histórico de compras de um e-commerce. Lá teria o usuário que comprou, a data da compra, o produto comprado, o número de vezes que ele clicou no produto antes de comprá-lo, a data, hora, dia da semana e valor total da compra para cada compra.
Banco de Dados Não Relacionais
Os bancos de dados não relacionais ou NoSQL se diferenciam dos outros pela natureza dos dados. Quando pensamos no histórico de compra, tenho vários dados numéricos que podem ser agrupados em colunas. Mas e se eu quiser treinar uma máquina para fazer reconhecimento facial? Então eu preciso alimentá-la com dados de fotos de vários ângulos das mesmas pessoas. Essas fotos – que são lidas pela máquina como sequências de uns e zeros – ficam associadas a alguns dados relacionais, como nome, idade, e algumas tags como “branco”, “homem”, “bravo”. Esses bancos de dados são importantes para reunir e gerar análises de grandes volumes de dados subjetivos. O treinamento de máquinas é importante, mas e o uso de imagens promocionais durante uma ação da sua marca na internet? Lembre-se que 80% dos dados entram nessa lista, então não o deixe de fora.
SQL: a linguagem estruturada
A SQL, ou Structures Query Language (Linguagem de requisição estruturada) é a linguagem de programação usada para extrair informações de bancos de dados relacionais/estruturados/não-relacionais. A competência é uma das cobradas por muitas empresas que oferecem cargos de cientistas de dados, e dominar os fundamentos é essencial para se manter atualizado no mercado.
Por que trabalhar com banco de dados?
Embora os exemplos acima sejam um pouco autoexplicativos, é necessário entender o motivo da adoção de banco de dados para sua organização. Os Bancos de Dados permitem que toda a informação da sua companhia esteja acessível, centralizada e seja de rápido acesso aos seus colaboradores. É a partir dela que o trabalho irá fluir no ritmo do século XXI. A integração proporcionada por diferentes bancos de dados a sites, programas visualizadores de dados e diferentes hardwares conectados à rede diminui um grande inimigo da comunicação: a entropia.
A entropia e os bancos de dados
A entropia é um fenômeno físico, mas que se aplica perfeitamente à troca de informações. Quando falamos de sistemas termodinâmicos, a entropia é a perda de energia para outras fontes – quando ligamos o motor do carro, parte da energia move as rodas, mas parte se perde em barulho e calor. Na comunicação a entropia é a perda de sentido conforme a informação passa por usuários. O ditado popular explica melhor: quem conta um conto aumenta um ponto. E essa é, em linhas gerais, a grande vantagem de bancos de dados: você sempre terá uma figura (o banco) contando a mesma história.
Usos de Bancos de Dados
Agora que você conhece o que são bancos de dados, pode conferir seus usos. E poucos usos são mais marcantes do que para a correta aplicação da metodologia do Lean Six Sigma na sua companhia. Afinal, todas as etapas de um bom projeto de Lean tem uma coisa em comum: levantar dados. Recolher informações é essencial para que você não saia do zero e precise reinventar a roda a cada nova iniciativa. Por isso métodos como Ishikawa, o Ciclo PDCA e a Metodologia Scrum contam com coleta de dados entre suas etapas. Para que seu projeto de melhoria seja efetivo, é preciso conhecer o que se quer melhorar.
Trabalhando com bancos de dados
Trabalhar com bancos de dados envolve três etapas essenciais nas quais costumam-se dividir as competências de engenheiros de dados, analistas de dados, visualizadores de dados e cientistas de dados. São elas o Extrair (Extract), Transformar (Transform) e Carregar (Load) ou ETL. Extrair envolve todo o processo de dominar uma linguagem SQL para fazer requisições ao banco de dados até extrair um arquivo CSV do Facebook. Aqui você terá contato com dados brutos, muitas vezes não padronizados e incorretos. É aqui que vai entrar a Transformação. Ao Transformar os dados você irá limpar lacunas, trocar vazios por zeros, corrigir erros de digitação e formatar corretamente os dados (ao invés de 02071998, 02/07/1998). Essa etapa é importantíssima para a que segue: carregar os dados. Ao carregá-los você irá colocar aquelas tabelas gigantescas em visualizações adequadas para fazer algum sentido com elas. É aqui também que métricas como análises fatoriais e regressões lineares se encaixam.
Ferramentas para trabalhar com bancos de dados
Já citamos uma e a mais comum: SQL. A linguagem te permite realizar quase todas essas etapas com bancos de dados. Agora, queremos mencionar duas, uma mais difícil, e outra mais fácil: A linguagem R e o Power BI. A linguagem R é uma linguagem de programação gratuita e colaborativa que te permite interagir com bancos de dados e criar visualizações a partir de bibliotecas públicas de códigos. No entanto, ainda é uma linguagem mais complexa do que o SQL e um must para muitas empresas de tecnologia. Mas se você procura inteligência de negócios, o Power BI é uma mão na roda. Possuindo interface com diversos bancos de dados, permite a extração, transformação e limpeza dos dados em seu formato simples e sua própria linguagem: o DAX.
Diferentes Banco de Dados
Embora aqui estejamos falando de bancos de dados, os dados podem ser armazenados em diferentes armazéns. Existem diversas estruturas para armazenamento de dados, cada uma atendendo a propósitos pré-definidos e particulares a cada organização. Aqui você confere um pouco mais das diferenças entre os principais tipos: DataBases, Data Warehouses e Data Lakes.
DataBase
Uma DataBase ou Banco de Dados propriamente dito é uma base de dados local de informação estruturada. Tem como principal vantagem a facilidade de acesso aos dados e sua clareza, e como calcanhar de Aquiles, sua inflexibilidade. É comum que diferentes bancos de dados de uma companhia armazenem dados como os do nosso exemplo de compra.
Data Warehouses
Os “depósitos de dados” seriam como diversos bancos de dados acumulados juntos. Dessa forma, não só os dados de vendas, mas os dados jurídicos dos seus compradores, o histórico de horas extras do seu RH, os dados geográficos da sua malha ferroviária, todos eles se interconectam em uma Data Warehouse.
Data Lake
Um passo acima é tão complexa que tem como foco cientistas de dados, os Data Lakes compilam quantidades superiores de dados no seu formato cru, esperando um comando para tomar forma. Os dados são como peixes no lago, em que cada isca e cada vara de pesca atrai um distinto. Cada um deles possui uma função e usos únicos em organizações que pretendem estar integradas. Desde a maior facilidade de manejo até a maior flexibilidade, é importante conhecer a natureza dos Bancos de Dados para saber como tirar o melhor deles para você e seu empreendimento.