#
004 quick sync
#
[Sync] Data Platform
18 de dez. de 2025 Convidados Deo Carlos Marcello Pontes Bruno Ricardo Anexos [Sync] Data Platform Registros da reunião Transcrição
Resumo Marcello Pontes apresentou uma visão geral e metodologia para a primeira solução de plataforma de dados, focando em ferramentas atuais como BigQuery e Metabase, e introduziu a necessidade de um segundo exercício para uma visão futura completa (V1) com ferramentas Enterprise como Hextech. Marcello Pontes, Deo Carlos e Bruno Ricardo (Br) discutiram arquitetura de dados, boas práticas de Cloud Storage (GCS), a importância de criptografia (CMK) e redundância de buckets, além da organização e gerenciamento do BigQuery, incluindo a urgência de mitigar custos com uma camada de capacidade provisionada. Os participantes concordaram que o foco inicial deve ser em usabilidade e transparência, padronizando a escrita de dados (o maior problema atual), usando DBT para transformação, e priorizando a implementação de um catálogo de dados robusto (com fator social e rastreabilidade) e do ETL.
Detalhes Tamanho das anotações: Padrão Visão Geral e Metodologia Marcello Pontes apresentou as notas da reunião, que incluem um status overview sobre ferramentas, governança e comportamento, além da primeira solução proposta. Ele expressou otimismo, comparando a situação atual a um grande desafio que, de tão complexo, torna mais fácil ver os primeiros resultados rapidamente, tanto em ganho de negócio quanto na percepção e moral do time (00:01:18). Marcello Pontes explicou que a primeira solução proposta seria uma visão imediata, aproveitando ao máximo o conhecimento existente e o ferramental atual (como BigQuery e Metabase), focando em procedimentos, processos e comportamento, sendo menos disruptiva para a equipe (00:02:30). Visão de Plataforma de Dados e Próximos Passos Marcello Pontes ressaltou a necessidade de um segundo exercício que cobrirá uma visão mais completa e futura da plataforma, que seria o V1, focada em performance e na integração de ferramentas Enterprise como Hextech, para consolidar áreas (00:03:49). A proposta inclui configurar a plataforma UM para estar pronta para multilocação e escalabilidade. Ele introduziu a discussão sobre a arquitetura, começando pela camada de cloud storage. Arquitetura e Implementação Iterativa Marcello Pontes destacou que a visão de futuro da plataforma inclui itens que não serão implementados imediatamente, como blocos de cloud object, mas devem ser abordados por meio de "fatias verticais" para iteração rápida. Bruno Ricardo (Br) demonstrou familiaridade com essa abordagem (00:05:00) (00:08:00). Boas Práticas de Cloud Storage (GCS) Marcello Pontes abordou boas práticas para Cloud Storage (GCS), como a recomendação de tipos de arquivo e a criação de blueprints e templates. Ele e Deo Carlos discutiram a implementação de políticas de ciclo de vida (life cycle policy), como o uso de tiers de armazenamento mais baixos (por exemplo, Glacier) para dados inativos, visando à redução de custos (00:09:12). Deo Carlos alertou que, embora o armazenamento em cold storage seja mais barato, o custo de recuperação (retrieval) e a latência aumentam (00:11:40). Criptografia e Segurança de Dados Marcello Pontes mencionou a importância da criptografia, recomendando o uso de chaves gerenciadas pelo cliente (CMK) para maior segurança, controle de granularidade e conformidade com leis como a LGPD (00:12:41). Deo Carlos levantou que já existe um plano de segurança mais amplo em andamento com o João Paulo (Jopa), sugerindo que a política de segurança para dados seja alinhada com as definições gerais de infraestrutura (00:15:24). Marcello Pontes concordou que o uso de CMK é um detalhe que adiciona um nível de segurança para auditorias e compliance, mas não impacta diretamente a melhoria percebida (00:16:41). Redundância e Backup de Dados Foi discutida a redundância de buckets, incluindo redundância de zona e região, e seu impacto no preço e disponibilidade. Deo Carlos enfatizou a necessidade de formas bem estabelecidas de backup para as principais fontes de dados (buckets e bases de dados), incluindo a possibilidade de cross-organization ou até cross-cloud para proteção contra perda de dados em cenários de estresse, como ransomware ou falhas técnicas. Marcello Pontes sugeriu listar riscos (como indisponibilidade ou ransomware) e definir mitigações específicas, como cross-region para alta disponibilidade e backup off-cloud para riscos externos, lembrando do custo de data egress (00:17:50) (00:20:46). Organização e Gerenciamento do BigQuery Marcello Pontes destacou a necessidade de convenções de nomenclatura para buckets e BigQuery para evitar a proliferação desordenada (00:16:41) (00:23:32). Ele detalhou a organização do BigQuery, incluindo a separação de áreas da empresa em projetos, a definição de datamarts e a estruturação de tiers de acesso. Eles também planejam recomendar boas práticas de particionamento e clustering de tabelas, especialmente em casos comuns, para otimizar performance e custo (00:24:36). Mitigação de Custos e DW Otimizado Marcello Pontes enfatizou a urgência de implementar uma camada de custo fixo sobre o BigQuery, como o provision capacity (tipo BigQuery BI Engine ou ClickHouse), para gerenciar o custo do uso "banda voou" e consultas que geram custos altos (00:25:42). A recomendação é colocar dados de alto uso ou muito granulares (Gold) nessa área de capacidade provisionada para obter um custo fixo e prever melhor as despesas (00:27:09). Transformação de Dados e Controle da Escrita Deo Carlos ressaltou que, para a infraestrutura de dados evoluir, é crucial definir a forma de transformação dos dados (usando SQL ou Python), incluindo Lineage e catálogo (00:28:34). Bruno Ricardo (Br) destacou que o maior problema atual não é a leitura, mas sim a falta de controle da engenharia sobre a escrita dos dados, o que causa problemas de schema evolution e propagação de dados incorretos para o downstream (00:30:11). A padronização da escrita é necessária para garantir a evolução correta dos dados (00:31:26). Padrões de Implementação e Facilidade de Uso Marcello Pontes sugeriu que, durante a implementação do MVP, sejam estabelecidos checklists e templates (como no DBT Cloud) para facilitar a adesão às boas práticas, tornando o processo transparente e fácil para os usuários (00:33:54). Isso visa evitar que o usuário se sinta isolado e garantir que a corporação possa monitorar a aderência aos padrões. Estratégias de Validação e Camadas Intermediárias Discutiu-se o uso de schema validation e a técnica Data Vault (DataV) como uma estrutura intermediária entre o transacional e o DW para mitigar problemas de Schema Evolution e simplificar o ETL dali em diante (00:35:16). Outra estratégia é simplificar indicadores complexos, compartilhando relatórios intermediários do cálculo (como o FPD), o que permite ao usuário inspecionar e auditar a formação do dado (00:37:36). Deo Carlos confirmou o alinhamento com a ideia de uma enriched view (camada intermediária) que desacopla o formato final e permite entender o que está acontecendo com os dados (00:40:03). Ferramentas de Transformação e Qualidade Bruno Ricardo (Br) comparou a ideia de camadas intermediárias aos modelos do DBT (00:41:26). Deo Carlos afirmou que o DBT deve ser o padrão para a transformação de dados, a menos que haja uma justificativa clara para o contrário (00:42:27). Marcello Pontes reforçou a importância de concentrar verificações de qualidade (Great Expectations) o mais cedo possível, especialmente em camadas que servem de fonte para vários modelos (00:44:15). Problemas de Schema e Escrita de Dados Bruno Ricardo (Br) detalhou os problemas atuais com validação de esquema, como alteração de campo (nome e tipo), adição ou remoção de campos, citando o exemplo de inconsistências no tipo de dados para o CPF (00:46:09). Deo Carlos complementou, apontando a falta de padronização na nomenclatura de colunas (como datas) e sugeriu a criação de uma camada Silver para renomear colunas e corrigir tipos de dados (00:48:13). O consenso é que o trabalho será contínuo, começando por alguns casos que estabelecerão o padrão para os demais. Estratégia de Migração e Resolução de Problemas Deo Carlos e Marcello Pontes concordaram que a estratégia não será migrar tudo de uma vez, mas resolver problemas específicos migrando-os para a nova estrutura de dados (00:49:53). O sucesso das migrações, onde o novo ambiente é percebido como melhor, incentivará naturalmente a migração dos demais fluxos de trabalho (00:50:58). DW Otimizado e Uso de Bases Transacionais para Dados Marcello Pontes reiterou a necessidade de um DW otimizado (Biquery BI Engine, ClickHouse ou algo similar) para conter os dados Gold e reduzir custos, mantendo-os fixos (00:52:35). Deo Carlos sugeriu o uso de Alo DB como um intermediário entre um DW e um Postegres que ofereça escalabilidade e funcionalidades analíticas (00:53:47). Deo Carlos questionou se o processo de FINOPS, que consome dados Gold e reingere dados transacionais, deveria usar a infraestrutura de dados para gerenciar suas tabelas transacionais ou fazê-lo em um sistema à parte (00:55:18). Marcello Pontes concluiu que, para evitar silos de expertise e permitir cruzamentos futuros, deve-se aproveitar ao máximo a plataforma de dados, e o retorno ao transacional dependerá do workload (se é transacional e se beneficiará outras áreas) (00:57:57). ETL e Uso da Plataforma Marcello Pontes destacou que levar o ETL para a plataforma incentivará seu uso para resolver complexidades e criar camadas intermediárias conforme recomendado. Isso gera casos de uso e histórico para que outros usuários possam utilizar os dados disponíveis. Deo Carlos expressou preocupação sobre a ingestão do output de processos, especialmente dados de terceiros que normalmente não estão disponíveis. Marcello Pontes esclareceu que dados de terceiros seriam cruzados com os dados existentes e retornados ao sistema transacional. Ingestão de Dados e Problemas Distintos Deo Carlos observou que o dado de terceiros é usado para cruzar com o dado da empresa no processo FinOps, e as respostas muitas vezes retornam ao transacional, mas muitas informações não estão sendo salvas ou expostas (00:59:29). Bruno Ricardo (Br) sugeriu separar a discussão de "reverse ETL" em problemas distintos, como o uso do BigQuery como transacional por facilidade de implementação, e a ingestão de dados externos para complementar processos transacionais, que são usos diferentes do reverse ETL (01:02:25). Catálogo de Dados e Uso do BigQuery Marcello Pontes concordou que dados externos (como os vindos em Parquet de outras empresas) precisam passar pelo catálogo de dados para que o DBT e outras ferramentas de ETL possam utilizá-los corretamente (01:03:24). Sobre o uso do BigQuery como transacional, ele e Deo Carlos discutiram que os usuários o usam para diversas finalidades, inclusive para logs de aplicação e monitoramento, uma prática que Marcello Pontes considera "errada" para dados de infraestrutura, mas que precisa ser considerada como caso de uso. Marcello Pontes também mencionou que o log de business sendo salvo como JSON por linha em um bucket leva a "full scan" no BigQuery, sendo ineficiente (01:04:27) (01:06:38). Observabilidade e Dados Fresh Deo Carlos enfatizou a necessidade de conseguir visualizar dados "fresh" (frescos), especialmente para acompanhamento rápido de operações, como relatórios do dia. Ele mencionou que a forma mais comum de fazer isso é acompanhando logs, e os mais sofisticados usam BigQuery para log analytics, mesmo que seja uma abordagem "maluca" (01:07:35). Marcello Pontes concordou que, em aplicações pequenas, deve-se usar 100% de amostragem em ferramentas como Cloud Watch X-ray, já que é barato e evita o tempo gasto em debug (01:08:59). Alternativas ao Uso de Ferramentas de Dados para Log Deo Carlos argumentou que os casos de uso de ferramentas de dados para algo que não é dados continuarão existindo até que se possa sugerir ferramentas melhores para monitoramento de aplicação, como as de observabilidade (01:11:03). Marcello Pontes reconheceu que é preciso motivar os usuários, demonstrando que a forma como fazem é cara ou que a performance será melhor com a abordagem recomendada (01:12:41). Deo Carlos sugeriu prover formas mais fáceis de salvar dados mais efêmeros ou de observabilidade, talvez criando um formato mais simples no BigQuery para que não seja "um completo absurdo" (01:11:03). Direções Iniciais e Prioridades de ETL Marcello Pontes resumiu as direções, incluindo Data Federation Layer, blueprints de ETL que contemplem logs, dados externos e transacionais, além de procedimentos para esquema evolution e visibilidade completa das dependências e dados compartilhados externamente. Deo Carlos ressaltou que a visibilidade e rastreamento de dados seriam "maravilhosos" para o processo FinOps (01:13:40). Marcello Pontes e Deo Carlos concordaram que o foco inicial deve ser em usabilidade e transparência, sendo o catálogo de dados e o ETL os primeiros pontos a serem atacados (01:35:21). Ferramentas de ETL e Orquestração Marcello Pontes expressou preferência pelo DBT, mas reconheceu a necessidade de uma interface amigável para usuários não-desenvolvedores, como o Hextech (01:14:52). Ele diferenciou o DBT (que orquestra a execução do modelo) do agendador/orquestrador como Airflow ou Dexter, que gerencia o agendamento e a execução completa do DAG (01:15:52). Marcello Pontes mencionou que o DBT Cloud pode trabalhar com agendamento e oferece ligação com GitHub para versionamento e ambientes (01:18:04). Catálogo de Dados e Requisitos Marcello Pontes descreveu o catálogo de dados como essencial para visibilidade, transparência e melhoria da qualidade de dados, permitindo a rastreabilidade do pipeline e fomentando o Devex (01:19:18). Deo Carlos enfatizou que interfaces não baseadas em código devem ser reproduzíveis, com a capacidade de dar dump e carregar o estado do serviço (01:18:04). Marcello Pontes mencionou que o Dataplex da GCP não é o preferido, citando o Open Metadata como alternativa promissora (01:21:21). Recursos do Catálogo de Dados e Fator Social Os recursos desejados no catálogo de dados incluem: assistência de LLM para pesquisa de dados, governança automática (escaneamento), identificação de artefatos downstream (dashboards), visibilidade geral de origens e ETL, escaneamento de PII, Master Data Management, Data Definitions e validação de esquema (01:23:40). O fator social (comentários, notas, responsável) é considerado um dos pontos mais importantes para Marcello Pontes e Deo Carlos, especialmente dada a complexidade dos dados atuais (01:29:36). Prioridade na Evolução do Esquema Deo Carlos defendeu que, em casos de mudança no formato dos dados de origem, a ingestão não deve ser impedida, mas sim a quebra deve ocorrer na etapa de consumo (downstream), o que está alinhado com a premissa de se livrar da fonte de dados o mais rápido possível. Marcello Pontes concordou com a ideia de validação do esquema mais adiante no pipeline (01:27:33). Integração com Ferramentas de Análise (Hextech) Deo Carlos provocou que uma ferramenta como Hextech, com seu forte LLM, poderia ser o local onde o usuário interage diariamente, usando o catálogo de dados como um portal de documentação (backend), e que uma integração seamless faria os usuários "chorar de alegria". Marcello Pontes considerou a provocação válida, pois o Hextech pode funcionar como a IDE para o usuário (01:30:38). Próximos Passos e Otimizações Futuras Deo Carlos sugeriu concentrar-se na arquitetura inicial, possivelmente em um projeto separado, para integrar dados, transformação, consumo e catálogo, garantindo que o layer inicial seja "muito bom" (01:32:39). Otimizações posteriores, como provisioning, BA e observabilidade de custos, podem ser abordadas em uma segunda etapa (01:34:07). Marcello Pontes planeja conversar com Léo e alinhar a agenda até meados de janeiro para definir a direção e o escopo da primeira versão (01:37:28). Alternativas de Processamento com Polars Deo Carlos introduziu o Polars como uma ferramenta que utilizou em experiências passadas para processamento eficiente de grandes volumes de dados (dezenas a poucas centenas de gigabytes) com máquinas de memória RAM relativamente baixa, através do processamento no disco e otimizações de I/O (01:38:51). Ele mencionou que o Polars Cloud, embora só disponível para AWS, oferece uma solução distribuída e efêmera, de forma barata e rápida, para lidar com dados distribuídos (01:40:06). Marcello Pontes concordou em considerar a alternativa e comparou com o Glue da AWS, que executa Spark de forma efêmera (01:41:21).
Próximas etapas sugeridas Marcello Pontes will publicar as notas de reunião para que apenas os e-mails de Bruno Ricardo (Br) e Deo Carlos tenham acesso. Bruno Ricardo (Br) will enviar o livro de Kimball para Deo Carlos ler e depois o de Martin Faller com data mesh. Marcello Pontes vai pesquisar outras alternativas ao DBT, como Perfect e Dagster, e considerar a provocação de integrar a ferramenta de governança de dados com uma IDE como Hextech para facilitar o uso por desenvolvedores e não desenvolvedores. Marcello Pontes vai conversar com Léo para pegar feedback e alinhar questões pendentes na documentação. Marcello Pontes vai estabelecer as prioridades e o escopo da primeira versão do projeto até meados de janeiro para iniciar as tarefas, delegar atividades e considerar a alternativa Polars. O grupo deve utilizar observabilidade completa (full) em vez de amostragem (sampling) para facilitar a depuração e monitorar o custo de cada dashboard e dependência (inclusive dados externos compartilhados) das ferramentas adotadas.
Revise as anotações do Gemini para checar se estão corretas. Confira dicas e saiba como o Gemini faz anotações Envie feedback sobre o uso do Gemini para criar notas breve pesquisa.
#
Data Platform - Transcrição
#
00:00:00
Marcello Pontes: Pronto. Start soon. Beleza. Ah, bom. Eu eu tava conversando com o D ontem, apresentei uma pincelada sobre o que tem aqui. Eh, mas eu vou rebobinar para para poder a gente cobrir o que o Bruno não escutou também. Eh, todo o meu trabalho tem se resumido por enquanto a a essas notas, né? Então aqui tem as notas de nota de reunião aqui, mas isso aqui é nota de reunião, todo mundo tá careca de saber o que aconteceu aqui. Essa é mais para governança interna mesmo, assim, pra gente saber o que que foi discutido. E também eu eu compilei algumas notas aqui em alguns pontos chaves, algumas coisas que talvez eu não tenha eh eu não tenha coberto nas minhas notas pessoais, né? Então, as minhas notas pessoais tem tem três categorias aqui, que é o status overview, pra gente falar um pouco sobre alguns aspectos, tipo de de ferramenta, governança, comportamento. Eh, eu vou cobrir um pouco mais disso aqui, tá? Mas ã tem também isso aqui é muito do que a gente conversou, tá? Talvez algumas dessas notas aqui vocês vão ter acesso aqui.
#
00:01:18
Marcello Pontes: Eu vou publicar isso aqui para poder só os e-mails de vocês terem acesso, para não ficar público na internet por motivos. Mas aí eu eu comento um pouco sobre ferramenta, o que que vocês me passaram, algumas percepções e algumas dúvidas que eu tenho aqui. Isso aqui vai descambar para pra documentação e pra proposta. A primeira solução proposta, isso o que que o que que é isso aqui? Isso aqui é o que me vem na cabeça, eh, quando a gente pensa, começa a pensar em solução pro problema de vocês. E aí o que eu tava falando com o Del um pouco antes de Trabro, né, que eh ele falou que tá esperançoso, eu falei também que tô também porque quando o problema é muito ruim, né, quando tipo eu fiz a o paralé de quando o caba tá com 300 kg, é mais fácil ele perder peso mais rápido. É, então quando se se essa situação tá realmente muito ruim, teoricamente, é lógico que a gente tá super significando aqui, né? Mas teoricamente seria eh mais fácil de a gente ver os primeiros resultados eh de não só de ganho real, né, de de negócio, eh, como custo,
Bruno Ricardo (Br): Aham.
Marcello Pontes: por exemplo, mas também de percepção e brilho pessoal e moral do time, né, de de o pessoal ver que a coisa tá se mostrando eh que vai se resolver.
#
00:02:30
Bruno Ricardo (Br): Boa.
Marcello Pontes: tu quer falar,
Bruno Ricardo (Br): Não, não. Acho que foi só um concordar. Yeah.
Marcello Pontes: tá? Então, eh, e aí assim, essa solução que eu tô pensando, eh, ela tem ela tem, eu acho que é minha obrigação fazer fazer esse exercício, né? Tem, eu lógico que tem a primeira, a primeira solução, a solução imediata que a gente pensa quando a gente se depara com um problema desses, que é, por exemplo, vocês, eh, só para simplificar, vou explicar com mais detalhe, mas vocês têm um ambiente com Bigquer, com metabase e com ler, né? Mas aí eh, talvez a dificuldade maior não necessariamente seja ferramental, mas seja de procedimento, né, e de e de processo e comportamento. Então a gente nessa primeira visão, seria a visão mais imediatista, a gente tenta aproveitar o máximo possível de conhecimento que você já tem para eu não ter que retreinar o time inteiro ou talvez parte do time para eu usar uma ferramenta completamente nova, um negócio menos disruptivo que vai fazer com que vocês com ferramentar o que tem e aí lógico que alguma coisa vai ter que adicionar, mas o máximo possível aproveitar o ferramento, que o ferramental que tem, o conhecimento que tem, para poder a gente dar esse passo em direção a a a um ambiente melhor de dados.
#
00:03:49
Marcello Pontes: E aí a outra o outro exercício que eu acho que a gente precisa fazer também, que é um negócio que eu eu vou cobrir, mas com menos detalhe do que esse primeiro, porque acho que a gente tem que sair do lugar primeiro, quebrar o V0 e depois a gente vai pro pro próximo passo. Tipo, beleza, eu imaginei agora qual vai ser a solução completa, o que que vai, o que que a gente consegue resolver reaproveitando eh serviço de de GCP, o conhecimento que o pessoal já tem, eh, tentando aproveitar isso e, e, e ver qual seria, qual seria a visão de plataforma que a gente tem para UM, qual quais seriam eh de outras ferramentas Enterprise, Ric que tem, eh, tipo Hextech, tipo qualquer outro. Aí a gente vai posicionar algumas. Quais dessas ferramentas se acoplariam nessa visão pra gente ter um ganho e aí sim um ganho de performance? Entender? Eh, por exemplo, ah, tem uma ferramenta aqui que ela abrange três dessas daqui que a gente tá pensando. Ela abrange três áreas dessa daqui, entendeu? Então, se tem uma ferramenta dessa, a gente estuda, vai fazer poc, vai fazer eh prestudy, vai fazer alguma iniciativa para testar isso.
#
00:05:00
Marcello Pontes: Então, a a minha proposta é apresentar essa visão de plataforma, a visão de como a UM deveria se configurar para poder estar pronta para melhorar os processos de dados e também tá pronta para um um uma multitenance para tá pronta para poder escalar, né? e também eh eh apresentar um pouco de outras ferramentas que dariam certo para poder se acoplar nessa visão, tá? Então, ah, eu vou cobrir um pouco da arquitetura já já, mas aí só para dar uma pincelada aqui sobre eh sobre isso daqui, né? Body blueprinting about. Tá, eu não sei o que que eu escrevo nesse título aqui, mas enfim. Vou vou vamos partir do bot aqui, tá? Ã, eu primeiro escrevi, comecei escrevendo essa parte em em camadas, ou seja, quais são as áreas de um data lake, de um de uma plataforma de dados que a gente cobre. O Bruno tá muito acostumado a saber como é que eu como é que eu penso isso. E aí depois eu eu diagramei isso para poder tentar materializar uma visão ou fazer um esquema de dessa visão, tá? Então, ah, talvez eu possa, o que eu possa fazer aqui, eu tô compartilhando uma uma coisa só a p**** aberta aqui, mas deixa eu abrir aqui.
#
00:06:29
Marcello Pontes: Tem uma tem uma visão aqui. Hum. Par janela. Janela, né? Tem uma visão aqui,
Bruno Ricardo (Br): Tá o browser todo.
Marcello Pontes: é, tem uma visão aqui agora que é um split view aqui do do Chrome que eu não sei configurar aqui não, mas abriu essa semana aqui essa feit não,
Bruno Ricardo (Br): Arrasta a janela, man. Dá no mesmo.
Marcello Pontes: mas é um sprint view do Chrome, pô. Deixa eu, deixa eu compartilhar minha tela então que fica mais fácil aqui. Pera aí.
Deo Carlos: É, compartilhe a tela toda e
Marcello Pontes: É,
Deo Carlos: é a tela toda não tá compartilhado, tá só a janela,
Marcello Pontes: é, eu vou eu vou vou mudar aqui.
Deo Carlos: né?
Marcello Pontes: Deixa eu, Hum. Deixa eu tirar aqui o stop sharing entire screen screen number two. Coisa para caramba aberta aqui. Enfim, vamos
Bruno Ricardo (Br): Agora foi.
Marcello Pontes: lá.
Bruno Ricardo (Br): M.
Marcello Pontes: Tá, eu vou abrir isso aqui também. Architecture overview. Talvez seja melhor de ver assim, tá?
#
00:08:00
Marcello Pontes: Eh, partindo botap aqui, tá gente? Eh, muito disso aqui são anotações ainda que eu vou ter que bater o martelo, mas elas dão um um bom direcionamento de como é que eu tô pensando. Vamos lá. Ah, sobre cloud storage, né? Hã. Ah, e assim, Bruno, outra coisa que eu falei com o D ontem também sobre o como é que eu penso isso aqui, eh, a proposta agora é apresentar uma visão geral, uma visão de futuro da plataforma, de coisas que ela deveria ter em um momento de maturidade. Não necessariamente a gente vai, conhece esse diálogo, esse esse discurso, né? Não necessariamente a gente vai ter que implementar tudo agora. Eh, imagina como cada bloco desse aqui, por exemplo, eh eh cloud object, tem várias propostas para cada um desses blocos. Imagina isso com uma série de cada bloco tem um um grande checklist, uma série de pontos e para a implementar. Mas aí quando a gente for começar a implementar, a gente vai fazer uma fatia vertical e implementar só alguns desses stick boxes aqui para poder a gente eh iterar mais rápido, né?
Bruno Ricardo (Br): Tô ligado. Já vi fazendo.
#
00:09:12
Marcello Pontes: Tá ligado? Salve demais. Eh, então vamos lá. Vamos lá. Então, GCS, ã, Cloud Storage, falando aqui para baixo, eh, what kind of fil to store? Então, a gente recomendar ter uma cartilha, né? Eh, tipo que tipo de de arquivo eh utilizar. E aí vai depender também do do uso. Eu acho que a ideia é a gente oferecer alguns blueprints. Eh, eu não acho, e o Del concorda com isso também, que a gente deva ser blocante, que a gente deva ser deva criar processos que que parem as pessoas, mas a gente deve oferecer eh uma série de boas práticas e, ó, faz assim, oferecer alguns templates e as pessoas seguindo e dá a chance das pessoas seguirem e ter eh maneiras de a gente ah acompanhar isso e observar isso aí. que tem um monitoramento em cima do que o pessoal tá fazendo, né? Então, eh, a gente tem as melor melhores práticas. Então, por exemplo, que tipos de fala arquivo armazar? Eh, life cycle policy. Isso para, por exemplo, tratar casos onde a pessoa vai armazenar dados e esquece lá.
#
00:10:25
Marcello Pontes: Então, a gente tem uma maneira de fazer isso proativamente e ou outra eh com política de de caducado, por exemplo. Então, se um dado tá lá, a gente pode estabelecer política de quando um dado tá tá lá armazenado, ah, x dias ou x meses, a gente progressivamente vai armazenando tier baixo para tier baixo desse armazenamento para poder eh fazer com que esse dado eh desapareça e não não gere custo, né? não gerezenamento. Eh,
Bruno Ricardo (Br): Aquele glacer do da BR.
Marcello Pontes: exato, exato. A gente fazia, por exemplo, no projeto que eu tive, a gente fazia uma tem uma política de acesso. Você tem que como eh em política, em código de infraestrutura, você tem como setar com essa política, né? Então, tipo, ah, depois de 7 dias vai para infrequentes, depois de, sei lá, um mês vai para glaci, aí tem vários tias, né,
Deo Carlos: É, no eu crio isso aqui já via volume e
Marcello Pontes: para,
Deo Carlos: tipo tem essas políticazinhas, né? tem acho que três ou quatro tiers que vai começa standard, aí vai não sei o que line, aí vai não sei o quê, até um code mais code storage possível, né?
#
00:11:40
Deo Carlos: Mas tipo,
Marcello Pontes: exato.
Deo Carlos: é só é só lembrar, tipo, eh, que quando ele vai indo para um code storage, armazenar mais barato, mas começa a ter um costo maior para fazer o retrival,
Marcello Pontes: Mais cara.
Deo Carlos: né? Ela tem um lag maior, mas tem um co maior também, né? Então,
Marcello Pontes: Exato.
Deo Carlos: é bom ter uma política padrão assim, porque normalmente funciona,
Marcello Pontes: Exato.
Deo Carlos: mas eh não, isso não vai ser uma verdade em 100% dos casos, né?
Marcello Pontes: Exato. Perfeito. Faz faz sentido. Eh, faz todo sentido. A gente pode ter alguns alguns padrões, né, e verificar também alguns mecanismos de, por exemplo, criar sessões. Ah, esse aqui. E isso de maneira fácil, né? Porque isso vai eh ninguém quer ter um um time grande de infraestrutura para ficar gerenciando isso. Tem que ser de maneira inteligente criado isso daí, né? Eh, então, encryption f*** escrever esse inglês aqui na hora de falar d um nó na cabeça. Mas encryption, por exemplo, uma boa prática, eh, está, pronto.
#
00:12:41
Marcello Pontes: Eh, uma boa prática de criptografia de dados é você usar e customer management keys, né, CMK. Eh, de maneira que você, a gente, a, a infra provisiona, não causa overhead grande de infraestrutura. é mais uma prática de segurança pra gente proteger mais os dados e sobretudo na quando a gente fala de de GD LGPD, eh, log de acesso para auditoria,
Deo Carlos: você ser só um pouco mais extensivo em relação a o que você tá falando em relação a esse
Marcello Pontes: certo?
Deo Carlos: customer manage encryption. Tem alguma coisa diferente da gente tem umas chaves que a gente tá gerenciando e tá tá
Marcello Pontes: É, é o seguinte, quando você vai, quando você vai criptografar um os dados de um bucket, por exemplo, o o a cloud, o serviço de cloud, ele oferece algumas maneiras de você encryptar. Você pode, o o padrão é de você se for encriptar e e aí tudo deveria estar criptografado por padrão. Isso aí não é mais discussão, mas se for criptografado, você usa a cloud manage key, que é uma uma chave que eles oferecem lá para poder eh encriptar o teu dado, ou uma KM, uma uma CMK, uma cloud manage key, KMS, né, que aí você no serviço deles o custo é irrisório, né, se eu não me engano é um dó por mês, uma coisa assim, ou pelo número de operações também, mas isso é indispresível.
#
00:14:08
Marcello Pontes: Então você gerencia a sua própria K e você rotaciona ele, o próprio serviço, ele oferece a rotação de de sh também. E aí você seta essa chave para que a chave que você gerencia na sua cloud seja responsável por encryptar. Isso te dá, por exemplo, um controle adicional de granularidade. Então, se você seta também políticas de acesso na chave para que se eventualmente alguém eh tiver um acesso, digamos, a uma parte mais sensível de dados, e aí falando de de dados, não tô falando vertical, mas do do do objeto inteiro, eh a política de acesso à chave também vai gerenciar quem tem acesso ao dado, porque ela não consegue usar a chave de criptografia se ela não tiver acesso também. Então é um acesso a mais de é um nível a mais de proteção, né? Eh,
Deo Carlos: Beleza.
Marcello Pontes: ficou claro? Se não ficou
Deo Carlos: Não, eu acho que ficou claro. Eh,
Marcello Pontes: claro,
Deo Carlos: mas no contexto assim de que o acesso aos dados já tem um permissionamento e você coloca um permissionamento do acesso à chave para ter acesso aos dados.
Marcello Pontes: é, mas isso é isso é nível de infra, né? Isso aí não era algo pra gente fazer agora.
#
00:15:24
Marcello Pontes: Quando a gente já tiver assim,
Deo Carlos: Enfim,
Marcello Pontes: beleza, isso é mais nível de infra.
Bruno Ricardo (Br): Acho que nesse ponto assim tem um plano maior aqui que o Jopa,
Marcello Pontes: Eh,
Bruno Ricardo (Br): que é o João Paulo, tá puxando de segurança num na visão geral. Talvez seja um ponto para ele puxar ou discutir como é que isso vai funcionar.
Marcello Pontes: pronto.
Bruno Ricardo (Br): Não sei que é que tu acha dela.
Deo Carlos: mas mas pelo que eu que eu vi já com jopa assim,
Marcello Pontes: Да.
Deo Carlos: posso ter enganado, mas eu acho que as coisas vão ser muito muito mais tipo alinha com ele do que ele que vai estar definindo como seria uma política de segurança com dados, sabe? É minha impressão do que eu vi com ele é mais nesse sentido, sabe assim? É tipo, você tem mais um sign dele do que ele ser o cara que vai planejar. Mas obviamente que tá correto que eu acho que ele vai
Marcello Pontes: Entendi. Ó, essa questão essa questão de de criptografia com CMK, eh, ela ela vai mais no nível de segurança geral de infraestrutura do que no dado em si. Eh, para citar um exemplo, a gente a gente em todo projeto eh que vai paraa produção, sobretudo em mercados altamente regulados, como é financeiro, eh é prática padrão que tá em sischmark de você usar sem beleza.
#
00:16:41
Marcello Pontes: O sis benchmark eu acho que ele vai até encriptar, mas encryptar com o CMK é um nível adicional de segurança paraa criptografia geral. A gente tá falando não só de dados, mas de log, de tudo que você de tudo que a Cláud oferecer para você e encriptar, você encripta e preferencialmente você faz com CMK. Esse aqui pro nosso caso, é um detalhe, tá? Não é não vai ser algo que vai fazer a gente perceber a melhoria. Só pra gente ter no nível de se chegar um compliance da vida, uma uma auditoria, alguma coisa assim, a gente ter esse kickbox marcado, não vai fazer grande diferença pra gente, não. Beleza? Eh, log de acesso também muito mais nível de compliance. Eh, convenção de nomenclatura de bucket. Isso aqui o pessoal vai chiar, vai odiar, mas na hora que o pessoal precisar ver a quantidade de buckets explodindo, isso aqui ajuda, né, essa convenção de de nomenclatura. Ah, versionamento de objeto. Para que caso a gente vai querer versionamento de objeto? Nem todo caso a gente vai querer versionamento de de objeto dentro do bucket. Ah, a questão de redundância, né?
#
00:17:50
Marcello Pontes: Algumas alguns alguns buckets tu vai poder criar com redundância de zona, com redundância de região ou sem redundância. E aí isso aí a gente vai precisar escolher o que que a gente vai querer também, porque acaba interferindo no preço, né, e no e na disponibilidade do dá, né, se cair, por exemplo,
Deo Carlos: É, eh é uma uma coisa relativamente simples em relação a isso também.
Marcello Pontes: M.
Deo Carlos: Eh, tipo, existem vários dados nossos que são dados mais primários, né? Então são dados que a gente precisa. Então, tipo, se a gente perder aquele dado, a gente às vezes até tem esse dado de um formato secundário, mas a gente não tem aquela fonte mesmo, né? e enfim, então eu acho que que tanto para as duas principais fontes de dados que a gente tem, né, que é que é bucket e e base de dados, a gente deveria ter formas muito bem estabelecidas para fazer o backup deles, potencialmente eh crossorg, potencialmente até cross eh GCP,
Marcello Pontes: Угуm.
Deo Carlos: né? Então, talvez a gente queira fazer só na GCP mesmo, o pessoal fica batendo nisso e tal, mas eh se a gente for fazer um backup eh só na GCP, o mínimo que a gente pode, que a gente deveria estar fazendo é fazendo esse crossorg e tendo tipo de coisa bem
#
00:19:10
Marcello Pontes: Угу.
Deo Carlos: gerenciada e e mas talvez fazer isso para fla também, né? Então eu particularmente tipo assim eh eh é um dos trabalhos mais críticos assim, né? o pro pro Bruno que tá muito à frente dessa área, né? Cor e core services, garantir que a gente não caia nunca, não morra nunca, exista para sempre e tal. E tem um trabalho feito de de emoci, mas essa parte de dados eh se isso não tiver feito, não adianta de nada, né? Então, eh,
Marcello Pontes: É,
Deo Carlos: enfim, então, eh,
Marcello Pontes: aí o que tu tá falando já é assim, tem tem alguns níveis de replicação, né? O bucket, por exemplo, na configuração do próprio bucket, tu pode estabelecer regionalidades, escolher na região, eh, ouzona. Eh, e a gente pode também fazer, não sei se eh, a GCP oferece isso de maneira transparente, mas pode fazer replicação cross bucket aí aplicando política de acesso diferente. E aí pode, poderia ser crossorg, cross eh, eu, a questão só do, é preciso tomar cuidado só da cross regionalidade. Se não for uma uma feature implícita do bucket, é porque isso eh se for dentro da mesma cloud é melhor, mas se for cross cloud também é perigoso o nível de replicação, porque eh data grass de uma da da rede é é absurdamente pode ficar absurdamente caro, né, dependendo da quantidade de dados.
#
00:20:46
Marcello Pontes: Então beleza, a gente pode fazer
Deo Carlos: É, então eu acho que eu acho que que que para regiões hoje isso aí pra gente não tipo assim não não faz muito sentido, né? Tipo, é só só se a gente quiser, tipo, redundância e a gente conseguir levantar as coisas eh em outra região, se o Brasil cair ou coisa do tipo. Mas eu acho que eu eu acho que a a uma das principais preocupações assim na empresa também é que a gente não perca as informações num cenário de estresse, né? Então tem as questões de segurança ou pode ser até por por erro, por falha, por qualquer motivo, né? Então, a gente tem uma uma uma política de backup fora do nossa cloud, que quem ti se tiver acesso à nossa cloud eh e tal, não tem não tem chance de de contaminar isso fora e etc, etc, etc. É algo que eu acho que que
Marcello Pontes: Eh, tem alguns assim, eh, a gente pode falar de alguns problemas Quais são os problemas que a gente quer tratar? Por exemplo, runware, isso pode ser um problema. Ah, sei lá, teve uma sanção agora no Brasil, Google Cloud não fornece pro Brasil, sei lá. Então, a gente para acho que para determin para a gente pode listar quais são os problemas e e listar quais são as mitigações que a gente faz para cada uma delas, riscos, risco e mitigação.
#
00:22:12
Marcello Pontes: Eh, para autodisponibilidade, cross region, porque dificilmente duas regiões, não é impossível, não, mas dificilmente duas regiões vão cair ao mesmo tempo. Eh, isso isso é um problema. Então, alta disponibilidade, eh, perda de perda de dados, realmente essas questões eh exteriores a a as questões técnicas, aí realmente a gente vai precisar estabelecer uma política de backup of cloud. Eh, pode ser para outra cloud, pode ser para uma cloud brasileira, pra gente só fazer uma uma cópia periódica desses dados aí, de maneira incremental, né, para não ter que fazer tudo sempre. Eh, mas faz sentido só com uma só com uma frequência menor de de replicação, né? Porque enfim, egress só por causa dessa questão de de data gress. E é bom certificar também que o pessoal não usa no não subcontrata GCP ou AWS para isso, porque acaba sendo transferir elas para elas, né?
Deo Carlos: É, então, mas sem sem tipo, eu acho que que que o volume de dados e o volume de coisas que a gente faz nesse nesse aspecto é relativamente baixo, assim. Então, eh, se a gente tiver fazendo de maneira incremental, eu tenho, tipo assim, eu tenho quase certeza que o custo disso vai ser irrisório mesmo final do ano que vem, se a gente tiver crescido algumas vezes.
#
00:23:32
Marcello Pontes: Entendi.
Deo Carlos: Então,
Marcello Pontes: Tá.
Deo Carlos: enfim,
Marcello Pontes: A gente pode calcular, a gente pode calcular quais são eh o tamanho de dados e quais são essas formas. Não tem problema não. Tá bom? Então, pro Google aí, eu vou ficar de calcular isso daí, o Google Gemini, eh, eh, redundância, ah, política de acesso. E aí vai, a gente vai em algum momento também estabelecer qual o nível de gerência que a gente vai ter de política de acesso para pra OGCP. Pode ser que essa política de acesso seja precisa no nível de de BQU, mas a gente vai estudar com relação a as as nos primeiros casos a gente já v já vai ver isso, né? Quais são as tabelas, quais são as coleções de dados e como é que elas vão acessar o dado no no GCS para ver o que que a gente precisa
Bruno Ricardo (Br): Bucket,
Marcello Pontes: estabelecer de política.
Bruno Ricardo (Br): só engenharia, todo mundo acessa daí paraa frente.
Marcello Pontes: Beleza?
Bruno Ricardo (Br): List privileg sempre.
Marcello Pontes: Liv privilege access. Boa. Ah, de novo. Big query e naming conventions.
#
00:24:36
Marcello Pontes: Mas aqui no detalhe não é só naming conventions, né? Quais são, como é que a gente vai organizar os os projetos? Como é que a gente vai separar as áreas da empresa em projetos? Como é que a gente vai separar os datamarts em projetos, quem vai cross acessar? Eh, quais são os tiers de acesso que a gente vai organizar? Que mais? Quais são as regiões que a gente vai trabalhar? Isso é mais estratégico, mas tem quando a gente fala de tiar também, tem uma coisa que eu coloco mais na frente, não sei se tá aqui nessa anotação. Ah, sim. Eh, tem algumas questões sobre particionamento também. Quando a gente for migrando coleção por coleção, eh, a gente vai começar a aprender e e e recomendar, porque a UMI ela tem um negócio que é o negócio financeiro, né? É lógico que a gente tem muitas tabelas que imaginam invariavelmente vão cair em alguns casos comuns de ter eh muito muitos dessas tabelas as mesmas dimensões. Então, bom, a gente pode estabelecer uma uma uma norma ou pelo menos uma recomendação geral que ó, quando tiver data, particiona assim, quando tiver data sensível clusteriza.
#
00:25:42
Marcello Pontes: Então, a gente pode estabelecer esse tipo de coisas de boas práticas voltado já eh acoplado no negócio da OM para poder dizer o que que a gente eh sugere que a que que clusterize e que eh particione,
Deo Carlos: M.
Marcello Pontes: né, para poder fazer sentido eh tanto para performance quanto para custo também. H, beleza. Big Query. Aí a gente conversou ontem também sobre o Big Quare. Deixa eu ver aqui se tá aqui. GCS. Ah, GCS Ling. Engine, tá? A gente aí assim, eh, uma um dos problemas grandes hoje também do BQU é a questão de custo e uso meio banda voou, né? Ah, tem um negócio que a gente precisa fazer também, que é, beleza, muito provavelmente o bigquer não vai sair, não vai morrer, não vai deixar de ser usado, porque a gente tem uma uma ferramenta que no final das contas é boa, mas a gente tem que usar ela da forma correta e colocar urgentemente uma camada de custo fixo em cima do big query, que a gente vai ter um custo fixo. E independente da quantidade de quereres que vão rodar nesse nesse engenho, a gente vai ter o mesmo custo, porque aí a gente escolhe eh é lógico que a gente tem que separar as áreas, né?
#
00:27:09
Marcello Pontes: dentro do primeiro projeto, a gente vai trabalhar área bronze, silver gold, estabelecer quais são os critérios, como é que organiza direitinho, fazer algumas recomendações eh, o que for de gold, eu eu posso posso arriscar tudo, mas pelo menos boa parte do que for de gold, eh, e aí eu imagino dois critérios que seja muito utilizado e que seja muito granular, ou seja, vai gerar um custo alto, a gente colocar nessa área eh que eu chamo de eh provision capacity. O que é que é isso? São ferramentas do tipo BQU B engine, né, que você provisiona, você provisiona eh capacidade e aí ele joga tudo em memória e a o custo é fixo. É o é o custo vai depender só do da quantidade de horas gigabyte que tá lá que eles vai usar lá. ou pode ser alguma coisa do tipo, eu até mencionei ontem em Click House que tem que tem cloud também, não sei, não tô definindo ferramenta que nem quero definir. O que eu tô querendo definir é que a gente tem uma camada dedicada de de DW otimizado, porque isso aí vai ajudar vocês muito a reduzir a questão de custo, né? É lógico que sempre vai entrar, a gente vai tentar mitigar o máximo, tem alguns mecanismos para isso, a quantidade de monstro que vai criar monstruosidade no leite lá para poder eh explodir o custo, né?
#
00:28:34
Marcello Pontes: H, enfim, é isso sobre o Big Query. Eh, tem uma questão também que eu falo mais na frente, mas eu não vou falar agora não, que é de eh potencial uso de eh data federation do do Bigware, né, para pra gente simplificar o acesso. Então, por exemplo, vai acessar um SQL, um POS, por exemplo, que deveria simplificar o acesso.
Deo Carlos: Então tem tem uma tem uma coisa específica.
Marcello Pontes: Vai.
Deo Carlos: O o Bruno sempre foi um proponente muito grande de fazer isso quanto antes e tal. Eu acho que até se começou um trabalho nesse sentido, né, na área de datas, mas na área de data, mas tipo, eh, se a gente tiver muito bem definido, não sei se você vai falar isso na frente, né, essa nossa forma de fazer transformação dos dados, que vai poder estar usando sequel o Python, ter o Linage, ter o catálogo, ter os honers e ter esse tipo de coisa. Eh, vai, eu acho que isso é um dos passos mais importantes que vai permitir com que a gente comece a evoluir a infraestrutura de dados de uma maneira onde efetivamente eh as áreas consigam tá fazendo o trabalho, né? Tipo, eu acho que hoje ainda, Bruno me me me corri se eu tiver errado, mas eu acho que hoje, tipo, a área de dados é o Léo Luiz, é uma participaçãozinha assim do Wagner, mas tipo a engenharia não participa disso, né?
#
00:30:11
Deo Carlos: A crédito muito menos. Então, o que a gente quer, tipo, você tá faz, você tá, você tá, você tá gerando dados para que gere nesse formato, você vai ser um você vai responder por isso, a gente vai dar suporte para que isso seja feito da melhor maneira, mas vai ser feito nesse formato, não é no formato que qualquer um quer em todo lugar. a gente vai ser definido um formato que todo mundo vai est adotando, a gente eh o o date em si, DS, quem quem quer que seja, né? Então a gente tem esse formato de transformação,
Marcello Pontes: M.
Deo Carlos: geração de vai ser um formato que a gente vai ter observabilidade de do custo que tá tendo naquele dado em quem tá usando e etc, etc, etc. Então,
Marcello Pontes: Угуm.
Deo Carlos: ter isso eh de uma forma flexível suficiente para para para abarcar todos os casos e mas relativamente simples para que todo mundo possa usar sem muito atrito, eu acho que é uma das coisas principais, né?
Bruno Ricardo (Br): Eu ten um ponto importante aí só para adicionar que é hoje a gente tem sempre muito esforço na hora da leitura,
Marcello Pontes: Perfeito.
Bruno Ricardo (Br): então todo mundo se preocupa aqui em tentar organizar o analític e tal, tal, na hora de leitura,
#
00:31:26
Deo Carlos: Так.
Bruno Ricardo (Br): mas existe baixíssimo esforço da engenharia em controlar a escrita e é onde a gente mais gera problema, então esquema evolution, propagação do dado e tal.
Marcello Pontes: Tá.
Bruno Ricardo (Br): A gente tem muito mais problema hoje sobre mudança na fonte que propaga diretamente pro analítico se sai quebrando no downstream do que problemas de analítica. Então acho que por mais que a gente faça um esforço, se ele for só na leitura, a gente vai fazer ele, ele vai acontecer daqui a se meses a engenharia vai estourar alguma coisa.
Marcello Pontes: Entendi.
Bruno Ricardo (Br): Então existe uma demanda forte aí da gente controlar a escrita de alguma forma, padronizar e tal para ver como é que a engenharia apoia nisso para poder a gente garantir a evolução do dado, sabe?
Marcello Pontes: Tá beleza.
Deo Carlos: E a gente efetivamente, tipo assim, a gente efetivamente começar a construir essa infraestrutura, né, do do forma que o o Bruno sempre sonhou de tipo tem aqui os dados da engenharia, a gente transforma, vai consumindo, vai fazendo e tal, tal, tal, tal. Um dos pontos que eu sempre levantei, que eu falava tempo, cara, isso agora não é possível em todo lugar e sempre. Como por exemplo lá na questão de FOPS, que a gente tá tá tendo se construir esse dado, tá tendo pegar esse tipo de coisa e tal, mas eh conforme eu até conversei com Marcelo, ao invés da gente tá fazendo isso de uma forma própria do creto,
#
00:32:43
Deo Carlos: maluca, consumida pelo creto, usada só pelo creto,
Marcello Pontes: Угуm.
Deo Carlos: a gente ia fazer isso uma forma que é da forma que a ingados definiu que vai ser consumida por FOPS, mas vai poder ser consumida por qualquer outra área. E tanto o o essa geração desse dado interno nosso, né, que vai est pegando de várias outras fontes primárias para est montando lá o dadozinho correto, como após o processo de FINOPS, né, que isso vai gerar alguns outros insumos de dados. Eh, existe alguns dados de terceiros que formado de parquê, etc. Existe alguns outros dados que são baixados e existe o dado interno nosso que é gerado em relação a esse processo e como isso deveria ser ingerido dentro do sistema e evoluído. Então, se a gente tiver um formato único para fazer isso, eh, vai fazer com que, eh, eh, muitas coisas que aconteçam na empresa aconteçam de uma maneira muito mais controlada, padronizada, eh, observável e e tal, ao invés de, tipo, cada um tá fazendo da sua maneira,
Marcello Pontes: Entendi. Eh,
Deo Carlos: né?
Marcello Pontes: alguns pontos, tá? Eu fiz as anotações aqui sobre sobre o que vocês falaram.
#
00:33:54
Marcello Pontes: Ah, eu acho que uma das grand, eu vou falar sobre quando a gente entrar em catálogo, eu vou falar sobre isso daqui, mas já adiantando, a visão que eu tenho é de a gente, à medida em que a gente for implementando MVP e daí por diante, a gente vai estabelecer alguns, digamos que tem e sabe aquele aquele progresso um checklistzinho, tã tã t dado OK, dado não é isso, tá? Mas a ideia é de a gente fazer transparecer pro usuário que tá implementando, que tem uma maneira que certa fazer, que atende a ABC checklist. E eu quero que a pessoa que vai fazer isso, ela tenha o checklist ali na cara dela e que seja fácil para essa pessoa aderir a esse checklist. E aí cada ferramenta vai ter a sua a sua maneira de fornecer, por exemplo, templates de implementação. Eh, sei lá, ah, quero fazer uma uma transformação que vai pegar do bicero fazer isso, bicho. Ah, se a gente escolher, por exemplo, DBT Cloud, vai, só para citar um exemplo aqui, a gente deveria ter alguns carfolds de como fazer coisas parecidas com aquilo, eh, senão documentação de boas práticas, tá? Então vai, deveria ser fácil pra pessoa, eh, porque senão ela vai se sentir o patinho feio.
#
00:35:16
Marcello Pontes: Eu acho que nenhuma pessoa quer se sentir o patinho feio. Então, a gente tem que dar essa essa possibilidade eh de usar esses templates e tem que tá tem que tá tudo na cara. Esse é o desejo, né? Eu eu vejo isso como uma maneira de facilitar e lógico, sem como a gente falou, sem blocar, ou seja, você não vai ser impedido de fazer, mas você e e transparentemente a corporação, o seu seu líder, o o seu eh eh colega de trabalho, vai ver que aquilo ali, opa, não tá legal. Enfim, eh, sobre a o input de dados que o Bruno comentou, ã, tem o esquema validation, acho que isso que é que isso é bom e tá tá previsto aqui. Eh, e aí talvez tem duas coisas, né? Tem um tem um negócio que chama dataav que eu eu nunca usei para ser sincero, mas o a teoria do pessoal que fala sobre dataav resolve muito essa questão de tirar esse atrito. E outra outro ponto que tá
Deo Carlos: OK. Desculpe.
Marcello Pontes: no Dataav é uma técnica de
Deo Carlos: Que que seria esse datab? OK.
Marcello Pontes: de business intelligence, onde você cria uma estrutura de dados intermediária entre transacional e o teu DW.
#
00:36:28
Marcello Pontes: E ela vai mitigar a maior parte dos problemas de Esquema Evolution. Tu vai definir algumas coisas ali e ele vai, digamos, armazenar o dado das dimensões de maneira especial para que dali paraa frente o ETL é o mesmo, a menos que você queira introduzir uma nova uma nova dimensão, por exemplo, mas dali pra frente tela mesmo. O data V ele organiza o D maneira que você resolve ele ali e quando ele tá resolvido ali, o ETL dali pra frente é o mesmo. Isso aí é uma super simplificação, porque não precisaria necessariamente dataav para ter essa camada intermediária. poderia ser um ETL para cada eh para cada datamar, por exemplo, mas o datab tem uma série de premissas aí. Eu tô falando que eu nunca implementei, mas eu conheço um cara que é fã disso e vive falando disso e que hoje diz ele que tá mais relevante do que nunca. Mas talvez seria seria uma maneira da gente avaliar esse se isso é overengine engineering ou se a gente só colocar uma camada aqui eh lógica e estabelecer que bicho eh qualquer coisa que vá para lá pro DW para Gold, vamos construir um depar aqui. A gente espera isso aqui e o dado vem daqui, né? E lógico que a gente vai ter que ter um um esquema validation para poder bateu aqui não.
#
00:37:36
Marcello Pontes: Então a gente tem que mudar essa camada aqui. Entendeu? Seria uma uma um translator da vida, digamos assim, um conversor, né? Ã, que mais? A outra coisa só que me veio à cabeça quando vocês estavam falando, não necessariamente diretamente diretamente relacionado ao que vocês falaram, é que quando a gente tá falando da formação de indicador, que é complexo o cálculo, eh a gente precisa, por exemplo, o deloc crédito do de um indicador que cobrança gera, que ele gera diferente de collection, por exemplo, né? Então, quando a gente fala de indicador complexo, a gente não vai precisar só fazer o cálculo certo do indicador, a gente precisa habilitar os usuários. Você sabe mais m**** do que eu. Tô falando aqui, mas eu tô falando para especialista já. Mas a gente precisa habilitar os usuários a inspecionar como é que aquilo tá sendo gerado, gerado. E eu não tô falando só de deixar um SQL visível pro usuário lá, não, mas de eh como a gente falou antes, né? Ontem eu falei o o D deu uma fala legal que eu concordo bastante, que a gente resolver complexidade o mais cedo possível no ETL. E aí no caso desses indicadores, por exemplo, a gente compartilhar relatórios intermediários da formação daquele dado.
#
00:38:59
Marcello Pontes: Então, por exemplo, ah, FPD. O FPD é uma um indicador que é formado a partir de uma coleção enorme de dados, mas ele dá um número lá. Então vamos quebrar aqui nos relatórios intermediários que ajudam eh esses relatórios ajudam a formar o FPD. Isso não só ajuda o próprio usuário a auditar aquilo ali, fora que ele deve ter acesso também a, enfim, esse até ele deve ter eh teste de qualidade de dados, mas também ajuda a gente progressivamente, à medida em que a gente for construir um indicador, a gente não partir só de uma query complexa, não, beleza, vou fazer o o o FPD, vou fazer uma quer não. Ele ajuda a gente quebrar o problema e oferecer pro usuário essa capacidade de de inspecionar e de auditar como é que o indicador tá sendo formado. É, é isso. É isso,
Deo Carlos: É,
Marcello Pontes: gente.
Deo Carlos: só t só só complementando aí, tipo, eu não lembro ter falado exatamente assim com você, mas tipo nessa parte
Marcello Pontes: Na verdade,
Deo Carlos: de essa dessa
Marcello Pontes: eu eu lembrei que tu deu essasis foi uma pergunta e eu que falei que eu penso assim. Acho que foi assim.
#
00:40:03
Deo Carlos: parte de FOPS, quando quando isso foi foi alinhado, a gente tá eh definindo algumas coisas com Leo, que a gente fez foi exatamente isso. a gente falou esse esse l intermediário, a gente falou tipo um um enriched view que é um lei intermediário entre a gente tá gerando o dado final, que é o que efetivamente vai ser enviado pro conciliador, que tem o formato dele. E o nosso lê aqui, esse nosso Lê intermediário é um L muito mais ciclo, tem muito mais dado e existe um mapeamento quase, tipo assim, trivial disso daqui para o formato final, só que ele é feito para que eh a gente consiga criar views em cima dele, entender o por que aquele dado tá sendo gerado, da forma que ele é, né? Não, só tipo,
Marcello Pontes: M.
Deo Carlos: eu estou dando formato final que o que o que o o provider que a gente tá conectando precisa, não é isso. É exatamente é tipo, eu estou gerando um formato intermediário num formato que eu acho que faz sentido, que tá agregando vários dados, que tá mostrando as consistências ou inconsistências, o porquê e etco. E depois você tem um mapeamento relativamente trivial desse formato termeliário para esse formato final. Isso eh eh é muito lin com várias coisas que você falou aí de tipo a gente a gente a gente eh muitas vezes ter esse l intermediário para que você consiga mapear e não teja cupling com com os formatos finais para que quando o formato final mudar a gente conseguir mudar
#
00:41:26
Marcello Pontes: Угу.
Deo Carlos: também. Mas ele serve dois propósitos, né? Ele serve tanto propósito de gerar esses acoplamento para que se o formato do cara final mudar, eh, a única coisa que você muda é esse mapeamento intermediário do invés de mudar tudo, é uma coisa quase trivial, vira um problema simples. E também para você entender o que está acontecendo, né? Ao invés de você ter só aquele formato final que o cara tá querendo, você tem uns porquês aonde, quando, o quê e e tudo que foi gerado
Marcello Pontes: É mais é mais fácil inclusive de voltar no tempo,
Bruno Ricardo (Br): É,
Marcello Pontes: né?
Bruno Ricardo (Br): eu eu entendo isso muito como os modelos que o DBT utiliza lá para você.
Deo Carlos: Ja.
Bruno Ricardo (Br): Tu vai modelando as camaradas intermediárias do DBT e depois tu vai só herdando o modelo entre entre o o
Marcello Pontes: БН
Bruno Ricardo (Br): downstram ali. Então, dá para tu ir modelando isso aí até esse quality check mesmo que tu colocou aí, Marcelo, que é eh bota os quality checker lá. Como é o nomezinho daquela? Agora esqueci que B é expectation
Marcello Pontes: expectations ou great expectation.
#
00:42:27
Deo Carlos: É great expectations,
Bruno Ricardo (Br): mesmo.
Deo Carlos: né?
Marcello Pontes: Eu falei o quê? expectation é great expectation,
Bruno Ricardo (Br): É,
Marcello Pontes: né?
Bruno Ricardo (Br): mas tem o GRE. E tem outro também lá que usa aqueles freshness, não sei o que. Not new,
Marcello Pontes: Tem, tem, tem para c******.
Bruno Ricardo (Br): os cinco pilares do dado analític.
Marcello Pontes: E o mais simples, o mais simples é uma query, né, que tu faz a querer,
Bruno Ricardo (Br): Ah,
Marcello Pontes: se der resultado zero,
Bruno Ricardo (Br): é.
Marcello Pontes: ele fala
Deo Carlos: Então,
Marcello Pontes: M.
Deo Carlos: mas eu acho que tal o que o Bruno esteja falando e que eu não era 100% comprado nele, mas acho que ele falou tanto que eu tô assim, tipo, nossa, é claro que é assim, tipo, eh, a princípio Eh, tipo, eh, a gente potencialmente deveria estar usando DBT. Se a gente não for usar DBT, a gente tem que justificar direitinho. Por que não, porque parece a ferramenta que vai dar tudo pra gente. E pode ter alguma coisa melhor, mas me prove.
#
00:43:14
Marcello Pontes: É, eu eu
Deo Carlos: Acho que é tipo isso falou
Bruno Ricardo (Br): Vou enviar enviar o livro de Kimball para Del ler Kimball e depois ele vê Martin Faller com deita
Marcello Pontes: tess
Deo Carlos: assim.
Bruno Ricardo (Br): mecha ele. Aí ele sona.
Deo Carlos: É o quê?
Marcello Pontes: e E agora de data
Bruno Ricardo (Br): Tem um livro um livro que Marcelo leu 32 vezes que é
Deo Carlos: Eu
Marcello Pontes: fabric
Bruno Ricardo (Br): Kimball que é a origem lá de DW. Depois aí tu ler Martin Fall para mestre.
Deo Carlos: só não entendi os livros aí, mas enfim.
Bruno Ricardo (Br): É, vou te mandar aqui.
Deo Carlos: sempre manda aí que eu consigo ler a prótima.
Marcello Pontes: e aí Bruno? Não sei, cara. Eh, o DBT vai resolver isso aí, né? Agora, eh, tem alguma uma uma questão é o seguinte, vai depender muito da capilaridade, por exemplo, quantas tabelas, pô, se se tem um cara, se tem uma tabela que ela é consumida por vários sources ou ou por vários várias, digamos, stagens, né? Eh, e aí a gente vai querer quebrar o máximo possível em stages materiais.
#
00:44:15
Marcello Pontes: Eh, se tem uma uma tabela que é usada várias vezes, eu vou querer concentrar esses checks o mais cedo possível, né? Entendeu? Para que para que todos os modelos eles derivem da dessas camadas com esquema validated,
Bruno Ricardo (Br): Sim, sim.
Marcello Pontes: né? Então, é, vai, a gente tem que arrumar um jeito de controlar isso daí.
Bruno Ricardo (Br): Então, e e isso se quiser colocar esquema validate aí, tá? Tipo, até comentei com o D uma vez, a gente uma vez colocou esquema validation na na antes da escrita na
Marcello Pontes: Угуm.
Bruno Ricardo (Br): bronze, então eu garanti o esquema ali. Então, se ele quebrasse dali paraa frente não quebrava. Tipo no quebrasse sentido de engenharia mudasse, qualquer coisa desse tipo. E também dava para fazer um esquema evolution com versionamento do esquema usando Jon esquima e avro. Aí a gente registrava lá no glue, registrava esquima. É no glue é da
Deo Carlos: Blue. O que que é?
Marcello Pontes: Blue AWS é o
Bruno Ricardo (Br): WS glue.
Deo Carlos: Blue.
#
00:45:13
Marcello Pontes: católogo Blue Globo.
Deo Carlos: Blue. Entra de blue.
Bruno Ricardo (Br): Glue de de cola,
Deo Carlos: Sim, sim, sim.
Bruno Ricardo (Br): né?
Deo Carlos: No blue. Sim.
Bruno Ricardo (Br): E aí eu não sei se dá para fazer isso aqui no Big Query antes da escrita, porque hoje o CDC ele escreve na Tora lá, mas se eu não me engano eu dei uma lida um dia desse, um dia desse não, um ano passado e ele tinha um modelo de deforement lá dentro da GCP, beleza?
Marcello Pontes: Deve ter isso. Não é não é assim, tem coisa tem coisa leva fazendo isso também, né?
Bruno Ricardo (Br): Eh,
Marcello Pontes: Enfim, deve
Bruno Ricardo (Br): inclusive a gente até controlava o seguinte, que esse é um ponto que eu achava legal, que não só pelo esquema do gestão,
Marcello Pontes: ter.
Bruno Ricardo (Br): mas era a gente controlava o modelo de escrita. Então isso permitia tu controlar o fresh do dado. Por exemplo, tinha dado que tava vindo da transação que eu não precisava que aquele dado tivesse uma pend ali para toda vez que ele tivesse atualização, dado um um chrome ou dado um schedul lá qualquer.
#
00:46:09
Bruno Ricardo (Br): Então aquilo ali tu fazia um override uma vez por dia, sabe? Com a última consistência. O outro que tu tinha precisava do new real time, tu fazia um append only constante lá. E o outro que tu não precisava desse freshness todo, fazia só um merge a cada uma hora, por exemplo. Então controlava a escrita junto com esquema.
Marcello Pontes: Seg.
Bruno Ricardo (Br): Isso era muito bom porque tu, tipo, tu não precisava fazer com que todo o fluxo tivesse a mesma condição de de escrita, entendeu? mesma necessidade. Eu tô reduzir a
Marcello Pontes: É, como é que é, como é que quais são os problemas com os que vocês encontraram com validação de esquema?
Bruno Ricardo (Br): volume
Marcello Pontes: É mudança de nome de código, adição de nome de código e de mudança de campo, eh, adição. Fala para mim quais são os problemas mais pé no saco que vocês tiverem.
Bruno Ricardo (Br): os de hoje aqui são alteração de campo,
Marcello Pontes: Alteração de nome ou tipo.
Bruno Ricardo (Br): a numeração de nome, tipo e adição, né, ou remoção. É. Se tu pegar, por exemplo,
#
00:47:03
Marcello Pontes: Tudo.
Bruno Ricardo (Br): hoje tu vai pegar uma tabela da gente aqui, tu vai pegar CPF como um campo. Metade dela tá definida como integer, outra metade tá definida como
Marcello Pontes: c******.
Bruno Ricardo (Br): string.
Marcello Pontes: E esses esses eventos, esses eventos eles provavelmente estão atrelados a um um evento de migration da base em produção também, né? Execução
Bruno Ricardo (Br): É, eu aí acho que tem que validar com Léo.
Marcello Pontes: de
Bruno Ricardo (Br): E falaram que quando estruturaram, eu não cheguei a conhecer isso, tá? Tipo, que o CDC tava baseado no log de réplica do do post.
Marcello Pontes: Hum.
Bruno Ricardo (Br): Aí o ele pega o log, o CDC vai lá ler, gera os Bzinhos, faz a fila e deixa lá. E depois o Big Quir fica lendo a fila e faz aquele tratamento dele lá de de duplication, tá ligado? Eh,
Marcello Pontes: Uhum.
Bruno Ricardo (Br): que era assim tava. Então, bicho, ele só pede e escreve, faz mais nada.
Marcello Pontes: Não, tô ligado. Eh, tá. e o pessoal, enfim, CPF de de de string para
#
00:48:13
Bruno Ricardo (Br): Não, foi só um exemplo, tá ligado? Mas assim, as dores que tem hoje, quando quebra alguma coisa, ou é mudança de estrutura na tabela, ou alguém mudou alguma regra de negócio e não avisou, aí essa é pior ainda, né, que não vai dar para controlar com técnica.
Deo Carlos: Mas tem tem várias maluquícias, né, na nas tabelas, principalmente assim, porque muita gente não gosta de alguns padrões que tem hoje, aí começa a adotar padrões diferentes em partes diferentes e tal. Então, tem lugar que o que o CPF se chama user ID, tem lugar que é um string, tem lugar que é um inteiro, tem eh a o nome das colunas de data lá que você tá falando,
Marcello Pontes: Beijinho.
Deo Carlos: né? Tipo, tem creation time stamp, tem creation at, tem eh created at, tem created on, tem creation on, tem tipo, cada um tem o seu padrão, tem seu nome,
Marcello Pontes: No
Deo Carlos: tem seu formato, tem seu lugar, eh, e etc. Mas, tipo,
Marcello Pontes: tá.
Deo Carlos: eu eu acho que eu acho que e as bases de produção a gente não vai poder tá mudando a vida, né? Mas a gente vai poder tá pegando elas, deixando elas num formatozinho razoável, eh eh juntando tudo isso, provavelmente, tipo assim, coisas básicas do tipo, eh, a essa camada camada bronze é o dado lá como vem mesmo, uma camada silver é o dado com as colunas renomeadas, com os campos eh no no tipo correto, tirando campos que eram para tá para tá para tá ah, deprecados e etc, etc,
#
00:49:53
Marcello Pontes: Uhum.
Deo Carlos: etc. E depois você finalmente foi um trabalho em cima disso para gerar um dado correto final,
Marcello Pontes: Tá.
Deo Carlos: né? Então, não parece nada de outro mundo fazer esse direito. Só tem que ter um padrão, né? Tem que ter um formato, tem que ter um padrão, tem que ter um uma lógica do por que que vai ser feito assim e seguir
Marcello Pontes: É, é um trabalho, é um trabalho contínuo, né? A gente vai estabelecer alguns,
Deo Carlos: ele.
Marcello Pontes: alguns primeiros casos e esses vão eh eh a gente vai trabalhar para que esses primeiros casos já abram um um grande percentual de todos os outros em termos de padrão de padrão de implementação, né? Aí a gente vai, a medida em que for para essas coisas novas, a gente vai tratando.
Deo Carlos: É, e nessa linha,
Marcello Pontes: Então é não
Deo Carlos: tipo, sem querer me prolongar muito assim, mas tipo, visão e eh eh uma visão um pouco complementar aquela sua que
Marcello Pontes: problema.
Deo Carlos: você teve inicial, né? Tipo, eu acho que uma das principais coisas, se a gente tiver bons formatos e umas coisas simples aqui, resolver as coisas que existem hoje não vai ser resolver as coisas que existem, é migrar pro migrar para cá e aqui vai est funcionando.
#
00:50:58
Deo Carlos: Então, se a gente fizer as coisas de de uma boa maneira, eh,
Marcello Pontes: Exato.
Deo Carlos: a gente não vai tá eh tentando migrar tudo, mas qualquer coisa que der problema, que for precisar fazer alguma coisa, vai ser resolvido lá. Vai ser migra, migra,
Marcello Pontes: Aqui.
Deo Carlos: migra,
Marcello Pontes: Exato.
Deo Carlos: migra,
Marcello Pontes: É até mais até mais motivador,
Deo Carlos: migra.
Marcello Pontes: né, pessoal
Deo Carlos: É, é. E é o que funciona melhor. E tipo,
Marcello Pontes: fazer.
Deo Carlos: aí a pessoa migra e tudo funciona e tem várias coisas e tem várias não sei o quê. Aí gera um incentivo para as coisas começarem a migrar, porque, pô, você migra e é melhor. Aqui é pior, lá é melhor.
Marcello Pontes: Uhum. Beleza, beleza. Vamos, vamos dar uma caminhada aqui. Então,
Deo Carlos: Так.
Marcello Pontes: eh, acho que a gente cobriu o BigQU por enquanto. Eh, a questão de DW otimizado, a parte de como é que
Bruno Ricardo (Br): Isso eu ia dizer, eu vou precisar sair já,
#
00:51:41
Marcello Pontes: é?
Bruno Ricardo (Br): porque eu tenho um restop aqui para falar com com outra pessoa, mas vocês podem seguir aí, tá? Depois eu me atualizo com vocês.
Marcello Pontes: Tá bom, Del.
Bruno Ricardo (Br): Ча.
Marcello Pontes: Tu me fala como é que tu tá de tempo, bicho. Seu
Deo Carlos: É, eu tenho até 4 horas. Isso aqui, cara, sério mesmo.
Marcello Pontes: seu
Deo Carlos: Tipo, eu tô eu olhei assim e falei: "Cara, será que essa p**** desse negócio de dados realmente vai ser resolvido?" Chega meu final de ano ficou melhor assim, tipo, pô,
Marcello Pontes: Vamos,
Bruno Ricardo (Br): Senti um desafio.
Deo Carlos: pedir isso pro Papai Noel.
Marcello Pontes: vamos ver.
Bruno Ricardo (Br): Senti o desafio aí, Marcelo.
Marcello Pontes: Não, eu senti na pele aqui,
Deo Carlos: Não,
Bruno Ricardo (Br): M.
Marcello Pontes: na alma.
Deo Carlos: não. Eu, eu realmente fiquei, an, eu realmente fiquei animado assim. Falei: "p****, cara, c******, isso vai ser maneiro mesmo. Quanto da minha cabeça, quando eu tava quando entrei na empresa, eu falei: "Cara, a gente tem que fazer o nosso aqui, vai ser um caos, isso ainda vai durar um tempo, eu não sei eh que horas is faz efetivamente pode ser, né, tipo corrigir de uma maneira holística,
#
00:52:35
Marcello Pontes: Tá, ó, não vai ser fácil não, tá? Mas vai vai ser feito. E o que me anima mais é porque não precisa fazer tudo de um jeito. O problema tá tão ruim que se a gente começar numa vertical, eu acho que a gente dá uma motivação para todo mundo que tá ao redor, né? Essa essa é minha maneira de pensar.
Deo Carlos: Sembora
Marcello Pontes: Vamos lá. Então, camada de DW otimizado. Expliquei um pouco para vocês. Bota uma uma instância de qualquer coisa. B, Click House, qualquer coisa. Click House tem cloud também. Falei pro del tá todo mundo usando, mas a gente lógico que tem que eh medir medir tudo, né, para ver o que que vai realmente fazer sentido e não querer enfer enfiar o negócio goela baixo. É, por exemplo, colocar todos os gold lá ou parte dos gold ou pelo menos os casos onde o usuário vai precisar fazer drillar uma tabela muito grande para poder diminuir o custo e deixar o custo capado lá e fixo por mês ou então que ele suba em passos de capacidade, não necessariamente exponencialmente ao uso. Ah, transação, uso de de que que chega reverse, como é que é?
#
00:53:47
Marcello Pontes: Reverse, né? reverso, não sei, talvez a gente precise de um um post para isso, não sei, mas a gente vai ver quais são os casos e analisar caso a caso. Se a gente tiver alguns casos já que agrupados façam no sentido da gente ter uma uma base, porque sim, porque não eu sou mais do isso é infra para gerenciar. Eh, é lógico que o tem a tem a infra de eh postgres compatível com peg gerenciado lá, que é muito melhor. Você não precisa gerenciar tanto quando você gerenciaria um post, mas ele é uma base transacional, né? Então a gente vai ter que avaliar caso a
Deo Carlos: É só e só só uma coisa a gente for ter isso, eu acho que talvez vale a pena,
Marcello Pontes: caso.
Deo Carlos: talvez, né? Eu nunca usei, mas a questão do Alo DB, né, que ela parece ser um eh um bom intermediário para que você tenha um pb, seja mais escalável,
Marcello Pontes: Exato. É isso.
Deo Carlos: tem alguma algumas tem algumas funcionalidades analíticas lá também,
Marcello Pontes: É isso.
Deo Carlos: você consegue salvar de maneira eh colunar também algumas coisas, enfim. Mas, mas um dos pontos, só que eu queria perguntar aqui para entender a visão, eh, por exemplo, novamente nesse meu use case, eh, padrão aqui do FINOPS, né, que a gente tá fazendo processos e esses, né, a gente tá consumindo inputs do dos nossos dados de maneira gold, padrão assim fina e a gente vai querer est ingerindo de volta dados.
#
00:55:18
Deo Carlos: a gente pode táar vendo isso como um sistema transacional que tá fora dessa desse pipe
Marcello Pontes: Ah.
Deo Carlos: de dados, mas potencialmente eu poderia tá tá usando essa infraestrutura de dados para tá criando essa tabela, evoluindo, fazendo as migrações, evoluindo isso, fazendo gestão e tal. Você acha que isso faz sentido ou não? Isso não não tá dentro
Marcello Pontes: Desculpa, Del. Eu não sei, eu não sei se eu entendi direito.
Deo Carlos: do
Marcello Pontes: Então, tu tem os o sistema de Finops, esses dados estão no em uma base transacional, é
Deo Carlos: Então,
Marcello Pontes: isso?
Deo Carlos: eh eh eh eles estão numa base transacional, né? Eh a maneira como como um primeiro passo que eu imagino que isso vai acontecer é o quê? Eh, ao invés da gente tá pegando esses dados transacionais, como tá sendo feito hoje, fazendo as transformações, gerando o dado correto e tal, isso vai ser feito, né? Essa parte vai ser eh eh o cara lá de crédito que é responsável por isso, vai ser o desse tipo de de dessa tabela e desses desses campos,
Marcello Pontes: M.
Deo Carlos: mas isso vai ser feito dentro dessa infraestrutura de dados para ter lá um dado gold, onde é uma fonte de informaçãozinha correta para isso.
#
00:56:37
Deo Carlos: Eh, e ele vai estar consumindo disso. Foi aquilo que eu conversei com você, né? Tipo, antes, sempre que esse processo for rodar,
Marcello Pontes: Sì.
Deo Carlos: ele roda algumas vezes ao dia. Eh,
Marcello Pontes: Ah, sì,
Deo Carlos: se roda um jovzinho,
Marcello Pontes: eu
Deo Carlos: atualiza esse dado de maneira incremental,
Marcello Pontes: lembro.
Deo Carlos: se usa isso para fazer parte do processo. Só que esse processo ele, né, ingere dados novamente na base transacional. E tem alguns outros dados que são dados eh dos terceiros que isso fica em
Marcello Pontes: Mhm.
Deo Carlos: buckets no nos aralhos sem nenhum sem nenhuma organização também assim, né? Tipo nenhuma grande estrutura,
Marcello Pontes: Угуm.
Deo Carlos: que isso também poderia tá tá sendo estruturado para poder tá disponível de uma maneira melhor, né? Então, o que eu tô perguntando assim é, você entende que eh a gente poderia tá usando essa infraestrutura de data para tá eh criando a uma, por exemplo, vai precisar criar uma tabela transacional e a gente vai ingerir um dado lá transacional eh em relação a esse processo de FINOPS. Eh, a gente vai fazer isso no sistema parte ou o o próprio próprio processo de de de dados vai ter um formatozinho específico pra gente tá fazendo isso, para tá criando uma tabela, para est fazendo migration, para tá lidando com isso.
#
00:57:57
Deo Carlos: Isso não vai ser tipo cada um faz do jeito que quer. Tem esse formatozinho aqui a princípio que pode estar sendo utilizado e que a área de dados utiliza e tal.
Marcello Pontes: Eh, como do jeito que eu vejo eh o problema que que tu explicasse ontem até me corri se eu tô fazendo, tiver falando alguma besteira, talvez não tenha tido direito, mas eu acho que a gente precisa sim o maior o máximo possível aproveitar a estrutura de dados para fazer, ou seja, fazendo fazendo lake. É porque esse dado ele fica, os intermediários e o final eles ficam disponíveis para possíveis cruzamentos de dados que vão poder ser feitos. E aí sim na hora de a gente ter um gold e esse dado precisar voltar pro transacional, vai depender dos do caso para onde a gente vai jogar. Então, se só quem for utilizar vai ser a própria área, pode jogar de volta se isso fizer sentido na aplicação dela e ela não precisar conectar com outra base. Se for um negócio que eh vai ter benefício para outras áreas também e forá, o workload for de caráter transacional, a gente pode ter uma uma base transacional ou uma camada transacional eh de uso governado, de uso comunitário, digamos assim. E aí comunitário falando de outras áreas também. Mas eu acho que um o a motivação para fazer na plataforma é não ter silo de expertise, né?
#
00:59:29
Marcello Pontes: Se a gente jogar o ETL lá paraa plataforma, a gente eh fomenta o uso da plataforma para poder resolver as complexidades e e fazer aquelas camadas intermediárias do jeito que a gente recomenda. E aí gera eh caso de uso também gera track record paraa plataforma para que outros usuários também vejam e eventualmente se precisarem utilizar aqueles dados já tá lá, né? Então, eh, eu não sei se faz sentido o que eu respondi para tua cora, mas da maneira que eu entendi, assim que eu vejo. M.
Deo Carlos: Então, beleza. é, é algo é algo meio meio eh o que o que o que o que o que o que para mim é menos claro é exatamente esse essa etapa de de do output do do do que é feito, como isso pode ser ingerido de volta ou como esses outros dados que são dados eh de terceiros que normalmente não estão disponíveis em geral, né? Ficam ali guardados dentro do processo finofice,
Marcello Pontes: O dado,
Deo Carlos: como é que isso pode?
Marcello Pontes: o o dado de terceiro, o dado de terceiro, ele vai ser cruzado com o dado que a gente tem e jogado de volta pro transacional.
Deo Carlos: Então,
Bruno Ricardo (Br): M.
Deo Carlos: eh eh eh o dado de terceiro a gente usa para cruzar com o nosso dado, para fazer o processo Finops e as respostas desse desse desse sistema que muitas vezes vão voltar para falar assim, tipo, ah, isso aqui foi feito, foi pro fundo tal, na data tal, existe existe alguns algumas informações tradicionais que elas já estão voltando, né?
#
01:01:11
Deo Carlos: Então, tipo assim, a gente já salva, a gente já tem e tal, mas existe muitas coisas que não estão sendo salvas, muitas coisas que não estão sendo expostas, como por exemplo vários vários desses dados, né? Tipo, a gente tem um histórico incremental eh da visão da Millenio sobre como nossos fundos são. Isso tá eh em alguns parquês,
Marcello Pontes: Угу.
Deo Carlos: em alguns buckets que, enfim, algumas pessoas sabem que isso existe e e e lidam com isso diretamente, né? a gente não, isso não tá num num área comum sendo colocado de uma forma estruturada, eh, e podendo est sendo usado por, eh, por, por qualquer pessoa que, que aquele trabalho possa ser feito, né? Tipo, não tem não não não muito menos eh questões de catálogo ou que seja.
Marcello Pontes: Так.
Deo Carlos: Então, eh, a gente poder tá utilizando, né? Tipo, o que eu tô pensando mais é tipo, isso vai, não é que isso vai ser uma burocracia pro sistema, não, mas isso vai ser ter isso aqui, vai ser uma tour que vai favorecer e vai simplificar o gerenciamento desses dados, né? Então a gente vai gerenciar o que tá acontecendo de maneira melhor, porque vai ter uma infraestrutura organizada para isso,
#
01:02:25
Marcello Pontes: Entendi.
Deo Carlos: né?
Marcello Pontes: Desculpa, BR.
Bruno Ricardo (Br): Eu só levantei a mão aqui só para destacar um ponto que é vale a gente separar essa parada de reverse alguma brincando aqui, mas em problemas distintos, sabe? que tipo assim, existe um problema que não é um university audio de verdade. Tipo assim, usa um Big Query como melhor lugar para você guardar um dado transacional, porque é mais fácil de implementar, porque normalmente é não é feito por uma pessoa de engenharia que teve a capacidade de fazer um migration certo e eu criar um post. Isso é um problema um, sei lá, Renato Rosa, Vini, uma galera que tem aqui que monta essas coisas mais automation assim. Existe outro problema que é a ingestão de dado externo, que depois é incluída junto com um processo transacional para complementar, que é o que de acabou de falar, sabe? Então são problemas distintos que eu acho que vai ter que tratar de forma distinta. Então não é um problema só. A gente jogou num bolo só aqui de reverl, mas não é um uso um um caso de uso de reverse,
Marcello Pontes: Sim.
Bruno Ricardo (Br): sabe? O caso de uso é outro.
#
01:03:24
Bruno Ricardo (Br): Eu não pego o meu dado depois de analítico, faço n agregações e disponibilizo para outro lugar, tá?
Marcello Pontes: Так.
Bruno Ricardo (Br): Normalmente eu uso ele como analítico, eu quero ele usar como transacional, só que alguém não foi capaz de implementar,
Marcello Pontes: Tá?
Bruno Ricardo (Br): entendeu?
Marcello Pontes: Dois pensamentos. O caso de a gente consumir dado externo que vem no parquê, isso acontece muito, né? Não sei se é esse caso, mas às vezes a gente precisa consumir idade de uma outra empresa, elas vão compartilhar com a gente ou acesso a um bucket lá que tá compartilhado com a gente, a gente tem acesso a isso, né? Eh, esse dado, entendo, precisa passar pelo catálogo, né? precisa ser catalogado para que DBT e companhia eh possam utilizar isso na maneira de Olha o BR. Valeu aí, man. A gente fala então para que esse dado ele pode possa ser utilizado da maneira como a gente utiliza nas ferramentas de ETL que a gente vai disponibilizar, né? Sobre o o o caso transacional lá que o pessoal vai e utiliza o BigQuery como se fosse transacional. Aí realmente a gente pode avaliar qual qual a maneira boa de fazer isso, porque a gente até esses usuários eles precisam ser eh comportados também nessa visão, né?
#
01:04:27
Marcello Pontes: Eles precisam eh tem um tem uma maneira de realizar isso e o trabalho deles é atrás da cidade tem que tem que ter uma maneira de fazer isso
Deo Carlos: É,
Marcello Pontes: também.
Deo Carlos: o usam big query para tudo, né? Usam big query para transnacional, assim, usam big query para tipo, eh, eu acho que é uma coisa que criaram aqui da empresa que, tipo, eles pegam logs de alguma aplicação, aí pega alguns logs específicos, são dado estruturado, eles jogam pro Big Query e ficam monitorando a partir a aplicação a partir disso, sabe?
Marcello Pontes: É, o Léo me detalhou como é que foi feito isso aí. o Léo e o e o Vag detalhe era o assim, eu eu queria saber foi justo acho que um dia depois que eu tive a conversa contigo com o Bruno, que vocês falaram de um relatório que tava dando não sei quantos mil lá e aí eles mencionaram, eu falei: "Como é que foi isso?" Aí eles falaram, né, que tem um tem um pessoal que pegou o logo que tá jogando o logo da aplicação injun flat file para o bucket, ou seja, tá ocupando espaço e ainda é um é um é um JSON por linha. E aí o Jun é uma coluna e quando os caras precisam eh transformar esse dado, ler os campos, é uma coluna só.
#
01:05:42
Marcello Pontes: E aí é é full scan, né? Exatamente como como falou, é full scan. Então eu até fiz uma brincadeira com o Léo que o pentar resolvia isso muito bem na época, por o pentarro ele não é um tipo de transformar, você consegue fazer isso com,
Deo Carlos: falou que uma hora você ia falar do pentarma aí,
Marcello Pontes: né? Vai,
Deo Carlos: ó.
Marcello Pontes: eu eu dei aquela p****,
Deo Carlos: Você se controlou,
Marcello Pontes: mas enfim,
Deo Carlos: você se controlou, segurou muito tempo, mas a hora
Marcello Pontes: chegou, chegou. Mas assim,
Deo Carlos: chegou.
Marcello Pontes: o que eu quero dizer é que o existe um engenho de ETL, o o enfim, esses de data size, por exemplo, pandas, só para citar o pior, ele joga tudo em memória, né? E aí você não consegue fazer isso de maneira efetiva, mas o ideal é que você vá um bufferzinho para que aquilo ali vá, beleza? Você vai estruturando dado do Jan para um parque, qualquer outra coisa que vai ser comprimido e que vai ter eh vai ser vai ter dado tipada, já é um objeto para você conseguir ler com com mais eficiência, né?
#
01:06:38
Deo Carlos: Não,
Marcello Pontes: Eh, enfim, mas esse caso também precisa ser comportado,
Deo Carlos: É.
Marcello Pontes: pô. Como é que vai? E aí o que eu perguntei para eles antes foi isso é log? Isso é log de os caras estão lendo o log, mas isso para mim me parece como o caso de uso de de ferramentas do tipo Cloud Watch, por exemplo, que você tem um stack, sei lá, Kibana, por exemplo, de log analytics, mas não é porque o pessoal em vez de salvar dado de business na aplicação, eles estão olhando o o eles logam o dado de business e utilizam o log para fazer retrieval de log de business, não é infraestrutura. Aí eu falei: "Ah, então pera aí, o pessoal tá fazendo um negócio errado lá, mas pera aí, pelo menos a gente deveria ter um caso de uso para isso aqui para poder possibilitar esse tipo de coisa,
Deo Carlos: Então, mas esse log de business é um business bem bem de de cruzar algumas coisas,
Marcello Pontes: né?
Deo Carlos: não é nada que é super, muitas vezes não é nada que é para ser super persistido nem nada, mas foi uma coisa que eu falei que eu que eu comentei assim, tipo, eh eh eh naquela questão de a gente
#
01:07:35
Marcello Pontes: Угу.
Deo Carlos: conseguir eh visualizar os dados do PSC CR, né? Tipo assim, tem tem uma replicação rápida, você consegue monitorar isso rápido e ver o que tá acontecendo na aplicação de maneira rápida para alguns casing, né? Então, você lembra disso que eu falei, tipo, eu acho a gente conseguir ter esse ter essa possibilidade de ter esse dado fresh, né?
Marcello Pontes: M.
Deo Carlos: Não é para ter muito dado, mas é pouco dado, mas super fresco, né? Tipo assim, você não vai fazer ficar fazendo queries ao longo de anos, mas vai fazer uma eh um relatório do dia com com dado fresco para tá acompanhando operações, esse tipo de coisa. Normalmente a forma como se que fazem isso é acompanhando logs e os mais sofisticados faz joga o log pro big query e acompanha via big query desse jeito, sabe? Então eh eh enfim,
Marcello Pontes: É,
Deo Carlos: é maluco, né?
Marcello Pontes: é maluco.
Deo Carlos: Então,
Marcello Pontes: É maluco. Eh
Deo Carlos: aí tipo e existe uma coisa, tipo,
Marcello Pontes: M.
Deo Carlos: que eu até enfim só, mas tipo, eu levantei aqui no passado que, tipo, a forma como a gente acompanhava lá, a gente tinha observabilidade, só que eh que eu que eu tinha na outra empresa, a gente tinha observabilidade, mas muitas vezes essas grandes empresas usam essas questões de observar de Espanha e esse tipo de coisa em sample, né?
#
01:08:59
Deo Carlos: Tipo assim, alguns samples para ficar vendo para ter problema. Só que, tipo, quando sua frequência não é super alta, lá era muito mais alta do que aqui até, mas aqui é tipo assim, a gente faz poucas transações por segundo, às vezes poucas por minuto. Eh, mesmo, apesar de ser tudo engasgado, é, a frequência é essa. Então, o que eu falei foi galera, a gente devia ter observabilidade e full, que era isso que eu tinha lá também. Tipo, você é um Google, você não vai ficar salvando 300 dados de 300 clientes ao longo do mundo todo, infinito para ficar vendo isso, mas a gente pode, tipo assim, é barato isso, caro é o tempo que a gente gasta para dibugar. Então fazer isso é barato, aí todo mundo, é, mas não é prática, não é standar, né? Não sei o que vai, cara. Tipo, beleza, na prótima não estando, mas tipo, aí os caras adotam ferramentas tipo Temporo, que faz isso em em tudo e fala: "Nossa, tempor é top porque você consegue ver todas as coisas que rodam". Então, eu falei: "É, eu sei, mas tipo observabilidade, observabilidade você consegue ver tudo também, é só você querer usar full,
#
01:10:03
Marcello Pontes: É,
Deo Carlos: tá ligado?"
Marcello Pontes: eh, eu lembro, eu lembro que a gente trabalhou com, eh, Cloud Watch X-ray para tracing, né? E às vezes ele faz justamente essa questão de sampling, você tem como configurar qual o sample size, né? 10% é 100%. Então quando a aplicação é pequena, 100% bicho. Até porque quando tem pouca pouco request também 100%. Não tem porque você não fazer isso não.
Deo Carlos: É, é, eu usava o grafando. A gente usou grafando exatamente porque usar o usar o Cloud Watch para fazer isso 100% eu era super verboso. Eh, era caro, mas para mim era lindo assim, era maravilhoso. Assim, a gente você dava um errinho, qualquer qualquer erro, qualquer métricas que a gente tinha algumas coisas lá que a gente não tinha nem métrica por por agregada, né? médica era por esse spam aqui não pode dar isso, isso aqui não pode dar nada, isso aqui alguma alguma coisa dessa acontecia, você recebia uma notificação do Slack com link para o seu aplicativo e você via aquela p**** toda o que aconteceu, cara.
Marcello Pontes: a gente fazer isso também.
#
01:11:03
Deo Carlos: tipo e tipo assim,
Marcello Pontes: Lindo, vai.
Deo Carlos: enfim, vai
Marcello Pontes: É,
Deo Carlos: eh
Marcello Pontes: tem que tem que tem que assim, eh, evangelizar, né?
Deo Carlos: é então enfim,
Marcello Pontes: Enfim.
Deo Carlos: eu eu fiquei falando muito nessa nessa nessa nessa nessa questão aqui de observabilidade, porque eh potencialmente,
Marcello Pontes: Угуm.
Deo Carlos: né, eh potencialmente Alguns desses use cases que tão usando uma ferramenta de dados para algo que não é de dados, vai continuar existindo até que a gente consiga falar assim, tipo, existe essa outra ferramenta para fazer isso que você tá querendo fazer da maneira melhor, que você tá querendo fazer não é uma questão de dados, não deveria estar jogando pro big query, não deveria estar fazendo isso. você tá querendo monitorar sua aplicação, você pode est fazendo isso desse formato aqui melhor do que pegando logs, transformando em dados, jogando pro big query, juntando isso e tal, não sei o quê, não sei o quê. Eh,
Marcello Pontes: Ja.
Deo Carlos: ou a outra possibilidade também é a gente tá disponibilizando eh uma forma mais fácil de tá salvando esse tipo de dado que é tipo assim,
Marcello Pontes: Угуm.
Deo Carlos: é um dado mais efêmero, né, que talvez tipo naquele dado da aplicação que todas as coisas vão estar persendo, mas um dado de observabilidade mesmo, mas talvez, né, como a a forma como as pessoas usam, talvez isso seja mais fácil a gente prover ferramentas para que isso possa ser feito.
#
01:12:41
Deo Carlos: de uma maneira simples, não tão zoada como é hoje, né? Então, quando você for criar, você você quer fazer isso, quer criar lá um big query, vamos fazer desse formatozinho, vamos indexar esses dados, vamos fazer assim, que pelo menos não é o ótimo, mas é a forma que você tá acostumado agora e vai fazer com que isso não seja eh um completo absurdo, tá usando isso não vai virar uma fura, sabe?
Marcello Pontes: Entendi. Faz sentido. A gente vai ter que pegar esses casos e e oferecer e assim vai ter a gente vai ter que motivar. Tem duas maneiras de motivar dizer, ó, tá muito caro, você não pode fazer assim, ou então fazer, ó, falar isso, tá muito caro, você não pode fazer e a performance vai ser melhor, por exemplo, né? De repente a gente pega um caso desse aí.
Deo Carlos: tem um formatozinho melhor para fazer, mas enfim,
Marcello Pontes: É,
Deo Carlos: é só eh 3:20 10
Marcello Pontes: beleza. Eh,
Deo Carlos: minutinhos e até 3:30, tá?
Marcello Pontes: tá, tá, rapidinho. Então, Data Federation Le, a gente falou disso ontem.
#
01:13:40
Marcello Pontes: Eh, Bruno não tá aqui, mas tu já escutou o que que a gente pensa? Eh, ETL, estabelecer blueprint de umbard de dados e aí contemplar caso de log, contemplar caso de de dado externo, contemplar caso de que vem do transacional. Eh, como é que o como é que inclusive o o dono do dado que vende transacional, quais são os procedimentos para, por exemplo, para para esquema Evolution? Ah, mudou. Que que que faz agora? Meu Deus, tem que ter playbook para isso. Ah, então, por exemplo, se deploy that long aqui é o caso que a gente falou aqui, já comentei isso aqui. Ah, visibilidade compra e das dependências, inclusive dados que são e compartilhados com a gente externamente. A gente vai ter que ter essa visibilidade de tudo. E é lógico que ninguém vai querer fazer manualmente,
Deo Carlos: B
Marcello Pontes: mas tem que ter que ter job para poder fazer varreduras, né?
Deo Carlos: e Sinceramente ia ser lindo lá o processo Fin você vai olhar lá aí você vai ver que isso aqui tá vindo de um dado do bucket do cara lá que tem isso que você você conseguir ver tudo isso, ver o que tá acontecendo e enfim é é maravilhoso.
#
01:14:52
Deo Carlos: Mas, mas só uma pergunta que eu levantou isso várias vezes, agora a gente tá falando de ETL novamente, tipo, e existe algumas alternativas que você tá olhando para DBT ou a princípio a gente vai olhar eh eh a gente a princípio vai estar olhando eh como DBT para fazer isso? Você tá olhando aquele, você tinha falado sobre aqueles outros formatos, eh, tipo data form, coisa, enfim, você você você tá investigando isso?
Marcello Pontes: É,
Deo Carlos: É algo que você tá investigando, é algo que você já tem opinião,
Marcello Pontes: é, eu gosto, eu gosto do DBT. Eh, eu gosto do DBT,
Deo Carlos: é
Marcello Pontes: mas eu eu acho que assim, o para o DBT core, eu não sei quais seus qual é que vocês estão utilizando, se é o core, se é o cloud,
Deo Carlos: a Eu não sei também.
Marcello Pontes: deve ser o core. Se tu não sabe, deve ser o core. Ah,
Deo Carlos: Não, fazer seu cl.
Marcello Pontes: por ah,
Deo Carlos: Eu não, eu não.
Marcello Pontes: pode ser. Eh, mas por o usuário que não é desenvolvedor, ele dificilmente vai fazer um clone do do projeto ou desenvolver o negócio e comitar.
#
01:15:52
Marcello Pontes: a gente quer que o usuário, o desenvolvedor, o não desenvolvedor, ele seja eh tem uma interface amigável e e amigável para não pessoas que não codam. A alternativa que eu vejo para isso são coisas do tipo Hextech. Eu não olhei muito outras ferramentas, mas eh a princípio é DBT. Eu preciso ainda pesquisar outras.
Deo Carlos: Não,
Marcello Pontes: Eu andei olhando, por exemplo, alternativas aoflow que não sejam tão core, mas aí também envolve código. Eu não quero que as pessoas tenham que escrever código, mas airflow seria mais para agendamento. Tem alguns algumas alternativas que são
Deo Carlos: mas mas o próprio DBT você não você não você não usa lá para agendar os jobs e
Marcello Pontes: mais
Deo Carlos: fazer esse tipo de coisa e etc, para disparar Aí,
Marcello Pontes: não. O DBT ele executor, na verdade ele é o orquestrador. Vamos lá. Ele não é nem o orquestrador porque o ele não é não é o agendador, ele orquestra a execução do modelo, tá? E aí quem executa é, por exemplo, o BigQuery, né? Ele chama a execução no BQU.
#
01:16:55
Marcello Pontes: Mas o agendador ele é o Airflow ou ele é o Dexter? Por que que o Dexter, por exemplo, é bom? Porque o Dexter, o o DBT, o o Airflow, ele tem alinha, beleza? eh eh ferramenta qualquer, mas, por exemplo, o Flow, tu quando tu chama o agendamento, ele tem a de execução dele. Essa DEG deve tá visão,
Deo Carlos: F.
Marcello Pontes: deve deve tá visível também no ferramenta de governança de catálogo. Mas quando usa, por exemplo, uma ferramenta como Dexter, que é uma das alternativas, esse essa de execução, ela explode as dependências que vem antes do DBT e depois também. Então, tu tem uma visão única, única disso daí. Eh, mas eu sobretudo depois que tu me falou que o DBT tá recentemente eh sendo capaz de dizer que tá tudo também Python,
Deo Carlos: Ah,
Marcello Pontes: eu não olhei,
Deo Carlos: é, é.
Marcello Pontes: mas eu vou olhar.
Deo Carlos: Eu, eu, eu, eu particularmente eu usei pouco DBT. Eu usei pouco DBT com o Dexter. Eh, nunca usei o DBT com com Python, por exemplo, mas veio vi que era possível.
#
01:18:04
Deo Carlos: Mas eu eu imaginei que que eu eu imaginei que ele poderia ser capaz de agendar também e de resolver tudo isso. Então,
Marcello Pontes: O Cláudio se não me engano,
Deo Carlos: veja se a gente quio
Marcello Pontes: tá clud, se não me engano,
Deo Carlos: quê de show.
Marcello Pontes: ele trabalha com agendamento.
Deo Carlos: Mas uma coisa importante é se a gente se a gente tiver interfaces que não sejam de código para fazer as coisas, é importante que isso possa ser reproduzível, né?
Marcello Pontes: За,
Deo Carlos: Então é é importante que tipo, beleza, não tem código não,
Marcello Pontes: закри
Deo Carlos: não tem, mas a gente pega o estado que a gente tá do novo serviço e a gente consegue dar um dump disso em algum lugar e consegue carregar isso novamente, fazer isso e a gente consegue ter essa essa essa responsabilidade, né?
Marcello Pontes: até a rabilidade de mudança também. Se eu não me engano, o DBT Cloud, ele também já oferece desde o começo eh a ligação com GitHub para você trabalhar a questão de ambiente de desenvolvimento, ambiente de produção e e rastreamento de código, né? versionamento e código. Beleza? Então, rapidinho pra gente passar aqui.
#
01:19:18
Marcello Pontes: Ah, data catalog, na minha opinião, dá visibilidade aos dados junto com alguns procedimentos. Só tô lendo aqui. Ultimate to improve quality across the company. É visibilidade, transparência, bicho. Tá aqui, ó. Ó, no na fila do pão, tu é esse cara aqui, bicho. Na fila do pão, esse dados aqui, ó, ele ele é do do ele é do Dell Dell tá com um check mark vermelho aqui de de teste, entendeu? Não necessariamente punitivamente com como esse exemplo que eu dei, mas de você conseguir ver, ó, a a empresa tá se comportando assim. O existe isso aqui é fácil agora de fazer. Olha, olha aqui como tá fácil de fazer. Se eu quiser eh fazer uma um um um pipeline do começo ao fim, eu eu tenho todos os recursos aqui trabalhar em Devex, mesmo que nem todos sejam eh desenvolvedores, mas trabalhar no Devex, isso aí, entendeu? Pra gente eh encher os olhos assim, p****, que c******, que negócio que a gente não tinha agora que tá bom,
Deo Carlos: Desculpe,
Marcello Pontes: entendeu?
Deo Carlos: desculpe interromper assunto de catálogo só para voltar para em relação ao orchestrator,
#
01:20:27
Marcello Pontes: Pode ir.
Deo Carlos: só maneira super rápida, quais são as possíveis alternativas que você tava pensando? Você pensou no Dex, tem o flow, que é que é o trivial, tem o prefect. É, prefect é o que eu é o que eu usei mais.
Marcello Pontes: Prefect é bom também. Tem o próprio, como é que é? O o composo é o da é o airflow da Google. Mas como é que é o astronomer,
Deo Carlos: Você
Marcello Pontes: né? que é o fow como serviço, mas aí normalmente eh eu não quero ter que que a pessoa tem que tem que fazer desenvolvimento, entendeu? Tem que escrever Pyon. Eh, tem o o Léo tá me tá usando um agenda do da própria Google, mas o meu problema com isso é
Deo Carlos: não, você não orquestra as coisas mesmo, né? Tipo assim,
Marcello Pontes: Exato.
Deo Carlos: você não temência,
Marcello Pontes: É um é um Chrom,
Deo Carlos: tem um negocinho assim, não tem de,
Marcello Pontes: é um Chrom simples, né? Então você não trabalha em fatiar,
Deo Carlos: né?
Marcello Pontes: em fazer eh mudanças atômicas.
#
01:21:21
Marcello Pontes: você se quebrar tudo, bicho, vai ter que ir do começo, né? Entendeu? Eh, mas tem essas alternativas. Eh, eu acho que a gente eu acho que tem não é um grande problema porque não precisa, você precisa ter um uma duas coisas que a gente vai precisar ter aqui, é sincronizar com código, sincronizar o metadado daquela solução que a gente tá desenvolvendo com um repositório para gerenciar a mudança, ver quem mudou, quando mudou e porque mudou. e também trabalhar com a ferramenta de catálogo pra gente gerar a linhagem e atualizada sem precisar tá, enfim, tendo overhead engenharia para
Deo Carlos: É,
Marcello Pontes: isso.
Deo Carlos: essas duas coisas têm que tá eh funcionando juntas, né?
Marcello Pontes: Isso normalmente essas ferramentas de catálogo, elas têm diversos conectores.
Deo Carlos: Bem,
Marcello Pontes: Algumas que eu vi elas têm diversos conectores para ferramentas comum. Então, se a gente pegar ferramentas consolidadas, invariavelmente ou muito pouco, provavelmente a gente vai ter problema com
Deo Carlos: essa essa essa ferramenta de catálogos e tal do do da própria GCP,
Marcello Pontes: isso.
Deo Carlos: tipo esses esse acho que é Plex, né?
Marcello Pontes: É o dataplex. Eu eu não gosto muito do dataplex
#
01:22:35
Deo Carlos: É,
Marcello Pontes: não.
Deo Carlos: qual, qual, qual, qual que é catálogo que se você olha assim, fala assim,
Marcello Pontes: Ah, não foi que eu anotei isso? Meu Deus do céu, será que eu anotei aqui?
Deo Carlos: tipo,
Marcello Pontes: Não, não anotei não. Mas tem algumas eh p*** dia que eu anotei agora que eu queria me lembrar. Deve estar nas minhas notas.
Deo Carlos: se aí não, ó, tá vendo? o seu search uma coisa, eu não eu não eu não fui debugar aqui,
Marcello Pontes: Não tá.
Deo Carlos: mas eu tentei dar o build aqui no no eu dou com po up na documentação e eu não consegui.
Marcello Pontes: O build deu errado,
Deo Carlos: É por isso que eu não vi antes também foi
Marcello Pontes: foi? Ô bicho. Eh,
Deo Carlos: por
Marcello Pontes: enfim. Eh, deixa eu ver aqui.
Deo Carlos: depois depois você fala sem problema.
Marcello Pontes: Não, algumas algumas são o a Mund já tá muito velho. Tem o open, como é que é? Open Metadate, eu acho, ou open tem o próprio data.
#
01:23:40
Marcello Pontes: Eu tô querendo, eu tô me confundindo porque eu tô querendo me lembrar qual foi o arquivo de Deveria estar aqui, acho que sei tava aqui.
Deo Carlos: Mas isso a gente trataria como como um serviço.
Marcello Pontes: Por exemplo, esse aqui é um. Esse aqui eu acho que é o referência, tá? Se não for um
Deo Carlos: Eh,
Marcello Pontes: eh tem o Atlân que Atlanterprise deve ser caro para caramba, não tem nem modelo de prça, mas tem esse Open Metadata também que tem cloud.
Deo Carlos: todos eles eles eles jogam bem com com o GCP, né?
Marcello Pontes: Jogo, jogo. É o dat, meu Deus. p*** pariu. Vamos lá.
Deo Carlos: Mas esse daqui é uma ferramenta só de catálogo mesmo.
Marcello Pontes: Ô,
Deo Carlos: Ele não faz mais nada.
Marcello Pontes: faz,
Deo Carlos: Ele é é paraar.
Marcello Pontes: faz. Eh, vamos ver o open metade aqui, por exemplo, ele faz, tem algumas coisas que eu anotei aqui que ele faz. Na verdade, que eu o que essas ferramentas fazem, que eu acho que interessa a gente são, vamos lá, data catalog, visibilidade aos dados, eh, se possível, assistência de LLM para você conversar e saber onde é que tá alguma coisa.
#
01:25:14
Marcello Pontes: ah, governar dados automaticamente, ou seja, escanear, seja através de webhook, seja através de eh jobs proativos. eh identificar identificar eh artefatos downstream, como dashboards, por exemplo, eh fazer, não necessariamente, mas da visibilidade geral de origens, dados que a gente tá no Lake, ETL que usa para poder fazer o Lake. Eh, tu tá já a gente já passou, né?
Deo Carlos: Eh,
Marcello Pontes: e também de
Deo Carlos: Mas termina aí esse assunto. É esso para mim.
Marcello Pontes: rapidinho,
Deo Carlos: Depois a gente bateção deitar logo e a
Marcello Pontes: ó. Escaneamento de PII.
Deo Carlos: Па.
Marcello Pontes: Eh, isso aqui não, mas metadata man, master data management, às vezes tu identifica, por exemplo, tem ferramenta que é combinada com master data management. Então, eh, CPF, por exemplo, eh ele pega todas essas diferenças ao horizontalmente ao redor de de outros data sources também. Eh, data definitions. E aí pode trabalhar com ETL também. E deixa eu ver aqui que eu me lembro. É isso. Deixa eu ver. Data hub.
#
01:26:39
Deo Carlos: Não,
Marcello Pontes: Então, por
Deo Carlos: se a gente cons todos pontos, tipo, se a gente consegue ter isso, né? Tipo,
Marcello Pontes: exemplo,
Deo Carlos: você tá dando uma porrada de afor, tipo, coloque meu seu dado aqui porque ele vai ser lindo. Eh, e quem não tem dado aí, as pessoas vão falar: "Coloque lá, porque lá eu consigo usar, porque lá eu tenho AI, porque lá eu não sei o quê, porque cara, é isso, né?
Marcello Pontes: assim, ó. E tem também esquema validation. É, pode partir inclusive dessas ferramentas, tá? Então o teu esquema vai tá vai tá sedimentado lá, vai tá OK. Então a ferramenta de ETL pode, não necessariamente vai, mas pode ir lá para poder e validar esse metodado esse esquema, né? Então,
Deo Carlos: Não.
Marcello Pontes: Eh,
Deo Carlos: Mas,
Marcello Pontes: eh,
Deo Carlos: mas mas um dos pontos só, tipo, um dos pontos só é que, tipo, eh, não necessariamente todo mundo vai, a gente vai validar sempre a ingestão, porque muitas vezes, tipo, o esquema quebrou porque o formato quebrou. A gente, tipo, a nossa aplicação vai ter que ajustar isso.
#
01:27:33
Deo Carlos: A gente não vai querer não salvar o dado, a gente vai querer que, tipo, a gente salva o dado e a próxima,
Marcello Pontes: За
Deo Carlos: tipo, aquele aquele caso que o Bruno falou, eu nunca farei desse formato, né? Tipo, eu quero que eu quero quebrar a próxima próxima etapa, não é essa. Eu quero ingerir o dado com o esquema quebrado,
Marcello Pontes: Exato,
Deo Carlos: porque normalmente,
Marcello Pontes: exato,
Deo Carlos: tipo, é o mundo que mudou, não? Eh, então o
Marcello Pontes: exato. É custoso, é custoso, né? Você vai precisar assim a a no data warehouse to kit do nosso amigo Half Kimbo lá,
Deo Carlos: mundo
Marcello Pontes: que o Bruno deve ter te passado, eh, uma das grandes premissas é get rid of the origin data source as fast as possible and as quick as possible make that. E pra gente fazer isso de maneira atômica para poder se livrar. O dado daqui a gente resolve com ele aqui já, né? Então a gente não, a gente vai validar o esquema já daqui para lá. É isso. Acho que é isso que tu falou,
Deo Carlos: É, não é tipo o o o eu eu eu agora mesmo a gente a gente tem uma PI da da
#
01:28:22
Marcello Pontes: né?
Deo Carlos: da BVS que ela tá mudando o formato, tipo, eh eh a as coisas vão mudar. Eh e e tipo você não eu não quero impedir que minha ingestão desse novo
Marcello Pontes: M.
Deo Carlos: dado eh não funciona. Eu quero impedir que o consumidor que tinha esperava um formato específico, eh se ele não tiver ajustado, ele quebra. Então eu quero que ele quebre no próximo passo. Não, não,
Marcello Pontes: M.
Deo Carlos: não nesse. Mas eu só tô falando isso que, tipo, eh, então não necessariamente o o eh quem vai tá ingerindo vai estar consultando lá para vai para tá vendo se se esse negócio tá no esquema correto. Se a gente tiver um lugar que a gente tá definindo um esquima, quem for consumir esse dado, eh, é para tá usando esse esquema para entender isso,
Marcello Pontes: Exato.
Deo Carlos: né,
Marcello Pontes: Pode fazer assim ou pode fazer no próprio DBT. A gente vai precisar estabelecer o que que é menos atrito, né, pro usuário. Mas a gente pode ter, por exemplo,
Deo Carlos: По
Marcello Pontes: a visibilidade num relatório de uma ferramenta dessa aqui de como é que o esquema evolui ao longo do tempo. Isso é possível também, entendeu?
#
01:29:36
Marcello Pontes: E assim, o o mais talvez assim, não mais, mas um dos fatores importantes é o fator social, comentário, nota na coleção de dados, quem é a pessoa responsável,
Deo Carlos: um dos principais pontos que eu levantei com você,
Marcello Pontes: eh,
Deo Carlos: assim, não sei se você lembra, mas o nosso dado é uma zoeira, a gente conseguir poder eh eh ter pessoas que são responsáveis,
Marcello Pontes: Uhum.
Deo Carlos: que falam o porquê do campo, que explica isso, que documenta esse direito e e principalmente se você tiver usando isso via EI, as pessoas não vão ler, né? Tipo, as pessoas ler, mas a p**** do EAI vai, né? Então as pessoas vão escrever alguma coisa e vai falar:
Marcello Pontes: É,
Deo Carlos: "Não, não dá para ser assim porque lá tá dizendo que é assado.
Marcello Pontes: exatamente. E aí se você, p****, se você coloca um uma AI aqui no no topo de uma ferramenta que tem todo o metier, todo o procedimento aqui, ela vai te orientar. Às vezes o ser humano, invariavelmente o ser humano vai ser pior avaliando que a LLM nesse caso de de que tem que ela tem contexto,
Deo Carlos: Então aí eu só vou fazer só,
Marcello Pontes: né?
#
01:30:38
Deo Carlos: você adoram fazer provocações, eu vou fazer só uma provocação para você também, tipo uma ferramenta como Rex, ela é feita exatamente, tipo, ela tem um tem um tem um LLM lá forte, exatamente para você tá usando os seus dados. Eh, a gente vai ver ela como um consumidor desse tipo de informação e a gente consegue passar ele de maneira first class ou ou como seria, porque, tipo, talvez isso daqui não vai ser onde o usuário vai efetivamente tá no dia a dia, ninguém vai est lendo as coisas,
Marcello Pontes: M.
Deo Carlos: todo mundo vai lá e vai falar: "Eu quero tal coisa, eu quero não sei o quê e tal". Então, eh, talvez ess se a gente fosse usar um hack desse da vida, talvez grande parte, tipo, a gente não quer ficar aqui, deixa eu pesquisar uma, talvez vai se já tem uma ferramenta que eu pesquiso,
Marcello Pontes: É uma boa provocação.
Deo Carlos: que eu entendo tem outra ferramenta que eu peço e que eu gero dashboard e tem
Marcello Pontes: Não é, faz sentido. É uma boa provocação, porque o Rex, o Rex é a IDE.
Deo Carlos: Talvez.
Marcello Pontes: Eu entendo assim, o Rex é a IDE. Vamos, vamos supor que a gente bota o Rex, o Rex é a IDE, né?
#
01:31:40
Marcello Pontes: Então, o cara vai querer fazer a maior parte das coisas no na IDE. Então, eh, e aí eu vou tratar o o o nosso nossa ferramenta de governança de dados, data hubo, quem quer que seja, como o portal de documentação da pessoa. Se a gente puder oferecer sims integration, beleza, a gente precisa
Deo Carlos: Então, então vim potencialmente,
Marcello Pontes: estudar.
Deo Carlos: né, desse você quer, você quer dar f***, se quer que as pessoas falassem assim, é isso, tá ligado? É isso. Se esse tipo, se essas duas coisas conversarem, a galera chora de alegria, porque, tipo, eh, você tá lá na IDE e a IDE ela tem acesso a esse tipo de coisa, esse contexto completo, a isso daqui tudo. Aí você fala assim: "Quais são os dados que eu tenho para tal coisa?" Aí o negócio lá mostra aí,
Marcello Pontes: já mostra e mostra como fazer também,
Deo Carlos: "Aí me faz uma tabelinha,
Marcello Pontes: né?
Deo Carlos: me faz um relatório tal, eu quero um dashboard, não sei o quê". A, tipo, sério, a galera vai pirar, tipo, não é nada de outro mundo, mas é tipo, é é fazer bem feito,
Marcello Pontes: Bicho,
#
01:32:39
Deo Carlos: né? Tipo assim, é,
Marcello Pontes: a hora é a hora de a gente eh eh se
Deo Carlos: é,
Marcello Pontes: se botar o cérebro para pensar é
Deo Carlos: então,
Marcello Pontes: agora.
Deo Carlos: e aí eu só vou fazer só última provocação de a gente encerrar, mas tipo, eh, eu acho que a gente nessa primeira etapa concentrar bastante, tipo, a gente tem que ter uma boa, tipo, tem que ter bem definido mais ou menos algumas arquiteturas para começar, né, a colocar os dados no no eh eh numa numa estrutura potencialmente, na minha cabeça, eu acho que potencialmente vai fazer num org à parte ou num num num projeto à parte e tal, eh, para esse novo big query, com novo formato, com esse tipo de coisa,
Marcello Pontes: Так.
Deo Carlos: para que a gente consiga começar a colocar os primeiros dados aí dentro, fazer essas integrações e fazer muito bem esse layer, né? Tipo, a primeira etapa é a gente ter ter esse layer de tipo transformação, gestão, consumo de dados. Muito bem. Visualização de dashboards, muito bem, catálogo, muito bem. Se a gente fizer,
Marcello Pontes: Desculpa, dando cara no menino aqui. M.
Deo Carlos: se a gente tiver esse essa essa essa etapa muito boa e tipo a gente começa a usar esse e fala: "c******, isso aqui é um facilitador bizarro, isso aqui agiliza eh e tal".
#
01:34:07
Deo Carlos: Eh, existem várias outras eh quase otimizações, né? Então, sei lá, tem aquela questão de provisional, BA e etc e tal. Eh, isso eu acho que é algo que pode ficar muito mais em aberto o que exatamente vai ser feito do que a gente tentar eh eh finalizar essa essa etapa, porque essa tipo isso vai ser importante depois de a gente ter uma noção, depois das pessoas estarem usando, depois disso estar funcionando, não é o importante agora.
Marcello Pontes: Uhum.
Deo Carlos: Então a gente então a gente eh a gente acertar
Marcello Pontes: As prioridades, né?
Deo Carlos: bem em em fazer esse em dar os coisas que tem muita for para tipo se você estiver fazendo com a gente nesse formato, tudo vai ser muito mais simples. Então se a gente fizer isso, as outras coisas a gente pode fazer numa segunda etapa. E obviamente que tipo, tem algumas coisas que a gente tem que só garantir que a gente vai conseguir evoluir na minha cabeça. Então, tipo, eh,
Marcello Pontes: Sì.
Deo Carlos: na minha cabeça, né? Então, se a gente for naquela linha de a gente vai ter que ter uma observabilidade, entendeu? Os custos de cada dashboard, cada não sei o quê. As ferramentas a gente for adotar, é pra gente ver que a gente vai conseguir ter isso e tá no formato que a gente vai ver isso.
#
01:35:21
Deo Carlos: Talvez a gente não vai ter colocado lá os alertas,
Marcello Pontes: M.
Deo Carlos: não vai ter colocado criado o dashboard com tudo, não sei o quê, mas toda a informação tá lá. a gente não não fez esse lei ainda porque a gente não quis se dar o trabalho ainda porque eh a gente quis deixar isso pro segundo momento, mas eh vai ser possível chegar lá, mas um dos principais focos é fazer com que eh quem usar a ferramenta vai ter superperes.
Marcello Pontes: Exato.
Deo Carlos: a ferramenta você vai ter superperes. A ferramenta você vai ter superperes num formato que que eh a gente eh perde do final e todos esses essas otimizações e extras e etc podem ficar para segundo, terceiro e
Marcello Pontes: É,
Deo Carlos: quarta.
Marcello Pontes: eu acho que faz sentido totalmente isso aí que tu falou e a gente eh a gente precisa estabelecer quais são as prioridades e determinadas as prioridades, quais são os primeiros eh pontos que a gente vai atacar aí, lógico, usabilidade e e essa transparência, acho que deita catalog deção dos primeiros. Acho que plays a big roll there.
Deo Carlos: Tá vendo, cara? Isso. A galera vai pirar, galera. Vai, vai pirar.
Marcello Pontes: Vai, vai.
#
01:36:25
Deo Carlos: Vai ser não vai ser muito bom. Efetivamente,
Marcello Pontes: Sim,
Deo Carlos: eu acho que eu acho que tipo é uma oportunidade de tipo fazer um negócio de ouro assim que que que vai facilitar bastante. É,
Marcello Pontes: bom.
Deo Carlos: você tá animado para c******, né? Eu acho que você tá
Marcello Pontes: Tô, cara, tô animado. Eh, sobretudo depois que eu comecei a escrever tudo e botar a imagem lá da
Deo Carlos: animado.
Marcello Pontes: arquitetura com, enfim, estabelecidas essas prioridades. Quando eu comecei a olhar a parte de catálogo de dados, eu falei: "Podza, isso aqui, isso aqui vai vai ser um grande acelerador". Não é não é tudo, mas vai ser um acelerador também, sabe? É, é isso.
Deo Carlos: É. Beleza, beleza. Eh, eu acho que a gente a gente marca um um mais um follow up com com Brunão. Vai, você que sabe, né? Tipo, bem que semana, semana que vem eu não vou estar aqui,
Marcello Pontes: Eh, eu eu também não. Eu vou puxar uma conversa amanhã com o Léo, com o Léo me tentou me convidar, tentou aliar uma agenda com o pessoal do Google, mas eu não consegui também.
#
01:37:28
Marcello Pontes: Eh, eu vou tentar conversar amanhã com ele porque eu quero saber uma série de coisas que tá aqui também, dá uma alinhada com ele eh nisso daqui para saber pegar feedback dele também e vamos para cima. Eu acho que assim, eu gostaria de ter assim até no máximo metade de janeiro já ter estabelecido com vocês eh a maior parte das questões aqui de direção da primeira versão que a gente vai atacar e o que que a gente vai atacar na primeira, é passar essa visão, dar uma organizada nessa documentação que tá bagunçada aqui ainda paraa gente já de repente estabelecido um um escopo aí a gente começar a trabalhar em algumas pequenas tarefas, dar algumas eh delegar algumas coisas para pro pessoal,
Deo Carlos: Tá, eu vou eu vou eu vou só tipo assim,
Marcello Pontes: sabe?
Deo Carlos: eu vou ser zero pativo nisso, vou só jogar esse negócio. Não acho que a gente vai usar nada disso agora, mas só para você ter na cabeça também, tipo, talvez você ache interessante. Eu gosto para c******. Tipo, na na na gestora a gente tem um volume, né, da tem um volume relativamente alto de dados, assim, eh era do um estilo diferente, dado financeiro, muito tick, vários ativos, com longo de vários anos e etc, etc, etc. Eh, a gente foi evoluindo lá, eh, como a gente fazia as transformações e usava os dados e fazia as coisas e tal.
#
01:38:51
Deo Carlos: E normalmente a gente fazia isso de maneira bem incremental, exatamente para não tá tá reprocessando tudo do zero, porque é relativamente custoso, né? Eh, mas eu sempre brincava lá, tipo, eu falava assim, na minha cabeça, eh, idealmente você vai ter uma função, dado do raw e o output final. Você só tem jobs porque fazer isso é é ineficiente, é caro, é lento. Eh, então se você pudesse fazer isso, você faria, né? E até um até um belo dia que, tipo,
Marcello Pontes: Mhm.
Deo Carlos: eh, a gente eu eu experimentei, eu eu vi no outra ferramenta, não sei o que, uma referência para isso que a gente começou a experimentar de tipo usar polar para isso. E o nosso volume lá de dados não era tremendo, né?
Marcello Pontes: Ой.
Deo Carlos: eram dezenas de gigabyes assim ao todo. Eh, eh, acho que poucas centenas, na verdade, pouc pouquíssimas centenas de gigabes. Então, o que a gente fazia lá, tipo, a gente tinha tudo isso persistido no S3, mas a gente tinha uma máquina que a gente deixava isso salvo nessa máquina.
Marcello Pontes: M.
Deo Carlos: E a gente tinha uma PI de dados que a gente disponibilizava até para dar acesso para esse tipo de coisa e a gente processava praticamente tudo no momento.
#
01:40:06
Deo Carlos: No máximo, a gente tinha algumas regrazinhas ali de cash e tal, mas super simples. E tipo, o polers faz eh esse processamento eh dos dados no disco, né? Ela tipo, ela vai trazendo pra memória de maneira incremental o que é necessário, principalmente quando você passi o dado, ele consegue fazer isso de maneira superficiente. Então você fica até com a máquina que não tem nenhuma memória RAM muito alta, né? Não é tipo uma tanto, não sei o que tal, uma memória RAM relativamente baixa e você faz isso na mão e tal e enfim. Então eh era a forma como a gente fazia lá. Eh, e recentemente, eh, os caras lá disponibilizaram Pol Cloud para fazer isso, né, com escala e tal, não sei o quê. Eh, e a forma que a forma que eles não têm para para GCP ainda, só tem para WS, mas eles fazem isso normalmente, você deixa soldado, né, no no no S3, no Sbagg, nesse tipo de coisa. E eles de maneira dinâmica eles eles geraram um outro otimizador de querer para lidar com dado distribuído. Se isso precisasse feito. Ele cria as instâncias de maneira automática,
Marcello Pontes: M.
Deo Carlos: processo dado retorna o negócio e diminui.
#
01:41:21
Deo Carlos: Até onde eu vi, isso é uma solução barata, big time, rápida, big time e tal, mas enfim, é uma tecnologia específica, né?
Marcello Pontes: Uhum.
Deo Carlos: Mas enfim, eh, eu
Marcello Pontes: Se a gente fizer um paralelo, talvez é como se fosse, por exemplo,
Deo Carlos: acho
Marcello Pontes: no na WS GRU tem um no Glu tem um glu alguma coisa que ele executa spark, né? Então ele é efêmero, ele ele provisiona os DBU lá, DPU, eh, de maneira para processar dado onde quer que ele esteja de maneira distribuído
Deo Carlos: exatamente,
Marcello Pontes: também.
Deo Carlos: tipo, é exatamente isso. Eles tm até benchmarks contra isso que eles amassam bastante. um negócio efetivamente, tipo assim, enfim, a a minha minha a minha humilde experiência em relação a isso e o que eu comparei também, o que eu sofria de usar antes, usar depois, eu falei assim, tipo, essa p****
Marcello Pontes: Sabe o que que a gente fez? Não, que menino deve ter te contado.
Deo Carlos: Ja.
Marcello Pontes: Aí o pessoal fazia não que que a gente fez cientista de dado usava pandas lá para o negócio na máquina deles. Aí eu falei: "Rapaz, vem traz esse negócio para cá, a gente vai fazer um template aqui. Era código,
#
01:42:23
Marcello Pontes: né? Mas o cara botava o notebook dele lá, a gente, enfim, mandava ele pelo menos fazer um arquivo Python, né? E aí aquilo ali rodava no SS. A gente fez um uma plataforma, digamos assim, o cara clicava lá que ele rodava no SS e ele escolhia pelo menos a quantidade de RAM lá, né? Quando, mas era era scale, não era scaleouto deles que usava muito pandas. Eu não queria entrar nessa aí
Deo Carlos: É,
Marcello Pontes: ainda.
Deo Carlos: a gente a A gente a gente a gente usava pandas. A gente começou a usar pandas com tesque para paralisar um pouco mais as coisas, para esse tipo de coisa. Aí você começou a se olhar,
Marcello Pontes: Uhum.
Deo Carlos: cara, talvez ele vai ter que usar um park, vai ter que usar um Duck DB, vai ter que subir uma instância, vai ter que fazer várias coisas.
Marcello Pontes: Entrou no pol.
Deo Carlos: E um e uma das coisas legal de usaporos é porque é uma library, né? Tipo, você não sobe pân nenhuma,
Marcello Pontes: É.
Deo Carlos: você não faz nada, você usa com uma librar aí para coisas com escala bizarra, hoje você tá começando a ter esse polas cloud para você poder tá tá tá tá fazendo isso de maneira distribuída, usando vários dados, não sei o quê, tal, tal, tal, tal.
#
01:43:26
Deo Carlos: Então, tipo, a as coisas que eu fiz em crédito aqui foi muito nessa linha também, tipo, eh, uma maluquí aqui, mas, tipo, vamos pegar esses dados, vamos, eh, deixar eles cacheado aqui local, né, salvo localmente, vamos processar eles aqui, ao invés de tá usando a a a um big quer da vida para ficar processando, para ficar gerando relatório e tal. Então, tipo, os dashbox que a gente tem, a gente persiste os dados e fica processando ele, fazendo as coisas de maneira relativamente rápida. Não é que a gente vai continuar fazendo,
Marcello Pontes: Mm.
Deo Carlos: a gente vai continuar, a gente vai passar a fazer da forma como for, for for definida, né? Vai, vai uma cultura diferente e tal,
Marcello Pontes: Угу.
Deo Carlos: não sei o quê. Mas eh possivelmente, eu só tô falando tipo, possivelmente se a gente tiver eh backends, tipo icebergs mais eh genéricos e esse tipo de coisa, facilita e possibilita um pouco mais com que a gente utilize algumas outras ferramentas para que não tem integração direta com com BQU, tipo par, né, mas coisas que talvez não tenha uma integração direta com big query eh possa fazer, mas enfim,
Marcello Pontes: sentido.
#
01:44:42
Deo Carlos: potencialmente potencialmente mesmo um col da vida, eh, quando eles se eles vieram para pra GCP mesmo, que eles falam que vão ver, tem lá no tem lá zoom,
Marcello Pontes: Não tem ainda
Deo Carlos: mas eles devem integrar com com big da vida para poder fazer isso melhor.
Marcello Pontes: não.
Deo Carlos: Mas enfim,
Marcello Pontes: É, beleza. Vamos considerar essa aí.
Deo Carlos: beleza.
Marcello Pontes: Vou dar uma olhada também eh com carinho nessa questão.
Deo Carlos: Não, tô falando assim, tipo, é muito mais só tipo e eh eh quando você tá falando que você tem aquele layer otimizado no meio do caminho para ficar colocando esse tipo de coisa que ele fica com todo dado na memória e faz isso de maneira rápida e etc, etc, etc. eh talvez tem algumas outras, não sei, talvez tem algumas outras formas de você fazer isso que vai ser talvez mais rápido e mais barato também, né? Mas eu eu fazia tudo, a gente fazia, criava todas essas coisas na mão, gerava, gerenciava tudo e tal, não sei o quê, mas para um time menor, para uma realidade diferente. Eu acho que aqui eh não vou tá propondo isso. Vamos pegar ferramentas que existem, usar isso e tal e simbora.
Marcello Pontes: Tá bom, beleza. Bom, obrigado pelos inputs hoje de novo e estamos aí, velho. Vamos, eu vou dar uma progredida.**