# 005 quick sync

# [Sync] Data Platform

15 de jan. de 2026 Convidados Deo Carlos Marcello Pontes Bruno Ricardo Anexos [Sync] Data Platform Registros da reunião Transcrição

Resumo Marcello Pontes sugeriu o Google Cloud Store para armazenamento de objetos e arquivos e o Alloy DB para dados transacionais e analíticos, notando que o Cloud SQL (PostgreSQL) também é uma alternativa viável, enquanto o BigQuery não é favorável para cargas de trabalho que não são OLAP devido à latência e custo. Para aceleração de dados, Marcello Pontes propôs o Click House como alternativa de custo previsível e escalável ao BigQuery, discutindo também o alto custo de alternativas Enterprise como Snowflake e Databricks.

Marcello Pontes e Deo Carlos debateram a necessidade de rastreamento automático e explícito de custos em ferramentas de relatório como Metabase e Looker Studio, e concordaram que o RLS deve ser implementado na camada de armazenamento. Marcello Pontes propôs o Cloud Composer com Dag Factory para orquestração, mencionando alternativas como Prefect e Daxter e reconhecendo o desconforto de Deo Carlos com a falta de reprodutibilidade em ferramentas de automação gráfica como N8N, finalizando a discussão sobre transformação de dados (DBT Cloud/dbt-core) e ferramentas de governança de dados (Atlan, Atalyon, Data Hub).

Detalhes Armazenamento de Objetos e Dados Relacionais Marcello Pontes sugeriu o Google Cloud Store para armazenamento de objetos e arquivos, e o Alloy DB para casos de análise que requerem transacionalidade, como em finanças, por ser gerenciado e otimizado para superar o Cloud SQL em MySQL e PostgreSQL. Deo Carlos questionou se o Alloy DB seria apenas para casos analíticos ou também para transacionais, e Marcello Pontes confirmou que seria para alguns casos que demandam transacionalidade. A alternativa menos favorável para o relacional, segundo Marcello Pontes, seria o BigQuery devido à alta latência para cargas de trabalho que não são OLAP e o custo proibitivo em caso de alta utilização (00:00:00). Alternativas para Bases de Dados Relacionais e Aceleração Deo Carlos identificou que o PostgreSQL no Cloud SQL é uma alternativa ao Alloy DB. Marcello Pontes concordou, notando que o Alloy DB é teoricamente compatível com PostgreSQL, mas reconheceu que problemas de replicação podem surgir na implementação (00:01:30). Para a camada de DW e aceleração de dados, Marcello Pontes propôs manter o BigQuery por enquanto, enquanto realiza uma varredura para identificar mau uso, e sugeriu testar o Click House para uma prova de conceito ou MVP (00:02:34). Justificativa para o Click House e Comparação com Outras Ferramentas Marcello Pontes explicou que o Click House é específico para aceleração, com um custo não proibitivo e boa escalabilidade, contrastando com alternativas como Dremio e Starburst. Embora o Dremio seja muito rápido, ele e o Starburst são caros, e o Dremio é oferecido como infraestrutura, podendo gerar custos adicionais de gerenciamento (00:03:56). O Click House também é uma alternativa ao BigQuery para a camada gold de dados (00:07:20). Desafios de Previsibilidade de Custo do BigQuery Marcello Pontes mencionou que o maior competidor para o Click House seria o BigQuery, mas este último apresenta um problema de previsibilidade de custo. Ele observou que as execuções no BigQuery podem "vazar" para a camada inferior, elevando os custos de forma imprevisível. Deo Carlos buscou entender o uso dessas ferramentas (Click House, BigQuery) como uma interface analítica sobre os dados armazenados em buckets (00:05:07). Marcello Pontes confirmou que, ao utilizar, por exemplo, o Click House na mesma região que o GCS, o custo se concentraria no compute, permitindo escalabilidade inteligente para otimizar custos (00:06:13). Otimização de Processos vs. Camadas de Aceleração Marcello Pontes discutiu a escolha entre otimizar processos (modelagem, particionamento, clusterização no BigQuery) ou adicionar uma camada de custo previsível como o Click House. Ele defendeu que mesmo com processos otimizados, uma camada de Click House seria interessante para estabilizar o custo do BigQuery, que tende a aumentar com experimentação e criação de novos pipelines (00:08:37). Alternativas Enterprise para DW e Aceleração Marcello Pontes citou o Databricks e o Snowflake como alternativas excelentes para DW e aceleração, mas alertou sobre o alto custo Enterprise dessas ferramentas (00:09:51). Ele também mencionou a questão do vendor lock-in ser brutal no Snowflake e no Databricks, mesmo que este último ofereça um ecossistema de ferramentas de alta qualidade que pode envolver custos não transparentes, como as DBUs (00:11:09). Discussão sobre Monitoramento e Previsibilidade de Custos em Ferramentas de Relatório Marcello Pontes mencionou o Metabase e o Looker Studio (Rex) para relatórios e exploração, com o interesse em uma abordagem com o Rex (00:11:09). Deo Carlos enfatizou a importância de manter um rastreamento exato dos custos, de quem e de onde o dado está sendo usado (00:12:44). Marcello Pontes afirmou que é teoricamente possível cruzar a identidade da GCP com o uso dos artefatos do Looker para rastrear custos, mas reconheceu que isso é um controle de implementação e não uma característica pronta da ferramenta (00:14:01) (00:18:01). Rastreamento de Custos e Governança de Dados Deo Carlos expressou a preocupação de que o rastreamento de custos não seja super explícito, mas sim que exija um trabalho de investigação (00:16:49). Marcello Pontes concordou, mas indicou que a linhagem de dados mapeada do artefato até a origem ajuda a identificar quais consultas ou tabelas estão causando picos de custo no BigQuery (00:14:01). Deo Carlos destacou que a equipe precisa de um formato de implementação para que o monitoramento de custos seja automático e de maneira sã, e não apenas reativo como é atualmente (00:18:01). Escolha da Ferramenta de Visualização e Segurança em Nível de Linha (RLS) Marcello Pontes esclareceu que o Looker Studio é a versão que a UMI está usando, sendo um ponto positivo para mantê-lo por ser familiar aos usuários (00:21:22). Marcello Pontes mencionou alternativas como Spotfire e Metabase Cloud, notando que o Metabase Cloud oferece recursos interessantes como o RLS na versão Enterprise (00:23:11). Marcello Pontes e Deo Carlos concordaram que o RLS, que o PostgreSQL/Alloy DB suporta, deveria idealmente ser implementado na camada de armazenamento para que as ferramentas de BI sejam mais agnósticas (00:24:33). Orquestração com Cloud Composer e Dag Factory Marcello Pontes propôs usar o Cloud Composer, a versão gerenciada do Airflow na GCP, com o projeto Dag Factory do Astronomer para facilitar a construção de DAGs repetitivas via YAML (00:25:38). Deo Carlos questionou a verbosidade do Airflow e a necessidade de código (00:26:53). Marcello Pontes explicou que o Dag Factory atua como um wrapper para simplificar a criação de DAGs padronizadas, evitando a necessidade de desenvolver uma solução interna, o que é problemático para equipes grandes (00:29:29). Uso e Desconfortos com N8N para Orquestração Deo Carlos informou que o N8N está em uso na empresa para orquestrar alguns fluxos, incluindo LLM e tarefas padrão, através de um self-hosted pago. Marcello Pontes imaginou que sim (00:31:48). Deo Carlos expressou desconforto com o N8N devido à falta de reprodutibilidade e dificuldade em rastrear mudanças, o que é um desafio em ferramentas de automação baseadas em interfaces gráficas (00:32:50). Alternativas para Orquestração e Integração com DBT Marcello Pontes listou Astronomer, Prefect e Daxter como alternativas ao Cloud Composer, notando que Prefect e Daxter são similares e oferecem conceitos mais simples para ETL dinâmico (00:33:57) (00:35:55). Marcello Pontes confirmou que o Dag Factory é um código aberto que atua como um construtor de DAGs, lendo YAMLs e construindo o objeto DAG internamente no Cloud Composer (00:34:53). Marcello Pontes e Deo Carlos discutiram como estruturar o repositório para incluir tanto modelos DBT quanto tarefas em Python, garantindo um formato canônico de execução (00:38:05). Transformação de Dados: DBT Cloud vs. Ferramentas Autogerenciadas Marcello Pontes considerou o DBT Cloud por sua interface, facilidade para usuários não-desenvolvedores e recursos de documentação/linhagem (00:40:14). Deo Carlos questionou a justificativa de facilitar transformações de dados via interface, sugerindo que isso pode levar à perda de propriedades importantes (00:41:19). Marcello Pontes concordou que o DBT Cloud é caro ($100 por usuário por mês para o plano starter) e não seria viável pagar para todos os usuários não-engenheiros acessarem (00:43:36). Camada Semântica e Governança de Dados Marcello Pontes mencionou o dbt-core como alternativa ao DBT Cloud, que é compatível com DBT, mas exclusivo do BigQuery e usa JavaScript para templating (00:40:14). Marcello Pontes e Deo Carlos discutiram o recurso de camada semântica do DBT, sendo que a diretoria gostaria de funcionalidades como consultar inadimplência por varejo via interface. Marcello Pontes se comprometeu a verificar como consumir uma camada semântica de uma ferramenta de governança de dados via pool (00:44:36). Considerações sobre Ferramentas de Governança de Dados Marcello Pontes indicou que a seção de governança de dados é a última a ser detalhada, mas mencionou ferramentas como Atlan, Atalyon e Data World, que aparecem no quadrante mágico da Gartner. Ele destacou que o Data Hub é open source e que, se for proposto um self-hosting, ele garantiria toda a instrumentação de infraestrutura necessária, incluindo detecção de vulnerabilidades e processo de backup/upgrade, para evitar problemas como o ocorrido com o Metabase (00:45:37). Deo Carlos ressaltou que, se a ferramenta não for self-hosted, deve-se entender o nível de dependência e se a camada de governança é crítica (00:47:54). Agendamento da Próxima Reunião Foi acordado que Marcello Pontes enviará um convite para a próxima reunião na segunda-feira, a partir das 3:30 da tarde para Deo Carlos (7:30 para Marcello Pontes), sendo agendado para 4 da tarde (00:47:54).

Próximas etapas sugeridas Marcello Pontes perguntará ao pessoal da Google sobre a questão de preço do Looker na reunião da semana que vem. Marcello Pontes descobrirá como ter a camada semantic layer sem a necessidade de usar o DBT Cloud. Marcello Pontes detalhará a parte de governança de dados e dará uma olhada melhor no pricing.

# [Sync] Data Platform - Transcrição

# 00:00:00

Marcello Pontes: cabe muita não não fiz muito devan aqui porque as alternativas são poucas e para alguns casos só, né? Então, eh, para objects e file storage, Google Cloud Store. Ah, mais aqui paraa frente, para base relacional, eh, eu acho que a gente, potencialmente, pelo que eu ouvi de tu e também de alguns outros casos que o Bruno mencionou, também vai precisar introduzir aí eh um aloy DB para casos de analytics. Hum. E a sugestão é do Lid B, porque ele é gerenciado, ele é altamente eh otimizado pela Google justamente para poder eh se sobressair ao Cloud SQL, né, que são as ofertas de de MySQL, de POSCress. Eh, a alternativa para isso, que a alternativa ruim é o big query, né, que tem uma latência alta para casos que não são necessariamente olap e também custo proibitivo quando você tem uma uma usada, uma utilização alta para isso aí,
Deo Carlos: Então,
Marcello Pontes: certo?
Deo Carlos: mas você tá colocando aqui o o Aloy DB para casos analíticos, né? Não simplesmente para ou para casos transacionais também ou para consultas ou para
Marcello Pontes: para alguns casos que que demandam transacionalidade.
Deo Carlos: replicar.
Marcello Pontes: Aí assim, é aquele negócio, eu vou ter que escutar de, por exemplo, caso de fins, caso de fins eu escutei que provavelmente ele vai ter que estar uma camada de, por exemplo, ETL inverso ou para aqueles casos em que o pessoal usa para selecionar poucas linhas,

# 00:01:30

Marcello Pontes: por exemplo, de um de um ah big query, que para isso um banco relacional é muito mais eh capaz, né? Beleza? Ahã.
Deo Carlos: Beleza.
Marcello Pontes: Mais para frente a parte de aceleração. Eh, aqui um pouco
Deo Carlos: Não, aqui que só uma coisa, você colocou aqui a alternativa Big Query,
Marcello Pontes: mais
Deo Carlos: a outra alternativa é o próprio Puscis, né? Tipo,
Marcello Pontes: o próprio Cláudio SQL com PES lá rodando, né?
Deo Carlos: é,
Marcello Pontes: Managed.
Deo Carlos: é o próprio o próprio Manage P is que é o que mais se usa e
Marcello Pontes: Exato.
Deo Carlos: que o Aloy DB a princípio é para ser bem compatível com P, né? As.
Marcello Pontes: Exato. Aí a gente pode pode eh durante a implementação descobrir que tem algum problema, por exemplo, de replicação, não ser tão compatível com a replicação. A gente vai ter que ver. Teoricamente é, mas aí o o diabo mora nos detalhes, né? Eh, aí paraa camada de eh DW e aceleração D tem tem duas dois tipos de ferramentas aqui, né?

# 00:02:34

Marcello Pontes: Então, BQU permanece por enquanto. Eh, agora a gente vai fazer, como eu te disse, aquela varredura para ver o que que tá sendo mal utilizado. Eh, isso aí só pro primeiro momento. E para um primeiro momento, para um um uma prova de conceito ou MVP, eu gostaria de testar o Click House aqui. Aí eu justifico, tá? Eh,
Deo Carlos: Mas se for isso,
Marcello Pontes: algumas alternativas que Sim,
Deo Carlos: só coloca assim, tipo, experimenta alguma coisa, alguma alguma tag, né, para deixar claro que, tipo,
Marcello Pontes: sim.
Deo Carlos: você não está propondo necessariamente que a gente deveria adotar ock, mas tá propondo que a gente deveria experimentar em adotar para ver Sì. Ah.
Marcello Pontes: Ops. Pronto. Eh, então por que porque o Click House aí vai muito do de quais são as alternativas. Tem algumas alternativas como Dremio Starbrust, por exemplo, que eles são camadas de aceleração. Ele pluga, pode plugar um bocado de coisa, mas o o principal que ele que ele gosta de plugar é no é em cloud em cloud store, em object, tá? É tipo como se fosse um bigquare da vida, sendo que tu em vez de pagar pelo por dado escaneado, tu paga pelas instâncias que vai rodar esse essa essa máquina lá.

# 00:03:56

Marcello Pontes: Então eles são muito bons. A gente já usou o drêm no passado, é absurdamente rápido. Ele trabalha não só com, ele também trabalha com uma camada de federação de dados e tal, mas eh ele oferece mais coisas ao redor de si, como por exemplo, uma camada semântica, camada de federação de dados também, mas eh ele eh eh o o preço
Deo Carlos: M. Ah.
Marcello Pontes: dele é muito alto pro que pro que a gente vai eh precisar utilizar aqui, entendeu? Tem a questão do curso e a questão também de o Starburst e o Dremmio. O Drammio, pior ainda, porque o Drammi eh, ele ele é oferecido como infraestrutura, então potencialmente pode vazar alguma coisa de de custo de de pessoal de infraestrutura pra gente gerenciar. a gente não quer isso. Eh, o Starbrust é muito bom também, mas ele e ele tem essa questão de cloud, mas ele é um pouco mais caro. Em contrapartida, o Clinckhaus ele é especificamente para esse problema de aceleração. O preço dele, o custo dele não é proibitivo. Ele consegue escalar muito bem com relação à quantidade de luz que a gente tem.

# 00:05:07

Marcello Pontes: E o o maior competidor entre o o Click House, por exemplo, para essa camada seria o B. Eh, eu gostaria muito de adotar o Bend, mas tem uma questão que é de previsibilidade. O B, ele não consegue ter uma previsibilidade de custo muito alta. Se a gente, por exemplo, ah, eu quero jogar só, digamos, esse esquema aqui, que sei lá, tem 10 tabelas, eu quero jogar só isso aqui no Bind, eu tenho que fazer um monte de cálculo para poder ver o qual é o tamanho e dessas tabelas e o que que vai eh caber no Bind. E ainda assim é possível de que esse esse essas execuções vazem paraa camada inferior do bigquery. E aí traria de de volta aquela questão
Deo Carlos: Só para entender, como é como como eu nunca usei elas,
Marcello Pontes: Так.
Deo Carlos: você vai est usando elas como se fosse tipo um duck DB, alguma coisa do tipo, tipo, vai ser uma camada, vai ser uma interface analítica que eu vou estar fazendo com ele lá,
Marcello Pontes: بس
Deo Carlos: que ele vai estar usando o back endos que existem do do storage para ficar computando isso e sendo mais barato. É isso. É tipo,
Marcello Pontes: Eh, Eh

# 00:06:13

Deo Carlos: se se os dados estão e no final das armazenadas em buckets, em parquê, passionados e tal, não sei o quê, ele vai est olhando para esse mesmo backend de dados que o Big Query estaria olhando, só que vai tá fazendo esse esse comput de uma forma diferente, possivelmente com custo mais rápido, etc. É isso.
Marcello Pontes: Isso, isso. Eh, tem pelo menos duas maneiras que são pra gente relevantes aqui, que o Bira armazena dados. É interno, né? Você faz um, por exemplo, create table s, select asterisc tabela A, ele vai armazenar armazenar isso de qualquer forma interna. Ele não expõe quais são, por exemplo, os parque disso aí. Tem outra maneira que a gente pode criar a tabela e expondo esses parquê. Então, eh, imagina que você tem uma coleção de parquês aqui que forma a tabela de fato cobrança, né? Então, a você tem a fato cobrança no BQU, ele usa a o compute do BQU e a gente vai plugar nisso daqui e vai, eh, jogar esses dados em memória, enfim, e como vai ter vai tá na na mesma região potencialmente, a gente não vai pagar tráfego de dados entre o GCS e essa instância, entendeu?

# 00:07:20

Marcello Pontes: Então, o custo vai ser de compute, vai ser de de eh comput e aí você pode fazer eh de maneira inteligente para isso escalar para cima durante o dia, durante o maior uso e escalar e escalar para baixo à noite, se for relevante também eh diminuir esse curso, se não tiver valendo a pena, né? Eh, então acho que esse é esse é uma é uma um experimento que seria bastante interessante de a gente observar. Click House ele é muito utilizado aí por, enfim, como alternativa Big Query, né? Não, não é não é só assim indústria fora que eu tô dizendo. Eh, e aí tem outros conteers
Deo Carlos: Mas só para Mas só para esclarecer, tipo,
Marcello Pontes: aí?
Deo Carlos: você tá propondo esse esse click house para ser uma alternativa mais que no final vai acabar sendo mais barato. Você imagina
Marcello Pontes: Isso para aqueles dados.
Deo Carlos: isso?
Marcello Pontes: Eh, e aí eu tô propondo click house paraa camada gold, né? para aqueles dados que vão estar plugados lá no no relatório. Se eu, por exemplo, precisar tiver disponibilizando isso aí para uma quantidade razoável de usuários e esses usuários usam bastante e essas queries eh constantemente hoje, por exemplo, batem no big query e demanda muito custo porque é muito dado escaneado.

# 00:08:37

Marcello Pontes: Opa. Uma alternativa que eu tenho é agregar isso, seria mais o mais esperto. Ah, agora é aquela questão, né? Eu eu dou mais computador ou eu otimizo o processo. Otimizar o processo seria a gente fazer uma modelagem legal, eh fazer eh eh particionamento, clusterização, fazer isso daí dentro do BQU, que demanda também pessoa, né? é curso de pessoa de engenharia de dados, de tá parând aí para poder fazer isso.
Deo Carlos: Так.
Marcello Pontes: Ou eu jogo uma camada previsível de custo por cima e aquele negócio fica mais ou menos controlado, né? A gente tem ali um um overhead de compute, mas em compensação eh a performance é boa e eu tenho um custo controlado, né? Eh eh eu acho que em todo caso, menos mesmo a gente tendo, eh, essa essa essa, por exemplo, numa num ambiente em que a gente tivesse tudo controlado com clusterização, particionamento de tabela, modelagem legal, mesmo assim ainda é interessante ter um uma camada de click house na frente para poder a gente eh dar uma estabilizada no custo bquer, porque ele tende a tende a a criar as pipes, por exemplo, quando eh coisas novas são criadas. quando o pessoal tá experimentando, né?

# 00:09:51

Marcello Pontes: Então é isso. Eh, a alternativa para isso seria data bricks flake, né, que assim são ferramentas excelentes para para essa questão, não só de DW, mas para de aceleração também, mas eles têm uma série de outras coisas ao redor que podem encarecer bastante o custo. É lógico, a gente poderia eh, por exemplo, capar um bocado de outra ferramenta aqui que a gente tá prevendo, mas eh eu tenho até que pedir pro Bruno se ele conversou só com aquele parceiro dele lá que ele falou uma vez que ia ver como é que tá o curso de de data bricks, mas via de regra é isso.
Deo Carlos: bastante data bricks barra snowfakes e você já usou
Marcello Pontes: Desculpa data bricks,
Deo Carlos: bastante esses caras
Marcello Pontes: principalmente snowflake.
Deo Carlos: Oh.
Marcello Pontes: Só alguns parceiros, alguma, algum pessoal que a gente trabalhou aqui já usou o Snowflake, mas o grande o grande é norteador da minha percepção, principalmente de Snowflake, Delta Bricks nem tanto, a gente já trabalhou diretamente com Data Bricks, mas Snowflake e de algumas ferramentas que eu vou te mostrar mais à frente, é o custo Enterprise, né? Então começa ali $50.000 por ano pro cara querer conversar contigo, entendeu? Então é paraa Enterprise mesmo e às vezes não vale tanto a pena, nem para eles, nem pra gente.

# 00:11:09

Deo Carlos: E o loin é brutal, né?
Marcello Pontes: Oi.
Deo Carlos: O loquin deles tende a ser brutal assim, né?
Marcello Pontes: O bloquinho é brutal.
Deo Carlos: Tipo, você começa,
Marcello Pontes: D mes
Deo Carlos: você começa ser engolido e o que ele eles cobram o que querem, porque para você sair o custo sempre acaba sendo mais alto ainda,
Marcello Pontes: é exato.
Deo Carlos: né?
Marcello Pontes: O lockin do Snowflake é muito por por questão de Enterprise, Lobby. A ferramenta realmente muito boa. E o do data bricks, embora você começa, consiga começar mais baixo no no no custo, eh, ele tem um um ecossistema de ferramentas muito bom. Então é muito, ele vai te apaixonar muito pela qualidade da ferramenta e assim, tu vai ser pego em situações em que tu para gastar, por exemplo, alguma coisa de computação lá, tu vai ter que comprar aquelas DBUs que não são nada transparente assim, tu vai ter que pagar não só a licença deles, que é via DBU ou DPU, mas também o custo da infraestrutura que roda por baixo, né? Se tu tiver eh rodando isso aí na cloud. E então é é meio jogo meio duro deles. Ah, para reporting exploration eu deixaria eh alguma, é lógico que a gente vai ter que deixar, a gente vai ter que atacar algumas coisas agora do do dos problemas que a gente vai atacar primeiro de fins, por exemplo, a gente vai deixar o que tiver rodando pro lado, mas o que o que a gente puder deixar no metabase, se não tiver coisa lá do de Finops, a gente já traria.

# 00:12:44

Marcello Pontes: E eu gostaria de fazer uma abordagem legal com X. né? Porque em comparação com essas outras
Deo Carlos: Mas, mas só uma coisa, tipo, só uma coisa, tipo, tinha algumas propriedades que a gente tinha levantado no passado que era super importante a gente conseguir manter, né? Tipo, a gente quer conseguir ter o track exato de quem tá usando, de onde tá sendo usado e para ter o track do custo para poder ter uma claridade. Exatamente. Tipo, eh, isso aqui tá custando tanto por isso, isso, isso, isso, isso. Eu acho que o look a gente vai conseguir ter a princípio é para conseguir ter todo esse track, né, dentro da GCP. Se a gente montar os dashboards com com com o as configurações corretas, é para conseguir ter esse track. O RS, a gente consegue também ter algum track em relação a o custo que a gente tá tendo, de quem, da onde, por quê? O ou não, como é que seria?
Marcello Pontes: A princípio você consegue por por eh você tá usando eh a mesma identidade eh do usuário, né? Então, eh questão do usuário relacionado ao artefato, eu vou precisar dar uma estudada mais profundamente. Não foi não foi objeto de decisão da eh com relação ao Rex.

# 00:14:01

Marcello Pontes: Eu vou te falar sobre o que foi que me ajudou a decidir o Rex, mas via de regra, eh se você usar, por exemplo, eh algumas views, se você utilizar a questão da governança de dados também para poder ver quais artefatos do Rex estão sendo utilizados por quais usuários, dada aquele cruzamento de identidade da GCP, então a gente teoricamente teria como fazer esse esse cruzamento e ver a questão de custo e custo e restaurabilidade. Eh,
Deo Carlos: Não, mas mas o bom dizer,
Marcello Pontes: Ja.
Deo Carlos: tipo, eh, eu montei um dashboard, disponibilizei ele, publiquei, as pessoas estão usando. Se esse dashboard tiver explodindo o custo, a gente vai conseguir ver que esse dashboard, exatamente tá explodindo o custo. a gente vai conseguir só ver tipo que alguma coisa que o Dell criou tá expindo no custo
Marcello Pontes: É, consegue, consegue.
Deo Carlos: vai tipo não, eh, esse curso vai est espalhado em todos os usuários que estão acessando aquele dado e tá locado naquilo, onde tá locado esse custo e como a gente consegue efetivamente tipo depois
Marcello Pontes: Consegue, consegue porque eh toda todo artefato ele vai tá mapeado na linhagem de dados, desde a origem até os dashboards, entendeu?
Deo Carlos: Não, o artefato pode estar mapeado, mas tipo que a gente tá tendo um tipo a gente tá tá usando um artefato, ele tá gerando um custo.

# 00:15:35

Deo Carlos: Você tá falando é tipo, isso não vai estar mapeado na camada do Rex, vai est na camada de quem está consumindo aquele dado. É tipo isso.
Marcello Pontes: vai tá na camada de assim, ó. Eh, o que que a gente, o que que vai ser o gatilho disso? Vai ser eh, um custo, por exemplo, excessivo no bigquery. E a gente, se for se for acessado no BigQuery, por exemplo, se tu tiver falando custo que tá plugado lá, por exemplo, no no Click House, por exemplo, só para dar um exemplo de ferramenta, eh não vai explodir porque o custo é fixo lá. Você concorda comigo? Mas se bater no bigquer e começar a explodir e isso tiver sendo utilizado eh a partir do do como é que se diz? do Rex, a gente vai ter como mapear qual vai ser, qual é, por exemplo, a querer que tá ou qu qual quais são as queres, quais são as tabelas que tão eh fazendo esse curso explodir. Eh, através da query a gente consegue ver,
Deo Carlos: Não,
Marcello Pontes: por exemplo, quais são eh as coleções de dados, quem é que gerencia aquelas coleções de dados, né?
Deo Carlos: então, então, mas o que você tá falando de p a gente pode fazer um trabalho de investigação que pode apontar para onde tá isso, mas não vai ser algo que vai ser super explícito.

# 00:16:49

Deo Carlos: Ó, tá aqui, a gente sabe quanto esse dashboard custa e a gente sabe quanto aquele outro dashboard custa. A gente não vai conseguir ter esse tipo de informação,
Marcello Pontes: Não,
Deo Carlos: né?
Marcello Pontes: eu acho que eu acho difícil eu acho difícil ter uma ferramenta que ofereça isso aí eh pronto, mas isso é algo que pode ser construído, D. Então, na medida em que a gente tenha, por exemplo, eh é um negócio que infra vai ter que monitorar, né? Ou então dados, tá? Então,
Deo Carlos: Não, mas tipo, se se a gente nenhum deles tem isso, tipo assim, obviamente 100% das vezes, sempre que você quiser, mas sei lá, tipo, se quando a gente tá montando uma coisa no GCP, a gente sempre pode estar usando um service account lá específico para ele.
Marcello Pontes: Угуm.
Deo Carlos: E esse servão tá ligado à aquele dashboard e o custo tá locado nisso e a gente consegue visualizar assim e a gente tem um padrão que a gente consegue fazer isso, beleza? OK. Então, a gente tem um formato que a gente consegue seguir e a gente seguindo nesse formato, esse tracking de custos fica automático. Mas se a gente falar assim, tipo, eh, a gente vai fazer do jeito que for e quando der algum problema a gente vai investigar e ver da onde essas coisas estão vindo, provavelmente isso é o mundo que a gente tá hoje, que é o mundo que a gente não queria continuar estando, né?

# 00:18:01

Deo Carlos: a gente queria ter um ter uma forma, não tipo assim, não precisa ser com todas as propriedades do planeta, mas de alguma forma se a gente tá dando liberdade para as pessoas estarem consumindo, a gente precisa ter uma forma de est monitorando esse custo que está acontecendo, né? monitorando assim de uma forma sana, que eh de maneira relativamente simples, a gente tem uma visão assim de tipo isso aqui custa tanto,
Marcello Pontes: Eh,
Deo Carlos: isso custa tanto, isso aqui tá tá do budget e a gente tem que olhar se divulgar o big query tá
Marcello Pontes: ó, o que tá o que tu tá
Deo Carlos: acima do budget.
Marcello Pontes: descrevendo?
Deo Carlos: Agora a gente vai descobrir quem tá chamando o big query, quem aí eu acho que é uma coisa é é o que acontece hoje,
Marcello Pontes: Não,
Deo Carlos: né? Tipo assim, o bigqu tá caro,
Marcello Pontes: tá.
Deo Carlos: vamos investigar porque o bigquer tá caro, não é?
Marcello Pontes: Ó, o que tu tá descrevendo não é uma característica de ferramenta, é uma característica de implementação nossa, é um controle que a gente vai querer adicionar em cima da implementação. Perfeito. Perfeito.
Deo Carlos: Não,
Marcello Pontes: A gente

# 00:19:00

Deo Carlos: assim, mas a gente a gente tem que ter a gente tem que ter uma a gente tem que ter um formato onde a gente consiga ter esse controle,
Marcello Pontes: pode
Deo Carlos: né? E falar assim, tipo, tem que ser feito nesse formato e vai ter o controle, tipo, você vai ter liberdade de fazer do jeito que você quiser, mas nesse formato que aí vai dar eh a facilidade de monitoramento, né? Não é, você tem a liberdade de fazer de qualquer jeito, né? Você tem liberdade de fazer
Marcello Pontes: sim, sim,
Deo Carlos: M.
Marcello Pontes: sim. E isso aí assim e dentro da escolha do das ferramentas que a gente tá posicionando aqui, isso é isso é possível, né? Eh, seja qual for a ferramenta, a camada de de dado que ou de eh de armazenamento que a gente vai colocar aqui, eh é mais uma questão de eh fins da gente controlar exatamente isso daí, né? É, pra gente ver como é, enfim, fazer como eu anotei aqui, o controle de custo, controle vertical de custo, ou seja, da orig assim de quem tá originando até quem vai ehonde tá esse custo tá desaguando, né? Não só no Bigquer, mas às vezes isso infere em custo também de rede, enfim.

# 00:20:05

Deo Carlos: Então, mas um o ponto talvez você tá levantando aqui é que para você tá claro que a gente vai conseguir fazer isso via Rex ou via Luker ou via vai tá claro que isso vai ser possível assim ter isso eh tá claro para você ou você acredita que é possível só que ainda não sabe exatamente
Marcello Pontes: ã não saber exatamente como é muito forte. Eu sei uma maneira que dá para fazer, tá? Eh, eu não sei 100% o caminho das pedras, mas eu sei que dá para fazer e eu sei que dá para implementar. Não é nada do outro mundo não. Beleza.
Deo Carlos: OK, só responder uma coisa
Marcello Pontes: OK. Ah,
Deo Carlos: aqui.
Marcello Pontes: Del, só uma coisinha. Eh, quando for, quando for sete, eu vou precisar sair que minha esposa vai pra academia, aí eu vou ter que cuidar dos meninos aqui, tá? Tranquilo.
Deo Carlos: Tranquilo.
Marcello Pontes: Quer dizer, sete é daqui a 27 minutos para mim.
Deo Carlos: Não. Sim, sim. Aí, eu tinha eu tinha a princípio, tinha outra reunião agora também, mas eu isso que eu tava respondendo aqui que eu que eu sigo depois disso.
Marcello Pontes: Tá

# 00:21:22

Deo Carlos: Vamos terminar aqui que o resultado,
Marcello Pontes: bom.
Deo Carlos: aí depois eu também não ia conseguir não. 3 horas da tarde
Marcello Pontes: Beleza. Só uma dúvida,
Deo Carlos: aqui
Marcello Pontes: vocês têm o Luc Studio ou é o Luer outra versão que não Luer Studio aí na na UMI?
Deo Carlos: é o look mais simples, né? Que eu acho que é o é não,
Marcello Pontes: É o ST, eu acho, né?
Deo Carlos: acho que é o pro. Eu acho que o estudo é o mais não sei,
Marcello Pontes: Entendi. O estúdio.
Deo Carlos: deixa eu eu particularmente eu eu particularmente
Marcello Pontes: Eu não, eu eu vocês vocês pagam licença para ele,
Deo Carlos: nunca eu acho que não,
Marcello Pontes: não paga.
Deo Carlos: eu acho que é o que não paga a licença atual,
Marcello Pontes: Ah,
Deo Carlos: mas a gente pode passar a pagar sempre, tipo assim, o pessoal usa muito look.
Marcello Pontes: tá.
Deo Carlos: Deixa eu ver aqui. Eu acho não. O link tá aqui que o pessoal usa. É um look studio mesmo.
Marcello Pontes: Tá. O,
Deo Carlos: O nome chama Leres estoso,

# 00:22:07

Marcello Pontes: é porque historicamente eu conheço,
Deo Carlos: mas não sei.
Marcello Pontes: eh, historicamente o Lucas, o Luca, ele também é muito conhecido como ferramentas que nem tablô e são muito caros, mas tem que ver, né, qual é que seria o custo. Se vocês puderem, aliás, a gente vai ter uma reunião com a Google semana que vem, eu posso perguntar isso aí pro pessoal também, questão de preço, seria uma coisa interessante, sabe?
Deo Carlos: É,
Marcello Pontes: Enfim,
Deo Carlos: o look uma uma única uma das vantagens do de manter o look é porque o pessoal conhece o look, né? Eu não conheço, mas o pessoal conhece, muita gente já usa, eh, muita gente gosta dos acessos e tal. Então, com a com algumas coisas aqui na empresa de tipo todas as áreas, tá? Tem ter algumas métricas, não sei o que e tal, praticamente todo mundo subiu isso no look e tal. Então, dá um bom suporte ao Looker, né? Não é tipo, vai manter o look exatamente como está, não é? Tipo, vai vamos manter o luker, mas vamos dar um bom suporte, exatamente para a gente conseguir ter esse controle de maneira natural, né? Não vai ser assim, tipo, ah, o custo tá alto, vamos procurar, não.

# 00:23:11

Deo Carlos: Tipo, a gente tem um relatório de custo, a gente acompanha isso e a gente consegue atacar eh qualquer ofensor de maneira quando ele aparece, né? Não é tipo assim,
Marcello Pontes: Mhm.
Deo Carlos: então se a gente talvez com o Luk vai ser trivial fazer isso ou talvez já até tenha e e só não a gente só não não esteja usando esse tipo de coisa tão correta quanto deveria, mas enfim. Eh, o único ponto é tipo,
Marcello Pontes: Tá,
Deo Carlos: parece que manter o looker e usar isso direitinho eh pro pessoal vai ser importante.
Marcello Pontes: tá beleza. Eh, outras alternativas também, FPOT, muito bom. Luca, tablou e Power FBI. PowerBI eu já eu já eu sei que vocês também 30 ressalv tem 30 ressalvas, eu tenho uns 80 ressalvas também. Eh, então o que que eu olhei foi mais de tot spots que assim todas essas ferramentas não tão muito caras, você paga por editor, né? Você paga por uma pessoa editora e aí eh no caso o tem um tem um Metabase Cloud também que tem uma oferta ã que é por usuário também, né? Não sei se vale a pena. Eh, tem algumas coisas legais, por exemplo, mas começa com 12 por usuário pagando anualmente.

# 00:24:33

Marcello Pontes: Aí já já é, mas tem umas coisas legais como o row level security, né, que você consegue na Enterprise. Eh, então, por exemplo, se eu tiver acesso um um dado, por exemplo, de tenant, isso aí seria interessante para poder colocar numa numa coisa numa ferramenta dessa, você poderia desenvolver um relatório com row level security e aí dá um relatório pros tenants. Aí cada um só ia ver o dado do seu tênis, né?
Deo Carlos: É, e e esse RLS é algo que que o Push GRZ barra,
Marcello Pontes: Uma
Deo Carlos: acho que o Aloy DB também tem. É, isso pode estar numa camada de cima, não necessariamente estaria dentro dessa camada, né? Então, tipo assim, isso vai,
Marcello Pontes: é
Deo Carlos: isso isso o BI já estaria consumindo esse tipo de coisa. eh, vindo com esse com esse com isso e
Marcello Pontes: do Aloia. a camada do camada de armazenamento justo.
Deo Carlos: antes é idealmente,
Marcello Pontes: Eh,
Deo Carlos: né? até porque a gente, enfim, é uma coisa bem sensível e que, tipo, se a gente conseguir fazer isso dentro dessa camada de trás, a gente pode ser mais agnóstico em relação a a camadas de eh as camadas que vem que

# 00:25:38

Marcello Pontes: É o que que vem à frente.
Deo Carlos: vem na frente, porque isso tá lidado de uma maneira eh numa camada que é mais estável, né, digamos assim, né?
Marcello Pontes: Uhum.
Deo Carlos: nossa camada de história deve variar bem menos do que nossa camada de visualização de dados ou coisa do tipo.
Marcello Pontes: É, nem tão assim mais agnóstico, mas nem tanto assim, porque até o driver de que vai usar ser utilizado nessas ferramentas de, por exemplo, eh Metabase Rex, tem que ter tem eh ser compatível com RLS, com identidade, né? Rend Federation também.
Deo Carlos: Sì, sì, sì,
Marcello Pontes: Beleza. Bom,
Deo Carlos: sì.
Marcello Pontes: eh, orquestração. Ah, eu começaria com o Cloud Composer. E aí tem uma um projeto que eu achei que chama o Dag Factory, que é do astronomer. Astronomer é o a versão e cloud do Airflow, né? Então esse deck factory ele te habilita a construir eh de expressa por Yamel, parecido com o que a gente viu lá no casa, por exemplo, que tu mostrou para mim, né? Então esse de factory aqui, então a gente poderia ter um facilitador aí para construção de ideia que é repetitiva.

# 00:26:53

Deo Carlos: esse cloud composer, ele ele
Marcello Pontes: Cloud composer é o é o airflow gerenciado da GCP.
Deo Carlos: Sim.
Marcello Pontes: Então, eh,
Deo Carlos: Eh,
Marcello Pontes: Да.
Deo Carlos: você você tava você tava, até onde eu lembro assim, você era meio reticente também usar o porque ele era muito verboso, ia precisar de código. Eh, e a e essa orquestração aqui é exatamente para você orquestrar eh o próprio DBT, não,
Marcello Pontes: para orquestrar o para orquestrar o próprio DBT,
Deo Carlos: o DBT vai ter uma outra camada para isso.
Marcello Pontes: né?
Deo Carlos: O DBT também, o DBT vai ser, tipo,
Marcello Pontes: Isso.
Deo Carlos: a vai poder ter tesques que potencialmente não estariam usando DBT,
Marcello Pontes: Exato.
Deo Carlos: mas o próprio DBT ele vai estar sendo orquestrado via Airfow no Cloud Composer.
Marcello Pontes: Exato.
Deo Carlos: É, idealmente tudo vai ser seria feito via IMEM ou ou IMEM é só uma alternativazinha,
Marcello Pontes: E é uma alternativa.
Deo Carlos: mas geral
Marcello Pontes: alternativa assim, eh, como a gente fazia na case, por exemplo, eh, a gente fazia muita, muito, muito do que você vai, eu imagino que muito do que você vai fazer na também é muito padronizado, você não vai ter muito muita deck diferente, muito tipo de tesque diferente.

# 00:28:18

Marcello Pontes: Você vai pegar dado tipicamente de, sei lá, alguns inputs conhecidos, você vai fazer alguns e assim, as transformações são diferentes, elas vão mudar muito intensivo, cada um vai criar, sei lá, uma função Python ou uma função em em alguma outra linguagem que seja eh familiar. E você vai fazer, sei lá, algumas transformações via DBT. DBT suporta Python também, de uma maneira opinionada, mas eh suporta eh ou SQL, né? Eh, e esses dados eles vão para algumas destinos conhecidos também, seja Aloy, seja BQU, seja qualquer outro lugar. Então, por mais que o o o Airflow ele ofereça essa capacidade, essa flexibilidade, sobretudo de você orquestrar processos que são diferentes. Por exemplo, depois de um DBT, eu vou querer rodar um modelo aqui, né? Então, eh, essas maneiras diferentes, o que eu normalmente sugiro é que é que a gente crie uma plataforma por cima para poder facilitar fazer essas coisas diferentes. É um wpper, né? A, às vezes a gente cria o
Deo Carlos: Então, mas esse deck factory,
Marcello Pontes: rap
Deo Carlos: esse deck factory você não imagina que ele serve para isso, não. Você acha que ele ele ainda seria bom ter uma ter uma camada

# 00:29:29

Marcello Pontes: serve ele, não é? O de factor ele serve para isso, né? Ele serve para poder ser esse wapper.
Deo Carlos: nossa?
Marcello Pontes: Então, em vez de a gente gastar tempo de LO para fazer esse wrapper que eu tô descrevendo, o de factory seria isso.
Deo Carlos: Eu sou um cara que eu que eu que eu vivi minha vida toda só inventando essas essas coisas em cima e fazendo tudo por fora assim. Mas fazer isso quando quando a equipe é pequena, eu acho que salva muito tempo. Fazer isso quando a equipe é grande, espalhada,
Marcello Pontes: Ég
Deo Carlos: acaba sendo oposto, né? Porque tipo,
Marcello Pontes: exato.
Deo Carlos: quando é quando é para pouca gente, você não precisa ter muita documentação, as pessoas entendem e o negócio facilita muito. Quando é quando tem várias outras pessoas,
Marcello Pontes: Aí vira o produto,
Deo Carlos: você gasta mais tempo,
Marcello Pontes: Ja.
Deo Carlos: aí você vira aquele você vira aquele inferno e e parece melhor tipo todo mundo pagar o preço a mais e não ter essas facilidades e usar uma ferramenta mais padrão do que ficar, enfim, eh, usando uma coisa diferente. Até porque essa coisa é diferente, você vai querer evoluir, aí você evolui, é para todo mundo ficar continua ficando estranho e aí enfim,

# 00:30:35

Marcello Pontes: Exato. E outra coisa, quando você começa a empurrar demais um wrapper, eh, e começa a virar o problema, porque quando você precisa de flexibilidade, se você tiver só o wrapper, aí tem aí não tem flexibilidade, né? Então, a ideia é que a gente use o Dag Factory, mas também seja possível a gente acessar a camada inferior e fazer uma DEG, por exemplo,
Deo Carlos: Não. Então, eh, mas mas disso aqui é tipo e esse esse esse essa camada que você falou, possivelmente a gente se a gente pudesse adotar um um deck factory de bons padrões e coisas do tipo e valeu, seria ótimo, né? Ao invés da gente ter que inventar alguma ter esse lezinho, eu eu não tô tipo assim, eu eu entendo quando você fala isso, eu sou o cara que mais faz isso, mas eu sou o cara que tô tentando não fazer isso. Para pra empresa como todo você colocar isso é um inferno, né?
Marcello Pontes: Então, o que tu tá querendo dizer é se é é se você se deixa eu ver se eu entendi.
Deo Carlos: F.
Marcello Pontes: tá falando que se você colocar essa camada eh sendo de desenvolvimento interno é um problema, mas que o factory seria bom porque não é desenvolvimento
Deo Carlos: Exatamente. Exatamente.

# 00:31:48

Deo Carlos: Para evitar esse desenvolvimento interno,
Marcello Pontes: interno.
Deo Carlos: por porque isso vai ser usado por várias pessoas diferentes e tal. Então, eh, ao invés da gente ter uma camada nossa, a gente vai ter só tipo, você deveria estar usando de factory assim,
Marcello Pontes: Mhm.
Deo Carlos: você devia estar usando alguma coisa assado e a gente tem mais só um uma diretriz de como isso deve ser usado, eh, ao invés de ter uma um rapper forçando a usar de alguma maneira,
Marcello Pontes: Perfeito, perfeito. Faz sentido.
Deo Carlos: né?
Marcello Pontes: Eh, isso aqui foi só eu pensando em voz alta, tá? Quer dizer, pensando em em em digitando aqui, mas eu não não vocês, eu não me lembro de vocês terem escrito algum caso em que caberia o o NHN,
Deo Carlos: tá sendo usado hoje na empresa,
Marcello Pontes: mas eu eu imaginei que sim.
Deo Carlos: tá? Só para você saber. produção.
Marcello Pontes: Imaginei que sim, hein? Mas como é que vocês estão usando?
Deo Carlos: Ela tem produção,
Marcello Pontes: É deploy interno ou vocês estão usando cloud? Como é?
Deo Carlos: tá usando selfed pago eh para para orquestrar algumas flores, né?

# 00:32:50

Deo Carlos: Tem tem coisas relacionadas com LLM, mas até coisas mais padrões mesmo, que o pessoal lá tinha dificuldade de fazer isso direitinho e meteram um L um N8N lá e e melhorou, sabe? para, enfim, questões de comunicação com o cliente, coisa do tipo. Eh,
Marcello Pontes: Mhm.
Deo Carlos: eu particularmente eh e eh o que me deixa maiso e que me assim no um N8 N desse da vida é a falta de reproducibilidade assim, né? Tipo, eu sei que existe algumas coisas hoje em dia para melhorar isso,
Marcello Pontes: Uhum.
Deo Carlos: mas parece ser bem difícil. Eh, tipo, aí e quando você tem reproducibilidade, você tem uma dificuldade de ver o que mudou, né? Então é reproduível não tanto, né? Então assim, tipo, você dá um dump de um Jason enorme e quando você quer saber o que mudou,
Marcello Pontes: É difícil de ver.
Deo Carlos: tipo, não tem como ver assim direto, né?
Marcello Pontes: Uhum.
Deo Carlos: Então isso é o que me dá o maior desconforto de de eu estar usando isso. Eh, eu gostaria, eu já eu gasto bastante tempo procurando alguma coisa que me desse o melhor dos mundos. Eu nunca encontrei.
Marcello Pontes: É,

# 00:33:57

Deo Carlos: Isso é difícil,
Marcello Pontes: imagina.
Deo Carlos: mas enfim.
Marcello Pontes: Bom, alternativas.
Deo Carlos: É,
Marcello Pontes: Bom, vamos lá. Eh, alternativa é muito diferente.
Deo Carlos: mas eu acho que o pouco diferente de um Cláudio compos desse outro tipo de coisa,
Marcello Pontes: É muito,
Deo Carlos: né?
Marcello Pontes: é muito. É porque isso aqui é mais orientado a dado e processo.
Deo Carlos: É,
Marcello Pontes: Isso aqui é mais, eh, quer dizer, isso aqui é mais processo, né? Eh, é mais processo,
Deo Carlos: é,
Marcello Pontes: mais eh exato.
Deo Carlos: é um workfow meu, é um trabalho que que vai acontecer, né?
Marcello Pontes: Eu coloquei aqui só porque eu tava pensando voz alta. Então, alternativas para o Cláudio Composa, uma delas é o Austrônoma, que é um para um Cláudio Composa, sendo que, enfim, tem algumas algumas benécies aqui, eh, por essa por essa integração aqui. Eh, tem o prefect também, prefect e Dexter, por exemplo, são muito
Deo Carlos: Mas só uma coisa,
Marcello Pontes: similares.
Deo Carlos: o o o a gente consegue usar esse esse deck factory dentro do cloud composer, né?

# 00:34:53

Deo Carlos: É isso, né?
Marcello Pontes: O,
Deo Carlos: Você tá colocando aqui,
Marcello Pontes: exato,
Deo Carlos: tipo,
Marcello Pontes: exato, exato,
Deo Carlos: esse astronom esse esse deck factor é um formato inventado pelo astronomer,
Marcello Pontes: exato.
Deo Carlos: mas aí o o GCP foi lá e adotou esse formato também e implementou ele
Marcello Pontes: Não, vamos lá. O deck factory ele é uma,
Deo Carlos: internamente.
Marcello Pontes: ele é uma, imagina que o deck factory é uma de builder, é uma deck que tá implantada lá,
Deo Carlos: Sim, sim.
Marcello Pontes: ele vai ler uns uns yamo lá e vai construir uma deck por trás. Então, ele constrói aquele objeto que é uma deck, entendeu?
Deo Carlos: Não sei, mas tipo, mas existe e eh mas esse Deck Factory é uma coisa aberta,
Marcello Pontes: É aberto,
Deo Carlos: é um código aberto que Ah,
Marcello Pontes: é resource.
Deo Carlos: é só beleza.
Marcello Pontes: Eh, deixa eu ver aqui. Ah, state. Tá vendo aí?
Deo Carlos: Tô vendo.
Marcello Pontes: Esse aqui o deck factory, ele é muito embora tenha sido criado pelo astronomer,
Deo Carlos: M.

# 00:35:55

Marcello Pontes: eh, você dá para usar com a flow normal, então inclusive com a flow 3, né? Então, eh, dá para usar. Aí tem e prefecto parecidos com entre si. Eles são um conceito mais simples, não tão eh quer dizer, o Dex ainda é bastante robusto, mas o prefecto é menos robusto, mas eh enfim, ele ele suporta mais, enfim, de maneira mais simples e ETL dinâmico, por exemplo, quando você, por exemplo, não sabe quantas vezes vai ter que interar,
Deo Carlos: É, é,
Marcello Pontes: tal.
Deo Carlos: já usei bastante os dois.
Marcello Pontes: Ah,
Deo Carlos: É,
Marcello Pontes: perfeito.
Deo Carlos: esses dois aí,
Marcello Pontes: Dispensar apresentação.
Deo Carlos: o prefecto de é o
Marcello Pontes: Pronto.
Deo Carlos: prefect.
Marcello Pontes: É pra transformação DBT depois
Deo Carlos: Mas, mas só, mas só uma pergunta assim,
Marcello Pontes: M.
Deo Carlos: tipo aqui, eh, você tá esse cloud composer, você define ele via, você define ele e via UI. Eh, como é que como é que a gente efetivamente usa ele?
Marcello Pontes: Ele é um ele é um recurso,
Deo Carlos: Como é que a gente garante

# 00:37:00

Marcello Pontes: ele é um recurso de infraestrutura, né? Então, por exemplo,
Deo Carlos: essa
Marcello Pontes: se você tiver falando em deploy, você consegue consegue usar volume, terraforme. Não sei se é essa a tua dúvida.
Deo Carlos: não é? Então,
Marcello Pontes: E aí a maneira de tu a maneira de tu gerenciar configuração é através de infraestrutura, configuração de escalabilidade e tudo. E para você fazer CSD para publicar DEG, por exemplo, é via processo CSD. E e nesse caso você consegue configurar, por exemplo, uma um bucket do GCS que vão ser eh vai ser tuas de,
Deo Carlos: Não, mas o que eu tô falando assim,
Marcello Pontes: entendeu?
Deo Carlos: tipo, se eu tiver usando DBT para transformar o dado, eu vou definir ele lá dentro do DBT, né? Tipo,
Marcello Pontes: Isso
Deo Carlos: eu vou lá dentro do DBT, vou definir, eu não vou estar usando um rapple, vou tá usando um para definir isso,
Marcello Pontes: que vai tá sincronizada com o guid.
Deo Carlos: eh, que vai estar sincronizado com um repositório específico para isso.
Marcello Pontes: Isso.
Deo Carlos: Mas aí eu agora eu quero criar é um um uma tesque em Python que vai transformar alguma coisa.

# 00:38:05

Deo Carlos: Como é que eu faço?
Marcello Pontes: Esse mesmo repositório que guarda o DBT, por exemplo, ele vai ter uma pasta do DBT e vai ter outra pasta de schedulers, por exemplo. E esse schedule vai dizer, por exemplo, ah, eh, esse aqui, tu vai rodar esse DBT aqui e depois tu vai rodar isso daqui. Vamos supor que essa é a deck. né? Então essa parte toda vai ser copiada lá paraas decks, porque quando você vai rodar a deck e aí depende, é lógico que tem outras maneiras, né? Por exemplo, tu pode rodar, tu pode construir uma imagem, um docker image com um DBT, pode ser um nível de abstração que tu faz. E aí quando tu vai fazer a deg, tu só vai fazer, ó, tu chama eh a execução, sei lá, desse eh dessa docker image. Aqui tem algumas maneiras diferentes de você fazer essa orquestração, mas via de regra, tu pode, por exemplo, fazer dentro da mesma eh da mesma eh do runime da DG, eh do processo da DG, eh ela chamar o DBT dentro de si mesma, né? Aí pode, e dependendo do executor que tem, do executor que tem no cloud composer, se eu tiver usando Kubernet Executor,

# 00:39:11

Deo Carlos: E outra
Marcello Pontes: por eu acho que é o padrão que vem,
Deo Carlos: coisa,
Marcello Pontes: ele vai rodar num num pode separado lá no processo separado dele.
Deo Carlos: então o p de era bom a gente ter um um é bom a gente definir um um bom formato para para essas coisas, pelo menos não necessariamente a gente nunca vai poder ter outro formato, mas tipo assim, a o formato canônico aqui que a gente imagina é esse,
Marcello Pontes: Easy.
Deo Carlos: porque a gente consegue ter isso e tal. Eh, até esse repositório, né? estruturar o vai vai ter que estruturar um repositóriozinho com isso.
Marcello Pontes: Exato.
Deo Carlos: Vai ter que ver o que que o que que dá certo mesmo. vai ter que montar esse a e vai ter que tipo tem
Marcello Pontes: É o o processo de execução desse MVP é justamente pra gente criar essas essas estruturas canônicas e e executar isso, né? Fazer, ó, isso aqui é a maneira simples, gente, é por esse caminho aqui que a gente vai. Aí se quiser fazer alternativa pode também, imagina acessar, né? Beleza.
Deo Carlos: Beleza.
Marcello Pontes: Transformação. O DBT poderia, a gente poderia usar o cloud.

# 00:40:14

Marcello Pontes: Eu coloquei cloud aqui, mas depois eu repensei ainda, tô pensando, tá? Eh, o cloud ele daria aquela interface para usuários não eh não desenvolvedores, seria mais fácil, tá? Eh, e aí, enfim, tem a questão é que tem a questão de document documentação de linhagem,
Deo Carlos: Você
Marcello Pontes: embora a gente não devesse ficar muito feliz com essa documentação de linhagem, porque a gente vai querer ver essa linhagem fora do DBT, claro, porque a gente quer eh compreender também eh linhagem de ETL, de tudo que tá conectado, senão a gente vai começar a usar isso aqui como ferramenta de governança de dados, entendeu o que eu tô dizendo? Eh,
Deo Carlos: tá,
Marcello Pontes: então,
Deo Carlos: você tá aquela colocar essa gorença no L de fora que vai tá usando o DBT,
Marcello Pontes: exato.
Deo Carlos: mas não só o DBT,
Marcello Pontes: Exato. Então,
Deo Carlos: né?
Marcello Pontes: eh, a alternativa para isso, a gente teria, por exemplo, tem esse data aqui que eu descobri também, que é, como diz no popular, c***** e cuspido DBT, sendo que é na GCP. Agora, eh, é exclusivo bigery, né?

# 00:41:19

Marcello Pontes: Você não consegue usar por outros outros de BMS.
Deo Carlos: Sim.
Marcello Pontes: Ah, é com muito compável DBT e em vez de você, por exemplo, usar Ginja, ele usa JavaScript para fazer template de QL. Eh, e aí não Vai
Deo Carlos: É, é, é, resolve falar assim, tipo, eh, a gente quer facilitar que usários menos técnicos consigam manipular o dado e tal, mas provavelmente a gente quer que facilite isso de uma forma não tão, digamos assim, eh, permanente, né? É, tipo, o cara quer experimentar as coisas, mas tipo, se a principal facilidade do DBD Cloud for a gente ficar criando transformações de dados na interface para o cara não ter que pegar um código, não me parece, né, tipo assim,
Marcello Pontes: justificativ.
Deo Carlos: ser um ser um argumento, uma justificativa tão forte.
Marcello Pontes: Uhum.
Deo Carlos: E se começar a acontecer de tipo até até para isso, né, tipo, às vezes elas começam a tipo não usar as ferramentas que a princípio era para sendo usadas que são um pouco mais compreensivas. e fica tudo concentrado ali no DBT Cláudio, porque é um pouquinho mais conveniente fazer ali e tal,
Marcello Pontes: Exato.
Deo Carlos: só que aí então,

# 00:42:31

Marcello Pontes: Exato.
Deo Carlos: tipo,
Marcello Pontes: Ко
Deo Carlos: se tipo se a gente não for ter tudo eh e você enfim me não o que você tinha falado no início de ter o DBT Cloud parecia legal, mas também eh talvez a gente esteja facilitando muito, uma coisa que não precisa ser tão facilitada e perdendo algumas propriedades que sejam
Marcello Pontes: É,
Deo Carlos: mais importante.
Marcello Pontes: é, eu acho que eu acho que ainda ainda é atraente a gente oferecer um tipo de forma de construir uma transformação DBT, por exemplo, que não seja necessariamente meter a mão num monor gigante que a pessoa não desenvolvedora vai se perder ali, né? Mas talvez um um um template que a pessoa consiga ali eh puxar e desenvolver em cima daquilo. Eu acho que é mais eh enfim.
Deo Carlos: É, mas o DBT Cloud é caro,
Marcello Pontes: Ahã.
Deo Carlos: é muito caro.
Marcello Pontes: Deixa eu ver aqui. Eu
Deo Carlos: Realmente não uso a gente a gente não a gente ia tá usando ele de uma maneira talvez mais
Marcello Pontes: tenho
Deo Carlos: o DVT Cloud eu acho que você pode usar para para como orquestrador também ou
Marcello Pontes: eh você consegue fazer orquestração lá também.

# 00:43:36

Deo Carlos: não?
Marcello Pontes: Agora, eh, o plano starter. Deixa eu, deixa eu abrir aqui no, Ah, tá aqui. Deixa eu ver se tá s plano plano starter. Ah,
Deo Carlos: É 100 por usuário. É,
Marcello Pontes: é carim e assim é porque ele considera que são poucos engenheiros de dados ou
Deo Carlos: é caro.
Marcello Pontes: pessoas engenheiras de dados, né?
Deo Carlos: É, então para então então,
Marcello Pontes: Então,
Deo Carlos: mas para para o objetivo dele, que seria facilitar isso para não engenheiros, não vai ter,
Marcello Pontes: e exato,
Deo Carlos: porque você não vai ficar pagando para todo mundo ficar entrando lá,
Marcello Pontes: exatamente.
Deo Carlos: né?
Marcello Pontes: E aí ele oferece catálogo,
Deo Carlos: Não.
Marcello Pontes: semante clayer, beleza? também eh DBT compar.
Deo Carlos: Ah, e seu DBD tem aquela questão sem que lê,
Marcello Pontes: Eh,
Deo Carlos: né? que eu para
Marcello Pontes: mas mesmo assim mesmo assim esse esse essa camada semântica,
Deo Carlos: mim.
Marcello Pontes: como ela já é anotada no próprio código do DBT, enfim, e a gente já tá uma usando uma ferramenta de eh catálogo de dados, isso aí já é federado automaticamente, entendeu?

# 00:44:36

Marcello Pontes: Isso aqui é é
Deo Carlos: Não, então, mas não, então, mas de acordo com isso aí, tipo, você mas para ter $ pro usuário e tal, mas tipo, você podia tipo abrir o Google Sheets lá e falar, tipo, eu quero ver a inadiplência por retail, por mês puff aparecer pr pra galera vai ter valor, tipo o João para não sei o quê, sabe? É uma parada bacana, tipo, é um é um tipo de feature interessante, tipo, se eu se a diretoria puder fazer isso,
Marcello Pontes: Eu
Deo Carlos: tipo assim, eu quero ver esse dado aqui no Excel que eu quero montar não sei o quê,
Marcello Pontes: vou ver,
Deo Carlos: que eu quero tal e tipo,
Marcello Pontes: ô, ô, Dé, eu vou ver como é que a gente faz isso sem necessariamente ter essa camada semanticle,
Deo Carlos: né?
Marcello Pontes: porque teoricamente a gente já tem uma ferramenta de govern dados que tem uma camada semântica e deveria talvez sem eh não necessariamente via push, mas via pool da ferramenta que tá utilizando ser capaz de consumir isso. Eu vou ver como é que a gente consegue fazer isso, tá? Eh, deixa eu anotar aqui.
Deo Carlos: Como é que qual é qual é a ferramenta de governança que possivelmente vai ter essa

# 00:45:37

Marcello Pontes: Vamos entrar nele agora. de tempo. Tem algum tempinho aqui ainda
Deo Carlos: semana? É, isso para mim pareceu muito com aquelas questão de de daquele cubo, eu comentei, né,
Marcello Pontes: rapidamente.
Deo Carlos: aquele cubo olap e tal, não sei o qu que para as pessoas usarem consultar informação é realmente muito simples, muito trivial, né? você filtra, quebra, enfim, vê por é uma
Marcello Pontes: É, é bastante útil. E assim, essa é a experiência que a gente tá que a gente tá perseguindo,
Deo Carlos: coisa
Marcello Pontes: né? Então, vamos lá. Governança. Eh, eu não anotei muito essa parte de governança porque foi foi uma das últimas que eu toquei. Eh, mas eu vou detalhar isso aqui depois, tá? Eu ainda preciso dar uma olhada melhor em pricing, mas nem Isso aqui é daquelas ferramentas, essas são aquelas ferramentas que aparece do quadrante mágico da Gardner, que você pode rezar.
Deo Carlos: Essa minha tá
Marcello Pontes: É, não é o Opet data não,
Deo Carlos: deita.
Marcello Pontes: mas por exemplo Atla, Atalion, Data World, isso aqui aparece e nenhuma dessas mesmo data hub,

# 00:46:39

Deo Carlos: Ah, o Data Hub. Data hub é o data hub.
Marcello Pontes: mas o data hubadata,
Deo Carlos: O Data Hub que é o top.
Marcello Pontes: por exemplo, eles são open source. É possível eu ver qual quais são as melhores maneiras de a gente evitar isso, mas é possível que a gente tenha que temha que eh self host. Eh, e se eu for de alguma maneira propor self hosting, eh, eu posso entrar na questão de infraestrutura e prover questão, não só a questão de deployment, mas de update, processo de update, upgrade também, porque eu sei que isso é um problema que aconteceu no meta, no metabase que tá instalado e ninguém nunca fez update. Então, eh, um pipeline que inclua, por exemplo, detecção de CVE de vulnerabilidade, eh, processo de backup, como é que faz o upgrade daí, eh, provendo up time, enfim, deixando uptime, né? Então, se eu for nesse caminho de sugerir e self hosting, não vai ser sem esse tipo de controle, sem esse tipo de instrumentação, tá?
Deo Carlos: É, se e se ele não fosse self host, a gente só tem que ver o que vai ter que ser entendido direitinho é o o como a gente vai ser vulnerável aquilo, né?

# 00:47:54

Deo Carlos: O quanto que a gente tá dependente, se isso é uma se isso é uma camada de facilidade ou se é uma camada crítica que ele t ele dando pau, a empresa para,
Marcello Pontes: Exato.
Deo Carlos: né?
Marcello Pontes: Exato.
Deo Carlos: Então,
Marcello Pontes: Perfeito.
Deo Carlos: isso é isso
Marcello Pontes: É, então é isso.
Deo Carlos: é
Marcello Pontes: É isso por enquanto. É isso. Eh, então, segunda-feira eu mando o invite ou tu tu quer dar uma olhada ainda na tua agenda para segunda-feira?
Deo Carlos: não. Mande o invite, tipo, segunda-feira a partir de 3:30, eh,
Marcello Pontes: Tá.
Deo Carlos: poderia ser qualquer horário que é a partir de 7:30 aí para você,
Marcello Pontes: Eh,
Deo Carlos: né?
Marcello Pontes: eu vou olhar aqui.
Deo Carlos: Então você pode escolher o horário ou marca, né? Eh,
Marcello Pontes: Oi.
Deo Carlos: aí você pode definir o horário que fica melhor para você e eu coloco. Você quiser 4 horas já da tarde para ter uma
Marcello Pontes: Qualquer horário que tu vi disponível lá na minha agenda,
Deo Carlos: folga.
Marcello Pontes: pode blocar por mim, né?
Deo Carlos: Deixa eu ver aqui como é que tá. Você 4 da
Marcello Pontes: Se bem que teve um teve não sei o que hoje,
Deo Carlos: tarde.
Marcello Pontes: meio que não veio pra agenda aqui da OM, né?
Deo Carlos: É, não tá aparecendo. Você tá aparecendo todo livre na segunda-feira.
Marcello Pontes: Deixa eu ver aqui. Segunda, dia 19. Tem, eu tenho alguma coisa entre uma e uma e duas, quer dizer: 10 amanhã, depois eu tô livre.
Deo Carlos: Só ver aqui só um momento. Pronto. Vou marrar aqui 4 da tarde para ficar mais
Marcello Pontes: Beleza.
Deo Carlos: folgado.
Marcello Pontes: Beleza de cruza.
Deo Carlos: A gente sempre marca meia hora, mas sempre demora uma.**