集合主题趋势排行榜

datalakehouse

linkedin / openhouse

Open Control Plane for Tables in Data Lakehouse

big-data catalog datalake datalakehouse declarative iceberg management tables

Java 370

2 天前

lakevision-project / lakevision

Lakevision is a tool which provides insights into your Apache Iceberg based Data Lakehouse.

iceberg lakehouse datalakehouse apache aws-s3 carbon-design-system fast-api mcp-server pyiceberg Python Svelte sveltekit

Python 43

15 小时前

ociexplained / how-to-use-OCI

"바로 쓰는 오라클 클라우드 - Build and Delploy Modern Apps with Oracle Cloud"의 전체 소스코드 저장소입니다.

business-intelligence CI/CD cloud 数据科学 Flask istio Jenkins Kubernetes 微服务 MySQL oci opensearch Oracle 数据库 Python service-mesh datalakehouse Serverless autoscaling loadbalancing

Jupyter Notebook 7

2 年前

prefeitura-rio / queries-rj-sms

Projeto dbt do Data Lake da Secretaria Municipal de Saúde

datalake datalakehouse dbt health healthcare

Shell 5

8 小时前

aswinjose89 / docker-presto-integration

Connecting prestodb with external databases like mongodb, elasticsearch, mysql, hadoob etc to manipulate big data

bigdata datalakehouse MongoDB prestodb

2 年前

gabriel-solon-padilha / criando_um_datalakehouse_databricks

Meu décimo primeiro projeto em que crio um datalakehouse usando computação distribuído no databricks

databricks Apache Spark datalakehouse pyspark SQL hadoop parquet

HTML 1

3 年前

riju18 / apache-iceberg-kickstart

apache-iceberg datalake datalakehouse Docker minio Python s3 SQL zeppelin

3 个月前

dwickyferi / etl-postgres-to-starrocks-via-risingwave

This repository provides a modular and easy-to-extend ETL pipeline that streams data from a PostgreSQL database into a StarRocks data warehouse using RisingWave as the real-time streaming computation ...

data datalake datalakehouse datawarehouse etl etl-pipeline PostgreSQL synchronization

5 个月前

BsoBird / filesystem-catalog-original

A prototype for implementing datalake catalog management only based on arbitrary file systems

catalog filesystem hadoop iceberg Open Source s3 datalake datalakehouse

Java 1

2 个月前

subbota19 / flinkerManager

This project serves as a personal lab for developing and honing skills in distributed data processing and data lake architecture.

datalakehouse flink iceberg Kubernetes minikube

Java 1

2 个月前

Alex-Nettekoven / Data-Lakehouse-HealthCare

Real-Time Healthcare Data Lakehouse for Predictive Analytics (Synthea, Faker, Kafka, Spark, Delta Lake, BigQuery)

datalakehouse healthcare kafka realtime-database Apache Spark synthesis

Jupyter Notebook 0

22 天前

Gaur4301 / SalesAnalyticsPipeline-using-AzureDataFactory-Databricks-and-MedallionArchitecture

Sales Data Lakehouse Pipeline using Azure & Databricks

Azure databricks datalakehouse

Python 0

18 天前

lckh24 / Data-Pipeline-for-Agricultural-Market-Price-Analytics

Azure 数据可视化 databricks datalakehouse elt-pipeline Python

Jupyter Notebook 0

2 个月前

rayyan-merchant / SQL-DWH-Project

A scalable and optimized data warehouse solution designed for efficient data integration, transformation, and analytics. This project demonstrates ETL workflows, dimensional modeling, and query perfor...

数据库 dataengineering datalake datalakehouse datawarehouse dbms elt etl SQL sql-server

3 个月前

sainathd07 / sql-data-warehouse

Building a modern data warehouse with PostgreSQL, including ETL processes, data modeling, and analytics.

datacleaning dataengineering datalake datalakehouse datascience datawarehouse etl etl-job etl-pipeline PostgreSQL postgresql-database SQL sql-query

PLpgSQL 0

6 个月前

dalvarez83 / iceberg-tutorial

This repo is to run a quick demo for how to spin up an Apache Iceberg application.

apache-iceberg datalakehouse

6 个月前

burakugurr / data-lakehouse-with-cyber-security-data

We will create a sample lakehouse using Docker, execute an ETL process with Spark, and then access the data in the Iceberg table format from the Nessie Catalog.

datalakehouse iceberg lakehouse Apache Spark

Jupyter Notebook 0

1 年前