Apache Spark

Apache Spark 是一个开源分布式通用集群计算框架。

相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中，Spark使用了存储器内运算技术，能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内执行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍。

apache / spark

Apache Spark - 用于大数据处理的统一分析引擎

Python Scala R Java big-data jdbc SQL Apache Spark

Scala 41.91 k

3 小时前

DataTalksClub / data-engineering-zoomcamp

免费数据工程师视频课程，共9周课时

data-engineering kafka Apache Spark dbt Docker kestra

Jupyter Notebook 32.77 k

8 天前

donnemartin / data-science-ipython-notebooks

#计算机科学#Python 数据科学学习笔记：深度学习 (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, 大数据 (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python 核心, AWS, Linux命令

Python 机器学习深度学习数据科学 big-data Amazon Web Services Tensorflow theano caffe scikit-learn kaggle Apache Spark mapreduce hadoop matplotlib pandas NumPy SciPy Keras

Python 28.54 k

1 年前

getredash / redash

Make Your Company Data Driven. Connect to any data source, easily visualize, dashboard and share your data.

redash Python 可视化 analytics bi redshift BigQuery athena MySQL PostgreSQL dashboard JavaScript business-intelligence databricks Apache Spark spark-sql Hacktoberfest

Python 27.78 k

2 天前

yeasy / docker_practice

Docker — 从入门到实践

Docker book cloud-computing container Kubernetes swarm mesos Apache Spark DevOps Linux

Go 25.58 k

9 个月前

mlflow / mlflow

#计算机科学#MLflow 是一个开源框架，旨在管理整个机器学习生命周期。它可以在不同的平台上训练模型并为模型提供服务，让你能够使用相同的一组工具，而不管试验是在计算机本地、远程计算目标上、虚拟机上

机器学习人工智能 mlflow Apache Spark model-management agentops agents evaluation langchain llm-evaluation llmops observability Open Source openai prompt-engineering ai-governance mlops

Python 22.09 k

1 小时前

heibaiying / BigData-Notes

大数据入门指南 ⭐

hadoop hdfs Yarn mapreduce hive Apache Spark storm hbase Scala kafka zookeeper flume azkaban sqoop phoenix bigdata big-data

Java 16.65 k

2 年前

FavioVazquez / ds-cheatsheets

#速查表 cheatsheets#有关数据科学的 Cheatsheets

datascience Python R Apache Spark 编程 Jupyter Notebook cheatsheet

15.71 k

1 年前

GaiZhenbiao / ChuanhuChatGPT

川虎 ChatGTP，为ChatGPT/ChatGLM/LLaMA等多种LLM提供了一个轻快好用的Web图形界面

聊天机器人 ChatGPT API chatglm claude ernie gemini gemma llama midjourney minimax moss ollama qwen Apache Spark stablelm

Python 15.44 k

1 个月前

zhisheng17 / flink-learning

flink learning blog. http://www.54tianzhisheng.cn/ 含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等内容的学习案例，还有 Flink 落地应用的大型项目案例（PVUV、日志存储、百亿数据实时去重、...

flink kafka elasticsearch Apache Spark Redis MySQL rocketmq hbase rabbitmq stream-processing streaming clickhouse loki influxdb opentsdb

Java 14.93 k

6 个月前

aalansehaiyang / technology-talk

【大厂面试专栏】一份Java程序员需要的技术指南，这里有面试题、系统架构、职场锦囊、主流中间件等，让你成为更牛的自己！

Java Spring Spring Boot dubbo kafka Git hbase mycat Apache Spark ECMAScript

14.62 k

2 个月前

horovod / horovod

#计算机科学#Distributed training framework for TensorFlow, Keras, PyTorch, and Apache MXNet.

Tensorflow uber 机器学习 mpi baidu 深度学习 Keras PyTorch mxnet Apache Spark ray

Python 14.59 k

1 天前

apache / doris

Doris 是百度开源的支持对海量大数据进行快速分析的MPP数据库。

olap 数据库 hudi iceberg real-time SQL BigQuery dbt delta-lake elt lakehouse query-engine redshift snowflake Apache Spark agent 人工智能 paimon

Java 14.28 k

1 小时前

deeplearning4j / deeplearning4j

Deeplearning4j 是为Java以及基于JVM编写的开源深度学习库，是广泛支持各种深度学习算法的运算框架。

Java gpu 深度学习 neural-nets deeplearning4j dl4j hadoop Apache Spark IntelliJ IDEA 人工智能 Python Scala Clojure linear-algebra matrix-library

Java 14.1 k

20 天前

wangzhiwubigdata / God-Of-BigData

专注大数据学习面试，大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...

flink Apache Spark hadoop hdfs hive hbase kafka zookeeper bigdata flume azkaban

10.28 k

2 年前

mage-ai / mage-ai

#计算机科学#🧙 Build, run, and manage data pipelines for integrating and transforming data.

机器学习人工智能 data data-engineering 数据科学 Python elt etl pipelines data-pipelines orchestration data-integration SQL Apache Spark dbt pipeline reverse-etl transformation

Python 8.47 k

6 分钟前

tobymao / sqlglot

Python SQL Parser and Transpiler

transpiler SQL Python Parser optimizer BigQuery duckdb hive MySQL PostgreSQL presto snowflake Apache Spark SQLite trino tsql clickhouse redshift databricks

Python 8.3 k

8 小时前

delta-io / delta

Delta Lake 是一个开源存储框架，可以使用 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎以及适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构。

Apache Spark acid big-data analytics delta-lake

Scala 8.28 k

7 小时前

h2oai / h2o-3

#计算机科学#H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Me...

h2o 机器学习数据科学深度学习 big-data ensemble-learning gbm random-forest naive-bayes pca Open Source distributed Java Python R hadoop Apache Spark gpu automl

Jupyter Notebook 7.28 k

1 天前

Alluxio / alluxio

Alluxio作为数据编排层为大数据和人工智能工作负载带来速度和敏捷性并降低成本，使用户能够迁移到对象存储等更新的存储解决方案

alluxio memory-speed hadoop Apache Spark presto Tensorflow 数据分析 data-orchestration virtual-distributed-filesystem

Java 7.07 k

5 个月前

Created by Matei Zaharia

发布于 May 26, 2014

Repository: apache/spark
Website: spark.apache.org
Wikipedia: 维基百科

Apache Spark

相关主题