#

Apache Spark

css logo

Apache Spark 是一个开源分布式通用集群计算框架。

相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了存储器内运算技术,能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内执行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍。

https://static.github-zh.com/github_avatars/apache?size=40

Apache Spark - 用于大数据处理的统一分析引擎

Scala 41.91 k
2 小时前
https://static.github-zh.com/github_avatars/DataTalksClub?size=40
Jupyter Notebook 32.77 k
8 天前
https://static.github-zh.com/github_avatars/donnemartin?size=40

#计算机科学#Python 数据科学学习笔记:深度学习 (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, 大数据 (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python 核心, AWS, Linux命令

Python 28.54 k
1 年前
https://static.github-zh.com/github_avatars/getredash?size=40
Python 27.78 k
2 天前
mlflow/mlflow
https://static.github-zh.com/github_avatars/mlflow?size=40

#计算机科学#MLflow 是一个开源框架,旨在管理整个机器学习生命周期。 它可以在不同的平台上训练模型并为模型提供服务,让你能够使用相同的一组工具,而不管试验是在计算机本地、远程计算目标上、虚拟机上

Python 22.09 k
23 分钟前
https://static.github-zh.com/github_avatars/GaiZhenbiao?size=40

川虎 ChatGTP,为ChatGPT/ChatGLM/LLaMA等多种LLM提供了一个轻快好用的Web图形界面

Python 15.44 k
1 个月前
zhisheng17/flink-learning
https://static.github-zh.com/github_avatars/zhisheng17?size=40

flink learning blog. http://www.54tianzhisheng.cn/ 含 Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等内容的学习案例,还有 Flink 落地应用的大型项目案例(PVUV、日志存储、百亿数据实时去重、...

Java 14.93 k
6 个月前
https://static.github-zh.com/github_avatars/aalansehaiyang?size=40

【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!

14.62 k
2 个月前
https://static.github-zh.com/github_avatars/horovod?size=40

#计算机科学#Distributed training framework for TensorFlow, Keras, PyTorch, and Apache MXNet.

Python 14.59 k
2 天前
https://static.github-zh.com/github_avatars/apache?size=40
Java 14.28 k
3 小时前
https://static.github-zh.com/github_avatars/deeplearning4j?size=40

Deeplearning4j 是为Java以及基于JVM编写的开源深度学习库,是广泛支持各种深度学习算法的运算框架。

Java 14.1 k
20 天前
https://static.github-zh.com/github_avatars/wangzhiwubigdata?size=40

专注大数据学习面试,大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...

10.28 k
2 年前
https://static.github-zh.com/github_avatars/delta-io?size=40

Delta Lake 是一个开源存储框架,可以使用 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎以及适用于 Scala、Java、Rust、Ruby 和 Python 的 API 构建 Lakehouse 架构。

Scala 8.28 k
9 小时前
https://static.github-zh.com/github_avatars/h2oai?size=40

#计算机科学#H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Me...

Jupyter Notebook 7.28 k
1 天前
https://static.github-zh.com/github_avatars/Alluxio?size=40

Alluxio作为数据编排层为大数据和人工智能工作负载带来速度和敏捷性并降低成本,使用户能够迁移到对象存储等更新的存储解决方案

Java 7.07 k
5 个月前
loading...

Created by Matei Zaharia

发布于 May 26, 2014

Repository
apache/spark
Website
spark.apache.org
Wikipedia
维基百科

相关主题

Scala