您的位置 首页 > 问答

apache spark介绍(如何在您的计算机上使用PySpark)

[本站 apachespark介绍(如何在您的计算机上使用PySpark)如何在您的计算机上使用PySparkApacheFlink和ApacheSpark有什么异同它们的发展前景分别怎样一般用哪些工具做大数据分析在mac系统安装pyspark教程介绍ApacheSpark是数据处理框架中最热门,规模最大的开源项目之一,它具有丰富的高级API,可用于Scala,Pytho…

apache spark介绍(如何在您的计算机上使用PySpark)

apache spark介绍(如何在您的计算机上使用PySpark)

  • 如何在您的计算机上使用PySpark
  • Apache Flink和Apache Spark有什么异同它们的发展前景分别怎样
  • 一般用哪些工具做大数据分析

在mac系统安装pyspark教程

介绍

Apache Spark是数据处理框架中最热门,规模最大的开源项目之一,它具有丰富的高级API,可用于Scala,Python,Java和R等编程语言。

Spark提供了一个很棒的Python API,称为PySpark。这使Python程序员可以与Spark框架进行交互-允许您大规模处理数据并使用分布式文件系统上的对象。

在Mac上安装Spark(本地)

第一步:安装Brew

如果已经安装过了brew,可以跳过此步骤 :

1. 在Mac上打开终端(terminal)

2. 输入下面的命令。

$ /usr/bin/ruby -e “$(curl -fsSL

flink和spark都是apache 软件基金会(ASF)旗下顶级项目,都是通用数据处理平台。它们可以应用在很多的大数据应用和处理环境。两者均可在不依赖于其他环境的情况下运行于standalone模式,或是运行在基于hadoop(YARN,HDFS)之上,由于它们均是运行于内存,所以他们表现的都比hadoop要好很多。

二者的不同:

Flink在进行集合的迭代转换时可以是循环或是迭代计算处理。flink的流式处理的是真正的流处理。流式数据一但进入就实时进行处理,这就允许流数据灵活地在操作窗口。

Spark 在另一方面是基于弹性分布式数据集(RDD),这(主要的)给于spark基于内存内数据结构的函数式编程。它可以通过固定的内存给于大批量的计算。

Apache 两个开源项目比较:Flink vs Spark

https://www.toutiao.com/i6726687424803504653/

MongoDB—— 一种流行的,跨平台的面向文档的数据库。

Elasticsearch——专为云而构建的分布式REST风格搜索引擎。

Cassandra——一个开源的分布式数据库管理系统,最初由Facebook开发,被设计用来处理横跨多个商用服务器的大量数据,提供了无单点故障的高度可用性。

Redis—— 一个开源的(BSD许可),内存数据结构存储,作为数据库、缓存和消息代理使用。

Hazelcast——基于Java的开源内存数据网格。

EHCache——一种被广泛使用的开源Java分布式缓存,用于通用缓存、Java EE和轻量级容器。Ehcache相关介绍

Hadoop——用Java编写的一个开源软件框架,用于分布式存储和对在计算机集群上的超大型数据集的分布式处理。

Solr——一个开源的企业搜索平台,用Java编写的,来自于ApacheLucene项目。

Spark——Apache Software Foundation中最活跃的项目,一个开源的集群计算框架。

Memcached—— 一个通用的分布式内存缓存系统。

Apache Hive——提供了Hadoop之上类似于SQL的层。

Apache Kafka—— 一个高通量、分布式的发布-订阅式消息系统,最初开发在LinkedIn上。Windows上脱离Cygwin运行Apache Kafka

Akka—— 一个工具包和运行时,用于在JVM上构建高度并行的、分布式的、有弹性的消息驱动的应用程序。

HBase—— 一个开源的,非关系型的,分布式数据库,在谷歌的BigTable后建模,用Java编写,并运行在HDFS上。

Neo4j——用Java实现的开源图形数据库。

CouchBase——一个开源的、面向文档的分布式NoSQL数据库,特别为了交互式应用而优化。

Apache Storm——开源的分布式实时计算系统。

CouchDB——使用JSON来存储数据的面向文档的开源NoSQL数据库。

Oracle Coherence—— 一个内存的数据网格解决方案,通过提供快速访问常用数据的渠道,使得企业可预测地扩展关键任务应用程序。

Titan—— 一个可扩展的图形数据库,优化的目的在于存储和查询包含数千亿顶点和边的图形,分布在多机集群。

Amazon DynamoDB——一个快速、灵活、完全管理的NoSQL数据库服务,用于在任何规模需要一致的、个位数毫秒延迟的所有应用程序。

Amazon Kinesis—— 用于在AWS上的流数据的实时平台。

Datomic—— 一个用Clojure写的完全事务式的,支持云的,分布式数据库。

原文链接:https://blog.csdn.net/zhinengxuexi/article/details/90056986

apache spark介绍(如何在您的计算机上使用PySpark)

标签:he   分布   一个   开源

本文来自网络,不代表94汽车车网立场,所有(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者。若您的权利被侵害,请联系 56325386@qq.com 删除。转载请注明出处:https://94che.com/qc/160505.html

发表回复

您的电子邮箱地址不会被公开。

返回顶部