飞网论坛

标题: Spark快速数据处理.pdf【135页】【18.3M】 [打印本页]

作者: johnny    时间: 2016-10-18 09:27
标题: Spark快速数据处理.pdf【135页】【18.3M】
Spark快速数据处理.pdf【135页】【18.3M】【bbs.cfei.net 分享】



内容简介
  Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
  《Spark快速数据处理》系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。


作者简介
  Holden Karau,资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。

  译者简介

  余璜,阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。

  张磊,Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。


目录
译者序
作者简介
前言
第1章 安装Spark以及构建Spark集群 / 1
1.1 单机运行Spark / 4
1.2 在EC2上运行Spark / 5
1.3 在ElasticMapReduce上部署Spark / 11
1.4 用Chef(opscode)部署Spark / 12
1.5 在Mesos上部署Spark / 14
1.6 在Yarn上部署Spark / 15
1.7 通过SSH部署集群 / 16
1.8 链接和参考 / 21
1.9 小结 / 21

第2章 Spark shell的使用 / 23
2.1 加载一个简单的text文件 / 24
2.2 用Spark shell运行逻辑回归 / 26
2.3 交互式地从S3加载数据 / 28
2.4 小结 / 30

第3章 构建并运行Spark应用 / 31
3.1 用sbt构建Spark作业 / 32
3.2 用Maven构建Spark作业 / 36
3.3 用其他工具构建Spark作业 / 39
3.4 小结 / 39

第4章 创建SparkContext / 41
4.1 Scala / 43
4.2 Java / 43
4.3 Java和Scala共享的API / 44
4.4 Python / 45
4.5 链接和参考 / 45
4.6 小结 / 46

第5章 加载与保存数据 / 47
5.1 RDD / 48
5.2 加载数据到RDD中 / 49
5.3 保存数据 / 54
5.4 连接和参考 / 55
5.5 小结 / 55

第6章 操作RDD / 57
6.1 用Scala和Java操作RDD / 58
6.2 用Python操作RDD / 79
6.3 链接和参考 / 83
6.4 小结 / 84

第7章 Shark-Hive和Spark的综合运用 / 85
7.1 为什么用Hive/Shark / 86
7.2 安装Shark / 86
7.3 运行Shark / 88
7.4 加载数据 / 88
7.5 在Spark程序中运行HiveQL查询 / 89
7.6 链接和参考 / 92
7.7 小结 / 93

第8章 测试 / 95
8.1 用Java和Scala测试 / 96
8.2 用Python测试 / 103
8.3 链接和参考 / 104
8.4 小结 / 105

第9章 技巧和窍门 / 107
9.1 日志位置 / 108
9.2 并发限制 / 108
9.3 内存使用与垃圾回收 / 109
9.4 序列化 / 110
9.5 IDE集成环境 / 111
9.6 Spark与其他语言 / 112
9.7 安全提示 / 113
9.8 邮件列表 / 113
9.9 链接和参考 / 113
9.10 小结 / 114





百度云盘私密分享链接:
链接:http://pan.baidu.com/s/1hrMY2lI

提取码,回复可见:



作者: 落叶踏雪    时间: 2016-10-18 10:26
我要**************************
作者: sunsky667    时间: 2016-10-18 10:34
感谢分享。。。。
作者: sunny1018    时间: 2016-10-18 10:34
提取码快到碗里来
作者: yifengxiaoyun    时间: 2016-10-18 10:38
let me see thx
作者: blackhero    时间: 2016-10-18 10:38
学习一下吧
作者: yleejazz    时间: 2016-10-18 11:05
这个很有用,感谢楼主
作者: 星辰猫    时间: 2016-10-18 11:10
好东西

作者: 535365643    时间: 2016-10-18 13:28
提取码aaaaaa
作者: 苏毛线    时间: 2016-10-18 16:39
qwerqwerqwerqwer
作者: medavis123    时间: 2016-10-19 10:48
不错,感谢分享
作者: jiaximoduo    时间: 2016-10-25 15:42
感谢分享
作者: xiasys001    时间: 2016-10-25 21:01
ssg get it looking at
作者: sm0210    时间: 2016-10-26 08:12
666666666666666
作者: 微微上翘    时间: 2016-11-16 21:34
好东西,学习学习
作者: china424    时间: 2016-11-20 17:08
jjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj
作者: wjiankun888    时间: 2016-11-22 23:59

感谢分享。
作者: elim168    时间: 2016-11-23 19:33
感谢分享
作者: wangxh    时间: 2016-12-21 10:32
谢谢楼主
作者: eternal1025    时间: 2017-2-28 11:07
谢谢分享   
作者: 104207438@qq.co    时间: 2017-3-1 16:02
23222222222222222222222
作者: 7511114    时间: 2017-3-4 23:57

很好,受教了,挺好的一個文檔
作者: StevenXu    时间: 2017-3-11 13:44
学习学习
作者: davidleeux    时间: 2017-6-26 12:43
学习学习@@@@
作者: crazyweeds    时间: 2017-9-2 13:45
很补哦的。
作者: cwx69156    时间: 2017-11-4 19:47
正需要,感谢分享
作者: 楚香蕉    时间: 2017-11-14 15:45
阿斯顿发撒旦法
作者: pw8588    时间: 2017-12-12 15:35
谢谢分享
谢谢分享
作者: lijohnj    时间: 2018-1-7 12:05
多谢分享
作者: 凡梦星尘    时间: 2018-4-17 14:07
学习PYTHON SPARK开发模式,谢谢分享
作者: 847214276    时间: 2018-5-6 15:34
看看看看
作者: vinvent    时间: 2018-5-16 22:15
come on fei
作者: JavaCai    时间: 2019-5-30 14:32
sssssssssssssssss
作者: 给我你的薯片    时间: 2020-4-26 12:42
感谢分享




欢迎光临 飞网论坛 (https://bbs.cfei.net/) Powered by Discuz! X3.2