d********w 发帖数: 363 | 1 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0
新旧API不同
进阶:
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure
数据流系统:streaming storm(twitter).
演练算法:
wordcount
terasort
字典同位词
翻译sql语句 select count(x) from a group by b; |
h********e 发帖数: 1972 | 2 interview question: what is Hadoop...
Answer: A yellow toy elephant.. |
H***e 发帖数: 476 | 3 好文。
namenode: avoid single point of failure
是什么意思? 现在nn不是还是single point of failure吗
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
d********w 发帖数: 363 | 4 呵呵,apache的项目就是喜欢用动物,还有pig,hive logo
【在 h********e 的大作中提到】 : interview question: what is Hadoop... : Answer: A yellow toy elephant..
|
h********e 发帖数: 1972 | 5 I heard that it is because the first guy who made the hadoop.. his son has a
yellow elephant named hadoop.. |
d********w 发帖数: 363 | 6 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。
【在 H***e 的大作中提到】 : 好文。 : namenode: avoid single point of failure : 是什么意思? 现在nn不是还是single point of failure吗
|
H***e 发帖数: 476 | 7 嗯。看你那句话,我还以为解决了呢 呵呵
【在 d********w 的大作中提到】 : 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有 : 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务. : 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。
|
h********e 发帖数: 1972 | 8 最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure
还原的时候传输量少.应该也是fb在做的一个
【在 d********w 的大作中提到】 : 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有 : 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务. : 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。
|
P**********c 发帖数: 3417 | 9 很想like一下。mitbbs也应该与时俱进弄个like按钮。
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
e***s 发帖数: 799 | |
|
|
e***l 发帖数: 710 | 11 问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有
直接提供运行环境的地方,比如Amazon? |
d********w 发帖数: 363 | 12 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。
还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来
amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户
么,需要花钱的。
这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题
,公司需要,这样才有可能学习到实际的东西。
【在 e***l 的大作中提到】 : 问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有 : 直接提供运行环境的地方,比如Amazon?
|
t********e 发帖数: 143 | 13 Thank you very much! I am very much interested to learn Hadoop.Should we
form a group to share learning experiences? |
L*****k 发帖数: 327 | 14 great!
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
B*******1 发帖数: 2454 | 15 So how to practice when learning if not working in a big company or big lab?
【在 d********w 的大作中提到】 : 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。 : 还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来 : amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户 : 么,需要花钱的。 : 这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题 : ,公司需要,这样才有可能学习到实际的东西。
|
d********w 发帖数: 363 | 16 知识是可以学,但可能会质疑你没有接触过真正的大数据,没有实际的经验,这也是我
经常遇到的问题,他们就喜欢问,你的数据集是哪里的,有多大,cluster大小,如何
处理高并发,高吞吐,low latency (real time), disaster recovery,数据还要
consistency, 这样问是不公平的,没有那个系统是万能的,hadoop也有很多应用限制
,它本意就是做批处理的,sequence读写,我也经常解释cap理论,你要实现某个特性
必然要牺牲别的,这也是为啥那么多nosql系统的出现,每个都号称自己scalable, 但
其实都是有瓶颈的。
lab?
【在 B*******1 的大作中提到】 : So how to practice when learning if not working in a big company or big lab?
|
n**0 发帖数: 136 | 17 lz很牛呀,最近面了不少公司嘛,有许多offer了吧
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
A*****i 发帖数: 1420 | |
c********l 发帖数: 8138 | 19 楼主好人
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
m*p 发帖数: 1331 | 20 Cassandra?
【在 h********e 的大作中提到】 : 最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure : 还原的时候传输量少.应该也是fb在做的一个
|
|
|
d********w 发帖数: 363 | 21 我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不
删除就起诉我侵权。
【在 A*****i 的大作中提到】 : 谁有电子版共享一下
|
s*********d 发帖数: 2406 | |
d********w 发帖数: 363 | |
x*h 发帖数: 757 | 24 楼主都拿到了哪家的offer?
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
c******n 发帖数: 710 | |
B******5 发帖数: 4676 | 26 有第二版?求link~
【在 d********w 的大作中提到】 : 这是第一版的
|
d********w 发帖数: 363 | 27 给我你的邮箱
【在 B******5 的大作中提到】 : 有第二版?求link~
|
c**q 发帖数: 94 | |
R***c 发帖数: 648 | 29 Please send me a copy: y*********[email protected] |
s*******l 发帖数: 3691 | |
|
|
h*******g 发帖数: 37 | 31 Thank you very much! Thank you!
Please send me a copy:
d*******[email protected] |
C**5 发帖数: 202 | 32 同求book chenchendallas @ hotmail.com |
J***n 发帖数: 391 | 33 3x.
j*********[email protected]
【在 d********w 的大作中提到】 : 给我你的邮箱
|
d********w 发帖数: 363 | 34 想不到大家这么热情,已经收到20分个求书的请求了,我快招架不住了,
http://hotfile.com/dl/148436456/dd194f2/Hadoop_The_Definitive_G
不知道我上传到这有没有问题呢?
【在 J***n 的大作中提到】 : 3x. : j*********[email protected]
|
k*****u 发帖数: 1688 | 35 re
学习一下
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
g***i 发帖数: 4272 | |
a******e 发帖数: 46 | |
m***n 发帖数: 2154 | 38 同求,做长远打算了。
w************[email protected]
thank you |
P***P 发帖数: 1387 | |
l**d 发帖数: 746 | 40 m******[email protected]
Thank you!
顺便问一下,老大有cloudera, hortonworks的面经么?
【在 d********w 的大作中提到】 : 我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不 : 删除就起诉我侵权。
|
|
|
d********w 发帖数: 363 | 41 我都发了啊,你去搜搜
【在 l**d 的大作中提到】 : m******[email protected] : Thank you! : 顺便问一下,老大有cloudera, hortonworks的面经么?
|
l**d 发帖数: 746 | 42 哦,不好意思,没看完回帖就骚扰你了,谢谢分享!
【在 d********w 的大作中提到】 : 我都发了啊,你去搜搜
|
q*******h 发帖数: 82 | 43 Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。 |
d********w 发帖数: 363 | 44 你比较过cassandra和hbase么
我项目中用到hbase,但目前感觉hbase问题很多,
1. 非常吃内存,16G内存都不够
2. 在高并发下,region server 失去相应,不得不手工重启region server
现在也想调研cassandra的性能情况
【在 q*******h 的大作中提到】 : Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加 : 入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个 : 特性还是很无敌的。 : 不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也 : 没有关系吧。
|
t*******7 发帖数: 108 | 45 cassandra 需要大量调试参数设置,否则性能很差。而且经常丢失一小部分数据 |
b**********e 发帖数: 61 | 46 could I have one please
b********[email protected]
many thx
【在 d********w 的大作中提到】 : 我都发了啊,你去搜搜
|
c********w 发帖数: 2438 | |
d********w 发帖数: 363 | 48 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0
新旧API不同
进阶:
Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,
memory, use combiner? use compression?
pig latin, Hive 简单语法
HBase, zookeeper 搭建
最新:
关注cloudera, hortonworks blog
next generation MR2框架
高可靠性, namenode: avoid single point of failure
数据流系统:streaming storm(twitter).
演练算法:
wordcount
terasort
字典同位词
翻译sql语句 select count(x) from a group by b; |
h********e 发帖数: 1972 | 49 interview question: what is Hadoop...
Answer: A yellow toy elephant.. |
H***e 发帖数: 476 | 50 好文。
namenode: avoid single point of failure
是什么意思? 现在nn不是还是single point of failure吗
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
|
|
d********w 发帖数: 363 | 51 呵呵,apache的项目就是喜欢用动物,还有pig,hive logo
【在 h********e 的大作中提到】 : interview question: what is Hadoop... : Answer: A yellow toy elephant..
|
h********e 发帖数: 1972 | 52 I heard that it is because the first guy who made the hadoop.. his son has a
yellow elephant named hadoop.. |
d********w 发帖数: 363 | 53 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有
解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务.
我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。
【在 H***e 的大作中提到】 : 好文。 : namenode: avoid single point of failure : 是什么意思? 现在nn不是还是single point of failure吗
|
H***e 发帖数: 476 | 54 嗯。看你那句话,我还以为解决了呢 呵呵
【在 d********w 的大作中提到】 : 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有 : 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务. : 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。
|
h********e 发帖数: 1972 | 55 最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure
还原的时候传输量少.应该也是fb在做的一个
【在 d********w 的大作中提到】 : 现在还没有呢,如果namenode挂了,就不行。有个secondary namenode, 但它还是没有 : 解决single point of failure,仅仅是备份一些nn的日志,它自己不能独立提供服务. : 我记得facebook在去年sigmod的paper上提到他们的改进NN,解决这个问题。
|
P**********c 发帖数: 3417 | 56 很想like一下。mitbbs也应该与时俱进弄个like按钮。
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
e***s 发帖数: 799 | |
e***l 发帖数: 710 | 58 问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有
直接提供运行环境的地方,比如Amazon? |
d********w 发帖数: 363 | 59 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。
还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来
amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户
么,需要花钱的。
这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题
,公司需要,这样才有可能学习到实际的东西。
【在 e***l 的大作中提到】 : 问题:在哪里练手Hadoop?比如自己配置运行,是不是得有好几台PC才有意义?有没有 : 直接提供运行环境的地方,比如Amazon?
|
t********e 发帖数: 143 | 60 Thank you very much! I am very much interested to learn Hadoop.Should we
form a group to share learning experiences? |
|
|
L*****k 发帖数: 327 | 61 great!
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
B*******1 发帖数: 2454 | 62 So how to practice when learning if not working in a big company or big lab?
【在 d********w 的大作中提到】 : 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。 : 还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来 : amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户 : 么,需要花钱的。 : 这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题 : ,公司需要,这样才有可能学习到实际的东西。
|
d********w 发帖数: 363 | 63 知识是可以学,但可能会质疑你没有接触过真正的大数据,没有实际的经验,这也是我
经常遇到的问题,他们就喜欢问,你的数据集是哪里的,有多大,cluster大小,如何
处理高并发,高吞吐,low latency (real time), disaster recovery,数据还要
consistency, 这样问是不公平的,没有那个系统是万能的,hadoop也有很多应用限制
,它本意就是做批处理的,sequence读写,我也经常解释cap理论,你要实现某个特性
必然要牺牲别的,这也是为啥那么多nosql系统的出现,每个都号称自己scalable, 但
其实都是有瓶颈的。
lab?
【在 B*******1 的大作中提到】 : So how to practice when learning if not working in a big company or big lab?
|
n**0 发帖数: 136 | 64 lz很牛呀,最近面了不少公司嘛,有许多offer了吧
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
A*****i 发帖数: 1420 | |
c********l 发帖数: 8138 | 66 楼主好人
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
m*p 发帖数: 1331 | 67 Cassandra?
【在 h********e 的大作中提到】 : 最近关于这方面的研究很火热。还有研究怎么把file encode起来,如果出现failure : 还原的时候传输量少.应该也是fb在做的一个
|
d********w 发帖数: 363 | 68 我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不
删除就起诉我侵权。
【在 A*****i 的大作中提到】 : 谁有电子版共享一下
|
s*********d 发帖数: 2406 | |
d********w 发帖数: 363 | |
|
|
x*h 发帖数: 757 | 71 楼主都拿到了哪家的offer?
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
c******n 发帖数: 710 | |
B******5 发帖数: 4676 | 73 有第二版?求link~
【在 d********w 的大作中提到】 : 这是第一版的
|
d********w 发帖数: 363 | 74 给我你的邮箱
【在 B******5 的大作中提到】 : 有第二版?求link~
|
c**q 发帖数: 94 | |
R***c 发帖数: 648 | 76 Please send me a copy: y*********[email protected] |
s*******l 发帖数: 3691 | |
h*******g 发帖数: 37 | 78 Thank you very much! Thank you!
Please send me a copy:
d*******[email protected] |
J***n 发帖数: 391 | 79 3x.
j*********[email protected]
【在 d********w 的大作中提到】 : 给我你的邮箱
|
d********w 发帖数: 363 | 80 想不到大家这么热情,已经收到20分个求书的请求了,我快招架不住了,
http://hotfile.com/dl/148436456/dd194f2/Hadoop_The_Definitive_G
不知道我上传到这有没有问题呢?
【在 J***n 的大作中提到】 : 3x. : j*********[email protected]
|
|
|
k*****u 发帖数: 1688 | 81 re
学习一下
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
g***i 发帖数: 4272 | |
a******e 发帖数: 46 | |
m***n 发帖数: 2154 | 84 同求,做长远打算了。
w************[email protected]
thank you |
P***P 发帖数: 1387 | |
l**d 发帖数: 746 | 86 m******[email protected]
Thank you!
顺便问一下,老大有cloudera, hortonworks的面经么?
【在 d********w 的大作中提到】 : 我可以给你,上次放在我的公共主页上,结果被google索引了,出版商说警告我如果不 : 删除就起诉我侵权。
|
d********w 发帖数: 363 | 87 我都发了啊,你去搜搜
【在 l**d 的大作中提到】 : m******[email protected] : Thank you! : 顺便问一下,老大有cloudera, hortonworks的面经么?
|
l**d 发帖数: 746 | 88 哦,不好意思,没看完回帖就骚扰你了,谢谢分享!
【在 d********w 的大作中提到】 : 我都发了啊,你去搜搜
|
q*******h 发帖数: 82 | 89 Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。 |
d********w 发帖数: 363 | 90 你比较过cassandra和hbase么
我项目中用到hbase,但目前感觉hbase问题很多,
1. 非常吃内存,16G内存都不够
2. 在高并发下,region server 失去相应,不得不手工重启region server
现在也想调研cassandra的性能情况
【在 q*******h 的大作中提到】 : Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加 : 入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个 : 特性还是很无敌的。 : 不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也 : 没有关系吧。
|
|
|
t*******7 发帖数: 108 | 91 cassandra 需要大量调试参数设置,否则性能很差。而且经常丢失一小部分数据 |
b**********e 发帖数: 61 | 92 could I have one please
b********[email protected]
many thx
【在 d********w 的大作中提到】 : 我都发了啊,你去搜搜
|
c********w 发帖数: 2438 | |
a*****s 发帖数: 1121 | 94 thanks。不知道楼主打算去哪家???俺是做Hadoop 调度研究的PhD。自己管大概200
个核的集群。 |
a*****s 发帖数: 1121 | 95 呵呵,俺有平台,俺自己的测试平台,除了测试的时候,可以大家共同学习,有兴趣,
说明来意,问俺要帐号,初学者就算了,至少也看过Hadoop 60%源代码以后再来吧。
a*****[email protected] 给俺发信,俺可以考虑给你个临时帐号。
【在 d********w 的大作中提到】 : 它有伪分布式启动方式,你可以在单机上运行,当然一般是为了调试代码了。 : 还有中方式是搞虚拟机了,不过你主机性能也要好,否则也跑不起来 : amazon ec2上有些是有带Hadoop的AMI,也可以用他们的EMR服务,但问题是你有账户 : 么,需要花钱的。 : 这个Hadoop确实需要很大精力和热情才能玩的,还是得是有个平台,比如你的科研课题 : ,公司需要,这样才有可能学习到实际的东西。
|
d********w 发帖数: 363 | 96 ok,你把我的帖子全把出来了。。。
【在 a*****s 的大作中提到】 : 呵呵,俺有平台,俺自己的测试平台,除了测试的时候,可以大家共同学习,有兴趣, : 说明来意,问俺要帐号,初学者就算了,至少也看过Hadoop 60%源代码以后再来吧。 : a*****[email protected] 给俺发信,俺可以考虑给你个临时帐号。
|
a****a 发帖数: 186 | 97 谢谢lz分享,另外惹一下这位好心人。
【在 a*****s 的大作中提到】 : 呵呵,俺有平台,俺自己的测试平台,除了测试的时候,可以大家共同学习,有兴趣, : 说明来意,问俺要帐号,初学者就算了,至少也看过Hadoop 60%源代码以后再来吧。 : a*****[email protected] 给俺发信,俺可以考虑给你个临时帐号。
|
A********a 发帖数: 1846 | |
q*******h 发帖数: 82 | 99 不好意思,没用过论坛的功能,回答的可能比较晚了。
Cassandra是要求反映快,输出大
Hbase反映一直很慢,做数据仓库用的。用途好像真不一样。
【在 d********w 的大作中提到】 : 你比较过cassandra和hbase么 : 我项目中用到hbase,但目前感觉hbase问题很多, : 1. 非常吃内存,16G内存都不够 : 2. 在高并发下,region server 失去相应,不得不手工重启region server : 现在也想调研cassandra的性能情况
|
E*******0 发帖数: 465 | |
|
|
Z*****Z 发帖数: 723 | 101 赞分享
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
P********e 发帖数: 387 | 102 mark
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr........
★ Sent from iPhone App: iReader Mitbbs 7.56 - iPad Lite
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
l****c 发帖数: 782 | |
w****x 发帖数: 2483 | |
l****c 发帖数: 782 | 105 hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)
【在 w****x 的大作中提到】 : 有速成的吗?
|
t****a 发帖数: 1212 | |
Q*******e 发帖数: 939 | |
t********e 发帖数: 1169 | |
c******t 发帖数: 391 | |
m*********n 发帖数: 119 | 110 有速成的吗?
我没有F,不是大牛
【在 l****c 的大作中提到】 : hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)
|
|
|
i****y 发帖数: 58 | 111 mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。 |
r******g 发帖数: 138 | 112 楼主是买的书吗还是有pdf文档?可以分享吗?谢谢 |
h****n 发帖数: 1093 | 113 深有同感。。。
上次面被问了一个有关数据库的系统设计,直接慌了,唉,还是基础不好
【在 i****y 的大作中提到】 : mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。
|
l****o 发帖数: 315 | 114 dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。 |
a********m 发帖数: 15480 | 115 赞。该骂克!
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
w****x 发帖数: 2483 | 116
Dong fei是一个我很仰慕的大牛
【在 l****o 的大作中提到】 : dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。
|
C*******n 发帖数: 24 | 117 对这个很感兴趣,多谢楼主分享经验。
另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经
验,只是自学的时候做个toy project他们也可以要? |
i*o 发帖数: 149 | 118 paxos 太底层了吧。
【在 t********e 的大作中提到】 : 要把paxos吃透
|
d********w 发帖数: 363 | 119 自学也可以啊,可以捣鼓ec2虚拟机上搭建集群,跑一些job。不过很多时候面试官问你
实际的经验,不喜欢纸上谈兵,大数据量和cluster是很难个人玩的。
【在 C*******n 的大作中提到】 : 对这个很感兴趣,多谢楼主分享经验。 : 另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经 : 验,只是自学的时候做个toy project他们也可以要?
|
k****r 发帖数: 807 | 120 大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知
道他们会不会介意呢?能提供些经验吗?谢谢 |
|
|
d********w 发帖数: 363 | 121 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基
本的coding,我被问过实现读写锁,当时也忘了。
【在 k****r 的大作中提到】 : 大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知 : 道他们会不会介意呢?能提供些经验吗?谢谢
|
l****o 发帖数: 315 | 122 你们两位我都很仰慕...
【在 w****x 的大作中提到】 : : Dong fei是一个我很仰慕的大牛
|
k****r 发帖数: 807 | 123 Thank you so much.
能展开说下实现读写锁吗,谢谢。
【在 d********w 的大作中提到】 : 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基 : 本的coding,我被问过实现读写锁,当时也忘了。
|
l****c 发帖数: 782 | |
w****x 发帖数: 2483 | |
l****c 发帖数: 782 | 126 hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)
【在 w****x 的大作中提到】 : 有速成的吗?
|
t****a 发帖数: 1212 | |
t********e 发帖数: 1169 | |
c******t 发帖数: 391 | |
m*********n 发帖数: 119 | 130 有速成的吗?
我没有F,不是大牛
【在 l****c 的大作中提到】 : hehe, 大牛应该在F争取留下才是吧,还学这个干啥:)
|
|
|
i****y 发帖数: 58 | 131 mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。 |
r******g 发帖数: 138 | 132 楼主是买的书吗还是有pdf文档?可以分享吗?谢谢 |
h****n 发帖数: 1093 | 133 深有同感。。。
上次面被问了一个有关数据库的系统设计,直接慌了,唉,还是基础不好
【在 i****y 的大作中提到】 : mark!!! 面试的时候就害怕问到这方面的。。。基础不扎实不全面就是心虚啊。。。
|
l****o 发帖数: 315 | 134 dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。 |
a********m 发帖数: 15480 | 135 赞。该骂克!
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
w****x 发帖数: 2483 | 136
Dong fei是一个我很仰慕的大牛
【在 l****o 的大作中提到】 : dongfei到底是哪里的高人。。你几乎每篇帖子我都得收藏一下。
|
C*******n 发帖数: 24 | 137 对这个很感兴趣,多谢楼主分享经验。
另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经
验,只是自学的时候做个toy project他们也可以要? |
i*o 发帖数: 149 | 138 paxos 太底层了吧。
【在 t********e 的大作中提到】 : 要把paxos吃透
|
d********w 发帖数: 363 | 139 自学也可以啊,可以捣鼓ec2虚拟机上搭建集群,跑一些job。不过很多时候面试官问你
实际的经验,不喜欢纸上谈兵,大数据量和cluster是很难个人玩的。
【在 C*******n 的大作中提到】 : 对这个很感兴趣,多谢楼主分享经验。 : 另外问一下楼主,想找Hadoop相关的工作,通过自学就行吗?没有相关的工作或实习经 : 验,只是自学的时候做个toy project他们也可以要?
|
k****r 发帖数: 807 | 140 大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知
道他们会不会介意呢?能提供些经验吗?谢谢 |
|
|
d********w 发帖数: 363 | 141 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基
本的coding,我被问过实现读写锁,当时也忘了。
【在 k****r 的大作中提到】 : 大牛最后去了那个C家吗?下周有他家的面试,java一般的很,之前用c/c++,不知 : 道他们会不会介意呢?能提供些经验吗?谢谢
|
l****o 发帖数: 315 | 142 你们两位我都很仰慕...
【在 w****x 的大作中提到】 : : Dong fei是一个我很仰慕的大牛
|
k****r 发帖数: 807 | 143 Thank you so much.
能展开说下实现读写锁吗,谢谢。
【在 d********w 的大作中提到】 : 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基 : 本的coding,我被问过实现读写锁,当时也忘了。
|
B***i 发帖数: 297 | 144 我这干了多年的'数据仓库'就完啦?以后都是'大数据' 和Hadoopde1 天下?呜呼! |
z****e 发帖数: 54598 | 145 不太可能
都搞hadoop了,一般不会直接面fresh,看简历,用过什么语言一目了然
要不然说让没倒腾过java的去调整jvm参数?这个也夸张了点
【在 d********w 的大作中提到】 : 既然让你去面试,就不会care语言了,感觉C家还是挺难进的,什么都要准备,除了基 : 本的coding,我被问过实现读写锁,当时也忘了。
|
l*****t 发帖数: 2019 | 146 这个說得对。说课余时间玩儿过hadoop就可了。hadoop装hands-on对死的很惨。很多实
战问题你google都骨不到。
【在 z****e 的大作中提到】 : 不太可能 : 都搞hadoop了,一般不会直接面fresh,看简历,用过什么语言一目了然 : 要不然说让没倒腾过java的去调整jvm参数?这个也夸张了点
|
v***n 发帖数: 562 | |
c********p 发帖数: 1969 | |
r********d 发帖数: 7742 | 149 好贴,终于有一个好的starter guide了,早就下了那本书,也一直想玩玩hadoop,但
是一直没有付诸行动。楼主的贴真是醍醐灌顶,挖坟的人真是慧眼识金啊。收藏了。
不知道有没有大牛了解,用一些raspery pi和几片lego能不能褡出来一个toy的系统来
耍?
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
q****o 发帖数: 57 | |
|
|
u*****o 发帖数: 1224 | |
t******i 发帖数: 483 | |
h********g 发帖数: 496 | |
J*********r 发帖数: 5921 | |
i***u 发帖数: 89 | 155 最近实在太火
【在 d********w 的大作中提到】 : 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司 : (hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum, : 二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook, : twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。 : 书籍和paper : : 里面内容非常好,既有高屋建瓴,又有微观把握, : 比如mapreduce各个子阶段,经常问道join在里面也有代码实现, : google的三量马车,GFS, MapReduce, BigTable : 入门: : 知道MapReduce大致流程,map, shuffle, reduce
|
d********w 发帖数: 363 | 156 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的
,我就继续补充,希望抛砖引玉。
[2013]新补充
Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.
0的核心是YARN,它的诞生还是有趣的故事
http://tech.qq.com/a/20130703/015928.htm
Yarn介绍
http://hortonworks.com/hadoop/yarn/
Hadoop 生态系统
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
一些感想
1. 这个领域还是印度人占主体,Hortonworks挺喜欢开源,开发节奏很快,cloudera的
拳头产品enterprise manager又是收费的,估计最后也是被H逼着要开源了。
2. 真正搞Hadoop开发的难度很大,分布式系统很复杂,而开源使得竞争压力很大。
3. 核心都是被寡头控制的,记得一边文章说一流的公司卖标准,二流的公司卖技术,
三流的公司卖产品,上面的几个公司
4. 技术就是日新月异,还是多看看那些公司的博客,发布新产品,比如hortonworks.
com/hadoop/ambari,我research project跟这个类似。
【在 i***u 的大作中提到】 : 最近实在太火
|
z****e 发帖数: 54598 | 157 现在还有些难度
但是随着spring朝着这个领域进军,门槛会越来越低
迟早有一天,hadoop和cassandra会变成spring和hibernate一样
变成java程序猿的标配
那一天来的时候,也就是big data真正火爆全球的时候
到时候就业机会会像更多,更火爆
现在要做的就是
做好准备,等稳定的2.0版本出来,就开始推广
推广到全世界去,实现公孙大神说过的全民皆编
让开源变成人民战争的汪洋大海
2.
【在 d********w 的大作中提到】 : 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的 : ,我就继续补充,希望抛砖引玉。 : [2013]新补充 : Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2. : 0的核心是YARN,它的诞生还是有趣的故事 : http://tech.qq.com/a/20130703/015928.htm : Yarn介绍 : http://hortonworks.com/hadoop/yarn/ : Hadoop 生态系统 : http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
|
z****e 发帖数: 54598 | |
w**********o 发帖数: 140 | |
z****e 发帖数: 54598 | 160 认真观察了一下hadoop新版
简直就是一个小型实现得很不彻底的j2ee系统
有些项目连jmx都用上了
yarn里面node manager都有container这个概念了
通信还有rmi这些
都不是很简单的java概念
如果没有一定的基础和经验
感觉连文档都看不懂
一个最简单的yarn代码看起来都会万分痛苦
【在 d********w 的大作中提到】 : 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的 : ,我就继续补充,希望抛砖引玉。 : [2013]新补充 : Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2. : 0的核心是YARN,它的诞生还是有趣的故事 : http://tech.qq.com/a/20130703/015928.htm : Yarn介绍 : http://hortonworks.com/hadoop/yarn/ : Hadoop 生态系统 : http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
|
|
|
z****e 发帖数: 54598 | 161 太复杂,nerd们又把问题复杂化了
client要先找resource manager,然后resource manager启动application master
再去找node manager,然后通过node的container来处理请求
嘿嘿,这个过程真不是一般的复杂,感觉比ejb要难 |
l*******X 发帖数: 28 | 162 全民皆编,有这个需求么
【在 z****e 的大作中提到】 : 现在还有些难度 : 但是随着spring朝着这个领域进军,门槛会越来越低 : 迟早有一天,hadoop和cassandra会变成spring和hibernate一样 : 变成java程序猿的标配 : 那一天来的时候,也就是big data真正火爆全球的时候 : 到时候就业机会会像更多,更火爆 : 现在要做的就是 : 做好准备,等稳定的2.0版本出来,就开始推广 : 推广到全世界去,实现公孙大神说过的全民皆编 : 让开源变成人民战争的汪洋大海
|
a*****u 发帖数: 1712 | 163 mark
★ 发自iPhone App: ChineseWeb 7.8
【在 d********w 的大作中提到】 : 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的 : ,我就继续补充,希望抛砖引玉。 : [2013]新补充 : Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2. : 0的核心是YARN,它的诞生还是有趣的故事 : http://tech.qq.com/a/20130703/015928.htm : Yarn介绍 : http://hortonworks.com/hadoop/yarn/ : Hadoop 生态系统 : http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
|
d*******u 发帖数: 5337 | |
s********r 发帖数: 403 | 165 rw lock 要注意 reader 可能 block writer, writer starvation.
最好提一下 rw lock 的改进算法。
【在 k****r 的大作中提到】 : Thank you so much. : 能展开说下实现读写锁吗,谢谢。
|
s********r 发帖数: 403 | 166 Map reduce 的大量 research 投入在 5年前,
现在 framework 基本成熟,正是大规模商业化应用的阶段。
和所有曾经红极一时的技术一样,都有个hot spot,想跳的需要抓住时机,晚了就捞不
到了。
【在 d********w 的大作中提到】 : 帖子是一年前的,最近一年也没太多关注,今天整理了一些,Hadoop发展变化非常大的 : ,我就继续补充,希望抛砖引玉。 : [2013]新补充 : Hadoop 2.0正式版马上要发布了,Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2. : 0的核心是YARN,它的诞生还是有趣的故事 : http://tech.qq.com/a/20130703/015928.htm : Yarn介绍 : http://hortonworks.com/hadoop/yarn/ : Hadoop 生态系统 : http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-g
|
e******u 发帖数: 1067 | 167 你的意思是现在是hadoop最好的时机?
但是如果没有经验只有自学,怎么往这方向上跳呢?
【在 s********r 的大作中提到】 : Map reduce 的大量 research 投入在 5年前, : 现在 framework 基本成熟,正是大规模商业化应用的阶段。 : 和所有曾经红极一时的技术一样,都有个hot spot,想跳的需要抓住时机,晚了就捞不 : 到了。
|
s********r 发帖数: 403 | 168 关于这个问题,好心的楼主已经作了解答 并share了一些经验
Hadoop 是开源社区搞的,学习资料一般都很全面
【在 e******u 的大作中提到】 : 你的意思是现在是hadoop最好的时机? : 但是如果没有经验只有自学,怎么往这方向上跳呢?
|
r****s 发帖数: 1025 | 169 MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。
这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象(
知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要
10秒。不过最终还是可以给你算出来。
Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是
把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。
现在玩的就是怎么代替MapReduce。
这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的
是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。
Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没
有,属于胡搅蛮缠凑热闹的。
另外说一句,Hive是Facebook的东西,Dremel是Google的,两公司差距不小。 |
z****e 发帖数: 54598 | 170 前面说这东西很复杂很慢
后面说某个东西无法被超越,按照中国人写文章的习惯
最后一句是点睛之笔,所以看来本意是想吹嘘说某个公司的产品不可替代
这个无间道玩得还是很高级的嘛
楼主出来介绍新产品看来让某些奴隶主的手下有些坐不住了
没有关系,你越激动,就越说明这些东西正在起作用
给予足够的时间,这些差距就能被缩小甚至抹平
不需要百分百超越,能做到50%其实就已经有足够的威力鸟
山寨的趋势不可避免,mapreduce已经要被放弃鸟
hive要是不做数据分析和挖掘用了干嘛?
大多数人只需要用mapreduce搞定基本的查询功能就好了
宏观数据那是领导层想的事,而且也的确不怎么讲究效率
就是等一个晚上出个报表又怎样?
话说看你这样气急败坏还是很好玩的
继续告诉所有人说开源跟这个跟那个的差距不小
没有关系,开源会跟着你,一点一点逼近
【在 r****s 的大作中提到】 : MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。 : 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象( : 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要 : 10秒。不过最终还是可以给你算出来。 : Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是 : 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。 : 现在玩的就是怎么代替MapReduce。 : 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的 : 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。 : Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没
|
|
|
s********r 发帖数: 403 | 171 针对某个 program, 并发系统的加速比受 data dependency 的制约, 其上限为: 1/(p
+(1-p)/N)
p 是程序中 serial sequence 不可加速部分,N 是处理器的数量,很明显,即使
N 趋于无穷, 能获得的最大加速也就只有 1/p。
因此,Map Reduce 也好, MPI 也好, OpenMP, CUDA 。。。所从事的加速,是Data
Level Parallelism (or Weak Scaling),并不是指令并发。
而衡量DLP 的 performance, 主要是 throughput, 不是 Latency。
一个Hadoop ,企业级 deployment,也就有几百个结点,如果碰到10万个结点的系统,
用来处理 Select, 4行小文件,也是不会快的。
【在 r****s 的大作中提到】 : MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。 : 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象( : 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要 : 10秒。不过最终还是可以给你算出来。 : Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是 : 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。 : 现在玩的就是怎么代替MapReduce。 : 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的 : 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。 : Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没
|
d********w 发帖数: 363 | 172 顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的
复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他
就写了篇文章吐槽
“实践并不是检验真理的唯一标准”
http://i.stanford.edu/~ullman/pub/experiments.pdf
(p
【在 s********r 的大作中提到】 : 针对某个 program, 并发系统的加速比受 data dependency 的制约, 其上限为: 1/(p : +(1-p)/N) : p 是程序中 serial sequence 不可加速部分,N 是处理器的数量,很明显,即使 : N 趋于无穷, 能获得的最大加速也就只有 1/p。 : 因此,Map Reduce 也好, MPI 也好, OpenMP, CUDA 。。。所从事的加速,是Data : Level Parallelism (or Weak Scaling),并不是指令并发。 : 而衡量DLP 的 performance, 主要是 throughput, 不是 Latency。 : 一个Hadoop ,企业级 deployment,也就有几百个结点,如果碰到10万个结点的系统, : 用来处理 Select, 4行小文件,也是不会快的。
|
h*****a 发帖数: 1718 | 173 赞大牛,太专业了!
【在 d********w 的大作中提到】 : 顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的 : 复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他 : 就写了篇文章吐槽 : “实践并不是检验真理的唯一标准” : http://i.stanford.edu/~ullman/pub/experiments.pdf : : (p
|
f*****6 发帖数: 61 | 174 大牛,能给些大中小的公司,是做大数据和hadoop方面相关的吗。谢谢。 |
r****s 发帖数: 1025 | 175 对,没错,你这属于theoretical junk,正确的废话。很正确,但是对MapReduce的当前
替代
者来说,没有任何关系。比如Impala, http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_prereqs.html 看看这里的hardware requirement,我草,黑老子一跳,这尼玛还是commodity hardware+parallel processing吗?明摆着是用big ass server来vertically scale up。
(p
【在 s********r 的大作中提到】 : 针对某个 program, 并发系统的加速比受 data dependency 的制约, 其上限为: 1/(p : +(1-p)/N) : p 是程序中 serial sequence 不可加速部分,N 是处理器的数量,很明显,即使 : N 趋于无穷, 能获得的最大加速也就只有 1/p。 : 因此,Map Reduce 也好, MPI 也好, OpenMP, CUDA 。。。所从事的加速,是Data : Level Parallelism (or Weak Scaling),并不是指令并发。 : 而衡量DLP 的 performance, 主要是 throughput, 不是 Latency。 : 一个Hadoop ,企业级 deployment,也就有几百个结点,如果碰到10万个结点的系统, : 用来处理 Select, 4行小文件,也是不会快的。
|
s******e 发帖数: 146 | 176 多谢分享。
【在 d********w 的大作中提到】 : 顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的 : 复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他 : 就写了篇文章吐槽 : “实践并不是检验真理的唯一标准” : http://i.stanford.edu/~ullman/pub/experiments.pdf : : (p
|
d********w 发帖数: 363 | 177 公司太多了,
你自己找感兴趣的吧,http://wiki.apache.org/hadoop/PoweredBy
【在 f*****6 的大作中提到】 : 大牛,能给些大中小的公司,是做大数据和hadoop方面相关的吗。谢谢。
|
d********w 发帖数: 363 | 178 推荐一个电子书:Mining of Massive Datasets
http://i.stanford.edu/~ullman/mmds.html
【在 d********w 的大作中提到】 : 公司太多了, : 你自己找感兴趣的吧,http://wiki.apache.org/hadoop/PoweredBy
|
p*****2 发帖数: 21240 | 179
大牛说说这hadoop一般要学多久呀?
【在 d********w 的大作中提到】 : 推荐一个电子书:Mining of Massive Datasets : http://i.stanford.edu/~ullman/mmds.html
|
s********r 发帖数: 403 | 180 没见特别牛鼻的 hardware requirement ,
普通的 HPC 实验室配置,一般一个节点都有20个1T-1.5T 的disk,外加Kepler GPU,
8-core 的 CPU + 24G/32G RAM 是基本要求。
在去年的超算年会上,这种都是正儿八经的commodity hardware+parallel processing
non-commodity hardware, 哪是这种样子的,特殊硬件架构,比这稀奇的多得去了。
【在 r****s 的大作中提到】 : 对,没错,你这属于theoretical junk,正确的废话。很正确,但是对MapReduce的当前 : 替代 : 者来说,没有任何关系。比如Impala, http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_prereqs.html 看看这里的hardware requirement,我草,黑老子一跳,这尼玛还是commodity hardware+parallel processing吗?明摆着是用big ass server来vertically scale up。 : : (p
|
|
|
s********r 发帖数: 403 | 181 这个要 case by case,一般大牛们的文章,发到 theoretical 的会议当然是受欢迎的。
不过如果有 industrial 的人作 committee,他们一看,推导这么复杂,因为领导们也
是大忙人,没有时间花几个晚上一步步推算验证,所以就会直接问 “试验结果在什么
地方”?
因为衡量标准不同,业界的东西必需能够 work, as expected。
【在 d********w 的大作中提到】 : 顺便扯一下蛋,数据库领域顶级大牛stanford 教授Jeff Ullman最近证明MapReduce的 : 复杂度上限,投到VLDB被拒了,reviewer认为里面没有实验部分,not believable. 他 : 就写了篇文章吐槽 : “实践并不是检验真理的唯一标准” : http://i.stanford.edu/~ullman/pub/experiments.pdf : : (p
|
r********d 发帖数: 7742 | 182 菜鸟弱问一句,如果就是扯淡,为什么大家都在用?
或者说至少之前大家都在用呢?
【在 r****s 的大作中提到】 : MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。 : 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象( : 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要 : 10秒。不过最终还是可以给你算出来。 : Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是 : 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。 : 现在玩的就是怎么代替MapReduce。 : 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的 : 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。 : Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没
|
r****s 发帖数: 1025 | 183 还在学校里,没开始工作吧?
你这也叫commodity hardware, 一上来就是几千上万个node的,少侠能不能介绍一下具
体指的是哪个公司啊?
,
processing
【在 s********r 的大作中提到】 : 没见特别牛鼻的 hardware requirement , : 普通的 HPC 实验室配置,一般一个节点都有20个1T-1.5T 的disk,外加Kepler GPU, : 8-core 的 CPU + 24G/32G RAM 是基本要求。 : 在去年的超算年会上,这种都是正儿八经的commodity hardware+parallel processing : non-commodity hardware, 哪是这种样子的,特殊硬件架构,比这稀奇的多得去了。
|
r****s 发帖数: 1025 | 184 因为除了MapReduce没别的好用了,大家就忍了。
现在大家觉得MapReduce太慢了,所以Cloudera才开始全部上内存,Cloudera的意思是
,你如果要处理1T的数据,那就得要1T的内存,不够,就crash,问你怕未?
Doug Cutting就在Cloudera,MapReduce就是他最先做出来的。
那个啥HortonWorks的阿三就在瞎JB吹,有本事就去Apache Drill把东西做出来--对了
,Apache Drill是MapR。
【在 r********d 的大作中提到】 : 菜鸟弱问一句,如果就是扯淡,为什么大家都在用? : 或者说至少之前大家都在用呢?
|
r********d 发帖数: 7742 | 185 大数据全上内存不现实吧。
btw,你有很多实际经验,你写一篇分析各个系统优劣的文章,我们学习一下吧。
要不然对这些最新技术我们都是雾里看花。
【在 r****s 的大作中提到】 : 因为除了MapReduce没别的好用了,大家就忍了。 : 现在大家觉得MapReduce太慢了,所以Cloudera才开始全部上内存,Cloudera的意思是 : ,你如果要处理1T的数据,那就得要1T的内存,不够,就crash,问你怕未? : Doug Cutting就在Cloudera,MapReduce就是他最先做出来的。 : 那个啥HortonWorks的阿三就在瞎JB吹,有本事就去Apache Drill把东西做出来--对了 : ,Apache Drill是MapR。
|
s********r 发帖数: 403 | 186 这些都不是公司,是research center的,公司用这么大规模的系统,
连电费都付不起。
但正因为不是公司的系统平台,找工作出现了问题,Position 都要Citizenship 的,
专注low level 细节派不上用场,学半天白干一场。
还不如一开始就 Hadoop 呢。
【在 r****s 的大作中提到】 : 还在学校里,没开始工作吧? : 你这也叫commodity hardware, 一上来就是几千上万个node的,少侠能不能介绍一下具 : 体指的是哪个公司啊? : : , : processing
|
r****s 发帖数: 1025 | 187 看出问题来了吧?
Hadoop没有啥各系统的,大家都基于DFS,然后在MapReduce上做改动。学习这东西也很
简单,买几个desktop,一两千块钱的事,自己在家里就可以搭个小cluster。Linux也
是免费的。自己下一个Cloudera,或者plain vanila的Apache Hadoop,装个MySql,不就
啥都明白了吗?至于那么难吗? |
d*********s 发帖数: 777 | |
y***t 发帖数: 644 | 189 现在哪用得着自己买系统. 直接在Amazon上租几台就行了。
【在 r****s 的大作中提到】 : 看出问题来了吧? : Hadoop没有啥各系统的,大家都基于DFS,然后在MapReduce上做改动。学习这东西也很 : 简单,买几个desktop,一两千块钱的事,自己在家里就可以搭个小cluster。Linux也 : 是免费的。自己下一个Cloudera,或者plain vanila的Apache Hadoop,装个MySql,不就 : 啥都明白了吗?至于那么难吗?
|
y***t 发帖数: 644 | |
|
|
l*****t 发帖数: 2019 | 191 俺就小声说一句, 你给的那个select 不trigger mapred的。
【在 r****s 的大作中提到】 : MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。 : 这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象( : 知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要 : 10秒。不过最终还是可以给你算出来。 : Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是 : 把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。 : 现在玩的就是怎么代替MapReduce。 : 这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的 : 是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。 : Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没
|
l*****t 发帖数: 2019 | 192 估计run 几个impala join马上不fit memory就爆了。
,
processing
【在 s********r 的大作中提到】 : 没见特别牛鼻的 hardware requirement , : 普通的 HPC 实验室配置,一般一个节点都有20个1T-1.5T 的disk,外加Kepler GPU, : 8-core 的 CPU + 24G/32G RAM 是基本要求。 : 在去年的超算年会上,这种都是正儿八经的commodity hardware+parallel processing : non-commodity hardware, 哪是这种样子的,特殊硬件架构,比这稀奇的多得去了。
|
l*****t 发帖数: 2019 | 193 我怎么觉得人说得是现在的标配。
【在 r****s 的大作中提到】 : 还在学校里,没开始工作吧? : 你这也叫commodity hardware, 一上来就是几千上万个node的,少侠能不能介绍一下具 : 体指的是哪个公司啊? : : , : processing
|
r****s 发帖数: 1025 | 194 随便加个where clause就行了
【在 l*****t 的大作中提到】 : 俺就小声说一句, 你给的那个select 不trigger mapred的。
|
l*****t 发帖数: 2019 | 195 所以我小声说么。小声说:要严谨。。
【在 r****s 的大作中提到】 : 随便加个where clause就行了
|
x*****0 发帖数: 452 | |
H*******g 发帖数: 6997 | 197 +11111
zhaoce,你谈谈Linq To HIVE? |
x*********s 发帖数: 4 | |
p*********e 发帖数: 5 | |
g****l 发帖数: 213 | |
|
|
A***g 发帖数: 1816 | |
m****c 发帖数: 252 | |
t******i 发帖数: 483 | |
f*******b 发帖数: 520 | |
h******6 发帖数: 2697 | |
c******y 发帖数: 3269 | |
n*****n 发帖数: 5277 | |
n*****n 发帖数: 5277 | |
j*****8 发帖数: 3635 | 209 这么好的文章居然不知道,多谢楼上顶出来的兄弟!! |
z**********g 发帖数: 26 | |
|
|
j*****d 发帖数: 1625 | |
z****e 发帖数: 54598 | 212 lol
这些都看完了还不知道java的话,也不容易
里面一堆的jvm调优这些,几乎所有例子都是java写的
要不会java也能搞出来那叫真牛逼
【在 j*****d 的大作中提到】 : 这都看完了,不需要知道java了吧
|
z****e 发帖数: 54598 | 213 spark
【在 d********w 的大作中提到】 : 推荐一个电子书:Mining of Massive Datasets : http://i.stanford.edu/~ullman/mmds.html
|
z****e 发帖数: 54598 | 214 东肥更新一下这个贴吧
这个列表大部分都凹凸了
尤其是2.0和spark出来之后
改变还是很明显的
【在 d********w 的大作中提到】 : 推荐一个电子书:Mining of Massive Datasets : http://i.stanford.edu/~ullman/mmds.html
|
d********w 发帖数: 363 | 215 Spark就是 看这个DOC就好了
http://spark.apache.org/docs/latest/index.html
演讲参见
http://spark-summit.org/2014
现在也没有多少资料可以查询
【在 z****e 的大作中提到】 : 东肥更新一下这个贴吧 : 这个列表大部分都凹凸了 : 尤其是2.0和spark出来之后 : 改变还是很明显的
|
y**********a 发帖数: 824 | |
m****x 发帖数: 12 | |
c***z 发帖数: 6348 | 218 学习了
多谢大牛分享
可以转贴到数据科学版么 |
w**2 发帖数: 147 | 219 谢谢,能推荐一些hadoop python streaming interface的资料吗?
【在 d********w 的大作中提到】 : Spark就是 看这个DOC就好了 : http://spark.apache.org/docs/latest/index.html : 演讲参见 : http://spark-summit.org/2014 : 现在也没有多少资料可以查询
|
v******l 发帖数: 60 | |
|
|
J*******o 发帖数: 741 | |
b*******g 发帖数: 757 | |
b******z 发帖数: 410 | 223 M
★ 发自iPhone App: ChineseWeb 8.7
【在 d********w 的大作中提到】 : Spark就是 看这个DOC就好了 : http://spark.apache.org/docs/latest/index.html : 演讲参见 : http://spark-summit.org/2014 : 现在也没有多少资料可以查询
|
s******s 发帖数: 2837 | |
t*******e 发帖数: 274 | |