由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请问大家有没有直接用java全程写mapreduce的程序的?
相关主题
hive 里面的UDF会被几个node同时运行么?data scientist position
如何学习Hadoop?HIVE load CSV 问题请教
大数据这个东西,如果用hive,岂不是跟SQL差不多了求教! how to run python programs on a hadoop cluster
求Hadoop项目练手我觉得关于datascience最近看到的几个有价值的贴
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?Pig 问题请教
一个白痴问题,如何把access的表格 导入hadoop里面去Pig word count
Pig UDF written in Python妹纸物理phd转data science求建议
pig能做iterative的问题吗?三星samsung创新部门招大数据工程师 (转载)
相关话题的讨论汇总
话题: java话题: python话题: hive话题: hadoop话题: udf
进入DataSciences版参与讨论
1 (共1页)
t*********u
发帖数: 26311
1
还是用pig+UDF?
c****t
发帖数: 19049
2
全成java有啥吗好处?

【在 t*********u 的大作中提到】
: 还是用pig+UDF?
l*******s
发帖数: 1258
3
那得是当engineer使 这事我干过 当时还是developer
t*********u
发帖数: 26311
4
我就想问问到底DS的要求程度

【在 c****t 的大作中提到】
: 全成java有啥吗好处?
c****t
发帖数: 19049
5
吊丝当然都上pig。当然你要能全程java下来那你是人才还是老年的虽然大概没人要你
干这个

【在 t*********u 的大作中提到】
: 我就想问问到底DS的要求程度
t*********u
发帖数: 26311
6
我只是想看看有没有稍微复杂点的用java全程写的例子
便于理解 和学习
PS
UDF的大众选择是java还是python?

【在 c****t 的大作中提到】
: 吊丝当然都上pig。当然你要能全程java下来那你是人才还是老年的虽然大概没人要你
: 干这个

j*****n
发帖数: 1545
7
能写 java 写 java, 不能写 java 的人就只能写 python. Python 后台也会被
translate 成 java 跑( jython + python interpreter ).
S******y
发帖数: 1123
8
Hive, Pig, Hadoop streaming via Python
n*****3
发帖数: 1584
9
I think since the hadoop has been well developed, ppl will not
write java for analysis purpose under 90% situation. script language is just
fine
If you want (near) real time result, new tools/frame are out there now.

【在 S******y 的大作中提到】
: Hive, Pig, Hadoop streaming via Python
t*********u
发帖数: 26311
10
please elaborate about the new tools /frame
thanks

just

【在 n*****3 的大作中提到】
: I think since the hadoop has been well developed, ppl will not
: write java for analysis purpose under 90% situation. script language is just
: fine
: If you want (near) real time result, new tools/frame are out there now.

相关主题
一个白痴问题,如何把access的表格 导入hadoop里面去data scientist position
Pig UDF written in PythonHIVE load CSV 问题请教
pig能做iterative的问题吗?求教! how to run python programs on a hadoop cluster
进入DataSciences版参与讨论
c****t
发帖数: 19049
11
大众选则是js吧

【在 t*********u 的大作中提到】
: 我只是想看看有没有稍微复杂点的用java全程写的例子
: 便于理解 和学习
: PS
: UDF的大众选择是java还是python?

z****e
发帖数: 54598
12
ft
你用js怎么做建模?
js连像样的数学库都没有

【在 c****t 的大作中提到】
: 大众选则是js吧
k*******n
发帖数: 190
13
我最近两星期用JAVA写了一个,同组的同学也用JAVA写了一个,不同的是他照书写。
结果,他需要12小时才能跑完的工作,我的只要12分钟。因为我是新来的,算是把他给
得罪了。
t*********u
发帖数: 26311
14
这个60倍的效率
应该不是你写的程序的原因吧。。。。。

【在 k*******n 的大作中提到】
: 我最近两星期用JAVA写了一个,同组的同学也用JAVA写了一个,不同的是他照书写。
: 结果,他需要12小时才能跑完的工作,我的只要12分钟。因为我是新来的,算是把他给
: 得罪了。

w******k
发帖数: 299
15
Hadoop for data storage. Hive as query interface with mapper/reducer written
in perl/python. Hive UDF was written in Java. Final classifier was written
in Java.
k*******n
发帖数: 190
16
当然是了,当初我讲了方案,经理就决定统一使用我的framework,同组同学不肯,现
在关系就尴尬了.

【在 t*********u 的大作中提到】
: 这个60倍的效率
: 应该不是你写的程序的原因吧。。。。。

t*********u
发帖数: 26311
17
你是不是先filter数据后再处理的?

【在 k*******n 的大作中提到】
: 当然是了,当初我讲了方案,经理就决定统一使用我的framework,同组同学不肯,现
: 在关系就尴尬了.

z****e
发帖数: 54598
18
有可能哦
以前我同学跟我一起做一个作业
我大概4秒不到,搞定
她的程序跑了几个小时
java不同的类库会导致效率明显不同

【在 t*********u 的大作中提到】
: 这个60倍的效率
: 应该不是你写的程序的原因吧。。。。。

z****e
发帖数: 54598
19
zkss写了啥程序

【在 k*******n 的大作中提到】
: 我最近两星期用JAVA写了一个,同组的同学也用JAVA写了一个,不同的是他照书写。
: 结果,他需要12小时才能跑完的工作,我的只要12分钟。因为我是新来的,算是把他给
: 得罪了。

k*******n
发帖数: 190
20
就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前
是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决
定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高
效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运
行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想
想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了
HDFS,这也是加快的原因之一.
我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.
相关主题
我觉得关于datascience最近看到的几个有价值的贴妹纸物理phd转data science求建议
Pig 问题请教三星samsung创新部门招大数据工程师 (转载)
Pig word countImpala v Hive
进入DataSciences版参与讨论
z****e
发帖数: 54598
21
你做的是对的
hdfs&hbase是cp system,在consistent上强求一致
所以互相拷来拷去,这中间的等待时间会导致效率降低
一般log system,我们都是用cassandra来做的,cassandra是ap系统
牺牲一定的精确率,不同nodes上数据有可能不一致,在短时间内
这个其实对于大部分报表来说其实无关紧要
100和99其实差距很小,对于不少报告来说,所以如果能接受这一点不精确的话
完全可以这样做,我觉得你做得很漂亮
你可以看看cp和ap系统的差异以及eventually consistent是怎么回事
这跟语言本身倒没有太大关系了,当然java本身也比python快
用python的话,最好用有jit的python,比如pypy
一般python太慢,所有的java都有jit,这个效率上差异也非常明显
jvm上用python可以考虑用jython,选择也挺多的
我觉得你做得很好,不过最好事先跟同事商量一下
先说服同事再去meeting上说更好

【在 k*******n 的大作中提到】
: 就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前
: 是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决
: 定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高
: 效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运
: 行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想
: 想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了
: HDFS,这也是加快的原因之一.
: 我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.

z****e
发帖数: 54598
22
还有hive本身可以建dart mart
预处理一下数据,也可以有效提升效率
这块有个高大上俗名:business intelligence
可以忽悠一下
t*********u
发帖数: 26311
23
那在原始的数据的层次
能不能在FOREACH GENERATE的时候用上Eval或者Filter类型的UDF
这样就是相当于直接对原始数据进行map操作
我的理解这个就是local运行的,对么?

【在 k*******n 的大作中提到】
: 就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前
: 是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决
: 定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高
: 效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运
: 行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想
: 想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了
: HDFS,这也是加快的原因之一.
: 我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.

1 (共1页)
进入DataSciences版参与讨论
相关主题
三星samsung创新部门招大数据工程师 (转载)有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
Impala v Hive一个白痴问题,如何把access的表格 导入hadoop里面去
Re: MapR Technologies continue hiring a lot of positions (转载)Pig UDF written in Python
How to prepare for the DS interview?pig能做iterative的问题吗?
hive 里面的UDF会被几个node同时运行么?data scientist position
如何学习Hadoop?HIVE load CSV 问题请教
大数据这个东西,如果用hive,岂不是跟SQL差不多了求教! how to run python programs on a hadoop cluster
求Hadoop项目练手我觉得关于datascience最近看到的几个有价值的贴
相关话题的讨论汇总
话题: java话题: python话题: hive话题: hadoop话题: udf