t*********u 发帖数: 26311 | |
c****t 发帖数: 19049 | 2 全成java有啥吗好处?
【在 t*********u 的大作中提到】 : 还是用pig+UDF?
|
l*******s 发帖数: 1258 | 3 那得是当engineer使 这事我干过 当时还是developer |
t*********u 发帖数: 26311 | 4 我就想问问到底DS的要求程度
【在 c****t 的大作中提到】 : 全成java有啥吗好处?
|
c****t 发帖数: 19049 | 5 吊丝当然都上pig。当然你要能全程java下来那你是人才还是老年的虽然大概没人要你
干这个
【在 t*********u 的大作中提到】 : 我就想问问到底DS的要求程度
|
t*********u 发帖数: 26311 | 6 我只是想看看有没有稍微复杂点的用java全程写的例子
便于理解 和学习
PS
UDF的大众选择是java还是python?
【在 c****t 的大作中提到】 : 吊丝当然都上pig。当然你要能全程java下来那你是人才还是老年的虽然大概没人要你 : 干这个
|
j*****n 发帖数: 1545 | 7 能写 java 写 java, 不能写 java 的人就只能写 python. Python 后台也会被
translate 成 java 跑( jython + python interpreter ). |
S******y 发帖数: 1123 | 8 Hive, Pig, Hadoop streaming via Python |
n*****3 发帖数: 1584 | 9 I think since the hadoop has been well developed, ppl will not
write java for analysis purpose under 90% situation. script language is just
fine
If you want (near) real time result, new tools/frame are out there now.
【在 S******y 的大作中提到】 : Hive, Pig, Hadoop streaming via Python
|
t*********u 发帖数: 26311 | 10 please elaborate about the new tools /frame
thanks
just
【在 n*****3 的大作中提到】 : I think since the hadoop has been well developed, ppl will not : write java for analysis purpose under 90% situation. script language is just : fine : If you want (near) real time result, new tools/frame are out there now.
|
|
|
c****t 发帖数: 19049 | 11 大众选则是js吧
【在 t*********u 的大作中提到】 : 我只是想看看有没有稍微复杂点的用java全程写的例子 : 便于理解 和学习 : PS : UDF的大众选择是java还是python?
|
z****e 发帖数: 54598 | 12 ft
你用js怎么做建模?
js连像样的数学库都没有
【在 c****t 的大作中提到】 : 大众选则是js吧
|
k*******n 发帖数: 190 | 13 我最近两星期用JAVA写了一个,同组的同学也用JAVA写了一个,不同的是他照书写。
结果,他需要12小时才能跑完的工作,我的只要12分钟。因为我是新来的,算是把他给
得罪了。 |
t*********u 发帖数: 26311 | 14 这个60倍的效率
应该不是你写的程序的原因吧。。。。。
【在 k*******n 的大作中提到】 : 我最近两星期用JAVA写了一个,同组的同学也用JAVA写了一个,不同的是他照书写。 : 结果,他需要12小时才能跑完的工作,我的只要12分钟。因为我是新来的,算是把他给 : 得罪了。
|
w******k 发帖数: 299 | 15 Hadoop for data storage. Hive as query interface with mapper/reducer written
in perl/python. Hive UDF was written in Java. Final classifier was written
in Java. |
k*******n 发帖数: 190 | 16 当然是了,当初我讲了方案,经理就决定统一使用我的framework,同组同学不肯,现
在关系就尴尬了.
【在 t*********u 的大作中提到】 : 这个60倍的效率 : 应该不是你写的程序的原因吧。。。。。
|
t*********u 发帖数: 26311 | 17 你是不是先filter数据后再处理的?
【在 k*******n 的大作中提到】 : 当然是了,当初我讲了方案,经理就决定统一使用我的framework,同组同学不肯,现 : 在关系就尴尬了.
|
z****e 发帖数: 54598 | 18 有可能哦
以前我同学跟我一起做一个作业
我大概4秒不到,搞定
她的程序跑了几个小时
java不同的类库会导致效率明显不同
【在 t*********u 的大作中提到】 : 这个60倍的效率 : 应该不是你写的程序的原因吧。。。。。
|
z****e 发帖数: 54598 | 19 zkss写了啥程序
【在 k*******n 的大作中提到】 : 我最近两星期用JAVA写了一个,同组的同学也用JAVA写了一个,不同的是他照书写。 : 结果,他需要12小时才能跑完的工作,我的只要12分钟。因为我是新来的,算是把他给 : 得罪了。
|
k*******n 发帖数: 190 | 20 就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前
是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决
定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高
效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运
行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想
想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了
HDFS,这也是加快的原因之一.
我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因. |
|
|
z****e 发帖数: 54598 | 21 你做的是对的
hdfs&hbase是cp system,在consistent上强求一致
所以互相拷来拷去,这中间的等待时间会导致效率降低
一般log system,我们都是用cassandra来做的,cassandra是ap系统
牺牲一定的精确率,不同nodes上数据有可能不一致,在短时间内
这个其实对于大部分报表来说其实无关紧要
100和99其实差距很小,对于不少报告来说,所以如果能接受这一点不精确的话
完全可以这样做,我觉得你做得很漂亮
你可以看看cp和ap系统的差异以及eventually consistent是怎么回事
这跟语言本身倒没有太大关系了,当然java本身也比python快
用python的话,最好用有jit的python,比如pypy
一般python太慢,所有的java都有jit,这个效率上差异也非常明显
jvm上用python可以考虑用jython,选择也挺多的
我觉得你做得很好,不过最好事先跟同事商量一下
先说服同事再去meeting上说更好
【在 k*******n 的大作中提到】 : 就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前 : 是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决 : 定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高 : 效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运 : 行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想 : 想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了 : HDFS,这也是加快的原因之一. : 我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.
|
z****e 发帖数: 54598 | 22 还有hive本身可以建dart mart
预处理一下数据,也可以有效提升效率
这块有个高大上俗名:business intelligence
可以忽悠一下 |
t*********u 发帖数: 26311 | 23 那在原始的数据的层次
能不能在FOREACH GENERATE的时候用上Eval或者Filter类型的UDF
这样就是相当于直接对原始数据进行map操作
我的理解这个就是local运行的,对么?
【在 k*******n 的大作中提到】 : 就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前 : 是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决 : 定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高 : 效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运 : 行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想 : 想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了 : HDFS,这也是加快的原因之一. : 我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.
|