请问大家有没有直接用java全程写mapreduce的程序的？ - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 请问大家有没有直接用java全程写mapreduce的程序的？

相关主题
● hive 里面的UDF会被几个node同时运行么？	● data scientist position
● 如何学习Hadoop?	● HIVE load CSV 问题请教
● 大数据这个东西，如果用hive，岂不是跟SQL差不多了	● 求教! how to run python programs on a hadoop cluster
● 求Hadoop项目练手	● 我觉得关于datascience最近看到的几个有价值的贴
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● Pig 问题请教
● 一个白痴问题，如何把access的表格导入hadoop里面去	● Pig word count
● Pig UDF written in Python	● 妹纸物理phd转data science求建议
● pig能做iterative的问题吗?	● 三星samsung创新部门招大数据工程师 (转载)

相关话题的讨论汇总
话题: java话题: python话题: hive话题: hadoop话题: udf

进入DataSciences版参与讨论

(共1页)

t*********u
发帖数: 26311

还是用pig+UDF?

c****t
发帖数: 19049

全成java有啥吗好处?

【在 t*********u 的大作中提到】

: 还是用pig+UDF?

l*******s
发帖数: 1258

那得是当engineer使这事我干过当时还是developer

t*********u
发帖数: 26311

我就想问问到底DS的要求程度

【在 c****t 的大作中提到】

: 全成java有啥吗好处?

c****t
发帖数: 19049

吊丝当然都上pig。当然你要能全程java下来那你是人才还是老年的虽然大概没人要你
干这个

【在 t*********u 的大作中提到】

: 我就想问问到底DS的要求程度

t*********u
发帖数: 26311

我只是想看看有没有稍微复杂点的用java全程写的例子
便于理解和学习
PS
UDF的大众选择是java还是python？

【在 c****t 的大作中提到】

: 吊丝当然都上pig。当然你要能全程java下来那你是人才还是老年的虽然大概没人要你
: 干这个

j*****n
发帖数: 1545

能写 java 写 java, 不能写 java 的人就只能写 python. Python 后台也会被
translate 成 java 跑( jython + python interpreter ).

S******y
发帖数: 1123

Hive, Pig, Hadoop streaming via Python

n*****3
发帖数: 1584

I think since the hadoop has been well developed, ppl will not
write java for analysis purpose under 90% situation. script language is just
fine
If you want (near) real time result, new tools/frame are out there now.

【在 S******y 的大作中提到】

: Hive, Pig, Hadoop streaming via Python

t*********u
发帖数: 26311

please elaborate about the new tools /frame
thanks

just

【在 n*****3 的大作中提到】

: I think since the hadoop has been well developed, ppl will not
: write java for analysis purpose under 90% situation. script language is just
: fine
: If you want (near) real time result, new tools/frame are out there now.

相关主题
● 一个白痴问题，如何把access的表格导入hadoop里面去	● data scientist position
● Pig UDF written in Python	● HIVE load CSV 问题请教
● pig能做iterative的问题吗?	● 求教! how to run python programs on a hadoop cluster
进入DataSciences版参与讨论

c****t
发帖数: 19049

大众选则是js吧

【在 t*********u 的大作中提到】

: 我只是想看看有没有稍微复杂点的用java全程写的例子
: 便于理解和学习
: PS
: UDF的大众选择是java还是python？

z****e
发帖数: 54598

ft
你用js怎么做建模？
js连像样的数学库都没有

【在 c****t 的大作中提到】

: 大众选则是js吧

k*******n
发帖数: 190

我最近两星期用JAVA写了一个，同组的同学也用JAVA写了一个，不同的是他照书写。
结果，他需要12小时才能跑完的工作，我的只要12分钟。因为我是新来的，算是把他给
得罪了。

t*********u
发帖数: 26311

这个60倍的效率
应该不是你写的程序的原因吧。。。。。

【在 k*******n 的大作中提到】

: 我最近两星期用JAVA写了一个，同组的同学也用JAVA写了一个，不同的是他照书写。
: 结果，他需要12小时才能跑完的工作，我的只要12分钟。因为我是新来的，算是把他给
: 得罪了。

w******k
发帖数: 299

Hadoop for data storage. Hive as query interface with mapper/reducer written
in perl/python. Hive UDF was written in Java. Final classifier was written
in Java.

k*******n
发帖数: 190

当然是了，当初我讲了方案，经理就决定统一使用我的framework，同组同学不肯，现
在关系就尴尬了.

【在 t*********u 的大作中提到】

: 这个60倍的效率
: 应该不是你写的程序的原因吧。。。。。

t*********u
发帖数: 26311

你是不是先filter数据后再处理的？

【在 k*******n 的大作中提到】

: 当然是了，当初我讲了方案，经理就决定统一使用我的framework，同组同学不肯，现
: 在关系就尴尬了.

z****e
发帖数: 54598

有可能哦
以前我同学跟我一起做一个作业
我大概4秒不到，搞定
她的程序跑了几个小时
java不同的类库会导致效率明显不同

【在 t*********u 的大作中提到】

: 这个60倍的效率
: 应该不是你写的程序的原因吧。。。。。

z****e
发帖数: 54598

zkss写了啥程序

【在 k*******n 的大作中提到】

k*******n
发帖数: 190

就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前
是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决
定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高
效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运
行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想
想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了
HDFS,这也是加快的原因之一.
我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.

相关主题
● 我觉得关于datascience最近看到的几个有价值的贴	● 妹纸物理phd转data science求建议
● Pig 问题请教	● 三星samsung创新部门招大数据工程师 (转载)
● Pig word count	● Impala v Hive
进入DataSciences版参与讨论

z****e
发帖数: 54598

你做的是对的
hdfs&hbase是cp system，在consistent上强求一致
所以互相拷来拷去，这中间的等待时间会导致效率降低
一般log system，我们都是用cassandra来做的，cassandra是ap系统
牺牲一定的精确率，不同nodes上数据有可能不一致，在短时间内
这个其实对于大部分报表来说其实无关紧要
100和99其实差距很小，对于不少报告来说，所以如果能接受这一点不精确的话
完全可以这样做，我觉得你做得很漂亮
你可以看看cp和ap系统的差异以及eventually consistent是怎么回事
这跟语言本身倒没有太大关系了，当然java本身也比python快
用python的话，最好用有jit的python，比如pypy
一般python太慢，所有的java都有jit，这个效率上差异也非常明显
jvm上用python可以考虑用jython，选择也挺多的
我觉得你做得很好，不过最好事先跟同事商量一下
先说服同事再去meeting上说更好

【在 k*******n 的大作中提到】

: 就是几个T的LOG数据要aggregate成为各种报告所需要的结果,可以存到数据库里. 以前
: 是用PYTHON+PIG+HIVE在HADOOP里完成,需要十几个小时,还经常fail.所以忍无可忍,决
: 定用JAVA,我们组的同事就照着书本写了一个,其实也没错,只是HADOOP本身不是那么高
: 效率.我的思路是尽量把工作都变成本地的来做,可以在MAPPER,REDUCER里面象LOCAL运
: 行的程序.能够并行地就尽量并行.本来以为速度会快几倍,没想到快了几十倍. 不过想
: 想看,HDFS是把数据备份三份,这种兼顾存储的方法不是计算最优的.我基本上避开了
: HDFS,这也是加快的原因之一.
: 我是JAVA的新手,两个月前才开始学着用,这也是我同事一开始不认同我的观点的原因.

z****e
发帖数: 54598

还有hive本身可以建dart mart
预处理一下数据，也可以有效提升效率
这块有个高大上俗名：business intelligence
可以忽悠一下

t*********u
发帖数: 26311

那在原始的数据的层次
能不能在FOREACH GENERATE的时候用上Eval或者Filter类型的UDF
这样就是相当于直接对原始数据进行map操作
我的理解这个就是local运行的,对么？

【在 k*******n 的大作中提到】

(共1页)

进入DataSciences版参与讨论

相关主题
● 三星samsung创新部门招大数据工程师 (转载)	● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？
● Impala v Hive	● 一个白痴问题，如何把access的表格导入hadoop里面去
● Re: MapR Technologies continue hiring a lot of positions (转载)	● Pig UDF written in Python
● How to prepare for the DS interview?	● pig能做iterative的问题吗?
● hive 里面的UDF会被几个node同时运行么？	● data scientist position
● 如何学习Hadoop?	● HIVE load CSV 问题请教
● 大数据这个东西，如果用hive，岂不是跟SQL差不多了	● 求教! how to run python programs on a hadoop cluster
● 求Hadoop项目练手	● 我觉得关于datascience最近看到的几个有价值的贴

相关话题的讨论汇总
话题: java话题: python话题: hive话题: hadoop话题: udf

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天