T******t 发帖数: 458 | 1 20页的英文翻成中文八成10页都不到。换算成音节,英语比汉语要多用个百分之三
四十的音节。
反过来讲,单位脑量的人,用英文存信息,肯定不如用中文存的多。
这个问题实际上存在于所有欧洲式字母语言中。
唯一不大受语言影响的,是图形记忆,也就是左撇子擅长的记忆。
所以信息量有绝对优势的左撇子,在进化上有优势,牛人之中,左撇子比例明显比普通
人的高,譬如爱因斯坦跟盖茨. 而发明家们往往也是左撇子。(见Top Ten Lefties)
http://www.time.com/time/specials/packages/article/0,28804,1916
英文的这个多音节多原生词的劣势扩大了信息量不均等的状态。普通讲英语的英语人对
于医生啊律师啊很恭敬的样子,就是这两类人的词很多别人都不会啊。中国就没有这个
现象。
上次那个捡瓶子的老丘说米国人思维是二维,有技术癖。这个观察是对的。我认为这
个现象其实是某种程度上是语言本身造成的。
英语粉们肯定要从精确优势上来杯葛。我只能告诉你们,首先英语不像你们说的那么精
确。一词多意和多词一意很常见。其次,这种所谓精确,对普通人来讲是毫无意义。 |
x****u 发帖数: 44466 | 2 都用古英语的话未必,当然这边可以换成文言文。。。
一个语言被越广泛的社区接纳,用法就越罗嗦。因为口音不统一,需要词汇冗余度弥补。
【在 T******t 的大作中提到】 : 20页的英文翻成中文八成10页都不到。换算成音节,英语比汉语要多用个百分之三 : 四十的音节。 : 反过来讲,单位脑量的人,用英文存信息,肯定不如用中文存的多。 : 这个问题实际上存在于所有欧洲式字母语言中。 : 唯一不大受语言影响的,是图形记忆,也就是左撇子擅长的记忆。 : 所以信息量有绝对优势的左撇子,在进化上有优势,牛人之中,左撇子比例明显比普通 : 人的高,譬如爱因斯坦跟盖茨. 而发明家们往往也是左撇子。(见Top Ten Lefties) : http://www.time.com/time/specials/packages/article/0,28804,1916 : 英文的这个多音节多原生词的劣势扩大了信息量不均等的状态。普通讲英语的英语人对 : 于医生啊律师啊很恭敬的样子,就是这两类人的词很多别人都不会啊。中国就没有这个
|
T******t 发帖数: 458 | 3 呵呵,正是,那古英语得跟古汉语比。
英语的多音节结构放大了这种可能存在的冗余造成的负担。
补。
【在 x****u 的大作中提到】 : 都用古英语的话未必,当然这边可以换成文言文。。。 : 一个语言被越广泛的社区接纳,用法就越罗嗦。因为口音不统一,需要词汇冗余度弥补。
|
S******8 发帖数: 24594 | 4 美国人说话是特别罗嗦,经常说半天说不到点子上。但是这也可以给他们足够的时间边
说边思考,不至于说错话。 |
x****u 发帖数: 44466 | 5 美式英语偏爱长词或者长词组。
【在 S******8 的大作中提到】 : 美国人说话是特别罗嗦,经常说半天说不到点子上。但是这也可以给他们足够的时间边 : 说边思考,不至于说错话。
|
T******t 发帖数: 458 | 6 所以说啊,老将们舔米国政客口若悬河,其实是知其然不知其所以然。 这个每天50
万字显然也没有弥补。
【在 S******8 的大作中提到】 : 美国人说话是特别罗嗦,经常说半天说不到点子上。但是这也可以给他们足够的时间边 : 说边思考,不至于说错话。
|
y****g 发帖数: 36950 | 7 英语确实很不优化。那么多专有词汇,不靠词组,浪费人的记忆时间 |
T******t 发帖数: 458 | 8 反过来就是英语人各自记的信息,不同的地方会更多,交集少。
【在 y****g 的大作中提到】 : 英语确实很不优化。那么多专有词汇,不靠词组,浪费人的记忆时间
|
t*******l 发帖数: 3662 | 9 英语基本写的就是说的。中文所说经过白话文的改造,但是写的还是比说
有些差异。更简洁正式。
对于信息量的比较,不应该用原始文件尺寸,应该用Entropy
当然中国在这方面的确有优势,但是经过ppmz压缩后,各种语言最后
压缩的结果,大小差别不大。 |
T******t 发帖数: 458 | 10 压缩是扯淡,你要让Rand Paul上国会念12个小时缩写,大家全要疯掉的。
【在 t*******l 的大作中提到】 : 英语基本写的就是说的。中文所说经过白话文的改造,但是写的还是比说 : 有些差异。更简洁正式。 : 对于信息量的比较,不应该用原始文件尺寸,应该用Entropy : 当然中国在这方面的确有优势,但是经过ppmz压缩后,各种语言最后 : 压缩的结果,大小差别不大。
|
|
|
f*********5 发帖数: 367 | 11 "what's the word I am looking for?"
"那啥," |
t*******l 发帖数: 3662 | 12 有一篇最经典的论文:Writing on dirty paper
语言的信息量,书写语言的信息量,可以看成是一个writing on white paper,如果各
打印机,看看谁最费墨,那效率最低。
当然效率高也有缺点,就是出错冗余的可能小了。一旦错了,就错一大片。 |
t*******l 发帖数: 3662 | 13 英文的简写也很厉害。bbq, omg, i c ...
or 老江的 TSSN ...
【在 f*********5 的大作中提到】 : "what's the word I am looking for?" : "那啥,"
|
v******u 发帖数: 1616 | 14 赞,可惜楼里没有老将啊。
【在 T******t 的大作中提到】 : 20页的英文翻成中文八成10页都不到。换算成音节,英语比汉语要多用个百分之三 : 四十的音节。 : 反过来讲,单位脑量的人,用英文存信息,肯定不如用中文存的多。 : 这个问题实际上存在于所有欧洲式字母语言中。 : 唯一不大受语言影响的,是图形记忆,也就是左撇子擅长的记忆。 : 所以信息量有绝对优势的左撇子,在进化上有优势,牛人之中,左撇子比例明显比普通 : 人的高,譬如爱因斯坦跟盖茨. 而发明家们往往也是左撇子。(见Top Ten Lefties) : http://www.time.com/time/specials/packages/article/0,28804,1916 : 英文的这个多音节多原生词的劣势扩大了信息量不均等的状态。普通讲英语的英语人对 : 于医生啊律师啊很恭敬的样子,就是这两类人的词很多别人都不会啊。中国就没有这个
|
o*****D 发帖数: 1563 | 15 你不能光数页面啊,你要数笔划啊
同样是一行,中文的笔划要多得多
【在 T******t 的大作中提到】 : 20页的英文翻成中文八成10页都不到。换算成音节,英语比汉语要多用个百分之三 : 四十的音节。 : 反过来讲,单位脑量的人,用英文存信息,肯定不如用中文存的多。 : 这个问题实际上存在于所有欧洲式字母语言中。 : 唯一不大受语言影响的,是图形记忆,也就是左撇子擅长的记忆。 : 所以信息量有绝对优势的左撇子,在进化上有优势,牛人之中,左撇子比例明显比普通 : 人的高,譬如爱因斯坦跟盖茨. 而发明家们往往也是左撇子。(见Top Ten Lefties) : http://www.time.com/time/specials/packages/article/0,28804,1916 : 英文的这个多音节多原生词的劣势扩大了信息量不均等的状态。普通讲英语的英语人对 : 于医生啊律师啊很恭敬的样子,就是这两类人的词很多别人都不会啊。中国就没有这个
|
T******t 发帖数: 458 | 16 话说我还没见过一个人用笔划记东西的。 您要讨论输入法还不如从像素起更精确。
【在 o*****D 的大作中提到】 : 你不能光数页面啊,你要数笔划啊 : 同样是一行,中文的笔划要多得多
|
o*****D 发帖数: 1563 | 17 信息量应该是 number of strokes per line
笔划数却是很重要
中国人最常用的字,通常笔画很少
而少用的,通常很多
这其实有点像Huffman coding的意思
中文很condense,单位面积的笔划数,要比英文多得多
【在 T******t 的大作中提到】 : 话说我还没见过一个人用笔划记东西的。 您要讨论输入法还不如从像素起更精确。
|
T******t 发帖数: 458 | 18 人脑不用笔划记忆信息,而是用音节或者图像记忆信息。
你对笔划数无限加权,基本就是扯淡。弄些拉拉杂杂的Huffman Coding出来,就是扯更
多的淡。
我即便不用纸存储这个类比,用音节照样证明汉语承载信息就是比英语多。
【在 o*****D 的大作中提到】 : 信息量应该是 number of strokes per line : 笔划数却是很重要 : 中国人最常用的字,通常笔画很少 : 而少用的,通常很多 : 这其实有点像Huffman coding的意思 : 中文很condense,单位面积的笔划数,要比英文多得多
|
l********o 发帖数: 5629 | 19 老将来了!!
中文不严密,无法作为科技领域的语言。所以在科技领域,必须使用英语。
还有在法律领域,也是必须用英语,因为英语和其他西方语言擅长表达逻辑。
用中文表达逻辑非常麻烦,也很别扭,读不通。
中文擅长的是娱乐,笑话,和模糊性的政治语言。
我一直主张把英语也作为中国的官方语言,将极大的提高中国的社会文明水平。 |
l********o 发帖数: 5629 | 20 国内程序员水平之所以低下,很大一部分原因是因为接触的都是翻译过的不通的书。无
法用英语思考编程问题。 |
|
|
l********o 发帖数: 5629 | 21 中文极其不适合 创新,所谓创新, 比如包含了大量的新词汇,中文这方面很差。
在生物领域,用中文几乎是不可思议的,生词太鸡巴多了。还有医疗领域也是这样,基
本不可能用中文了。
跟着后面翻译来不及,也无法精确表达意思,干脆只能用英语了。 |
S*****s 发帖数: 7520 | 22 要说严密,法语和德语都远超英语。
法语和德语名词都有性,而且有四个格。
我建议全民必须掌握法德其中一种
【在 l********o 的大作中提到】 : 老将来了!! : 中文不严密,无法作为科技领域的语言。所以在科技领域,必须使用英语。 : 还有在法律领域,也是必须用英语,因为英语和其他西方语言擅长表达逻辑。 : 用中文表达逻辑非常麻烦,也很别扭,读不通。 : 中文擅长的是娱乐,笑话,和模糊性的政治语言。 : 我一直主张把英语也作为中国的官方语言,将极大的提高中国的社会文明水平。
|
o*****D 发帖数: 1563 | 23 潜意识而已
笔划数多,交叉,拐弯等多,pattern复杂很多
这个就类似kolmogorov complexity越高
单位长度,或者面积的汉字,pattern肯定多过英文
所以看中文肯定慢过看英文
而且英文是一种phonetic语言,看的时候即时转成音节
读的速度会快,而且流畅
【在 T******t 的大作中提到】 : 人脑不用笔划记忆信息,而是用音节或者图像记忆信息。 : 你对笔划数无限加权,基本就是扯淡。弄些拉拉杂杂的Huffman Coding出来,就是扯更 : 多的淡。 : 我即便不用纸存储这个类比,用音节照样证明汉语承载信息就是比英语多。
|
l******t 发帖数: 55733 | 24
这绝笔是扯淡
【在 l********o 的大作中提到】 : 老将来了!! : 中文不严密,无法作为科技领域的语言。所以在科技领域,必须使用英语。 : 还有在法律领域,也是必须用英语,因为英语和其他西方语言擅长表达逻辑。 : 用中文表达逻辑非常麻烦,也很别扭,读不通。 : 中文擅长的是娱乐,笑话,和模糊性的政治语言。 : 我一直主张把英语也作为中国的官方语言,将极大的提高中国的社会文明水平。
|
l**p 发帖数: 6080 | 25 懒得一驳
你去英文论坛添去吧
不送
【在 o*****D 的大作中提到】 : 潜意识而已 : 笔划数多,交叉,拐弯等多,pattern复杂很多 : 这个就类似kolmogorov complexity越高 : 单位长度,或者面积的汉字,pattern肯定多过英文 : 所以看中文肯定慢过看英文 : 而且英文是一种phonetic语言,看的时候即时转成音节 : 读的速度会快,而且流畅
|
T******t 发帖数: 458 | 26 你就再啁什么意识,也没有人用笔划记忆信息的。所以你那笔划论的一段,整个作废。
我再说一遍,人脑是用音节或图形来存储信息的。
能记几十个电话号码的人,在中国满大街都是,在米国是凤毛麟角。不为别的,就是因
为汉语数字都是单音节对单数字,英语多音节,跟数字非单一对应,增加记忆难度。
【在 o*****D 的大作中提到】 : 潜意识而已 : 笔划数多,交叉,拐弯等多,pattern复杂很多 : 这个就类似kolmogorov complexity越高 : 单位长度,或者面积的汉字,pattern肯定多过英文 : 所以看中文肯定慢过看英文 : 而且英文是一种phonetic语言,看的时候即时转成音节 : 读的速度会快,而且流畅
|
l********o 发帖数: 5629 | 27 你们就说在医学行业里面怎么用中文吧?
真的是无法用中文。 |
T******t 发帖数: 458 | 28 怎么,中国的医生现在看病都讲英文了么?
【在 l********o 的大作中提到】 : 你们就说在医学行业里面怎么用中文吧? : 真的是无法用中文。
|
l********o 发帖数: 5629 | 29 看病问题不大,跟病人不用说那么多。
但是在医学研究领域,真的没法用中文啊。
【在 T******t 的大作中提到】 : 怎么,中国的医生现在看病都讲英文了么?
|
T******t 发帖数: 458 | 30 所以你这个“无法用中文”不成立啊。
也不是每个人都搞医学研究,也不是医学研究都要用英文,也不是说不学英文,但你用
“部分医学研究”这个窄项,根本就没法否定中文的普遍优势。
【在 l********o 的大作中提到】 : 看病问题不大,跟病人不用说那么多。 : 但是在医学研究领域,真的没法用中文啊。
|
|
|
c*********u 发帖数: 3128 | 31 胡扯八道,中文写出的医学教材和论文简洁、清晰、优美,
我一直主张用中文作为全世界的医学专业用语。
【在 l********o 的大作中提到】 : 看病问题不大,跟病人不用说那么多。 : 但是在医学研究领域,真的没法用中文啊。
|
e*****s 发帖数: 7359 | 32 计算机语语言比英语罗嗦多了吧,你一个汉字不知道要多少个01, |
t*******l 发帖数: 3662 | 33 你把好几个字母堆到一起,拼成一个字,笔画数目和汉字差不多,
下出来一样节省纸张
笔画是构成文字的最基本要素,单位信息量使用笔画的多少,才决定
文字的编码效率。至于你横这些,竖着写,大了写,小了写,堆在一起
写,还是展开写,都是次要的。
【在 T******t 的大作中提到】 : 你就再啁什么意识,也没有人用笔划记忆信息的。所以你那笔划论的一段,整个作废。 : 我再说一遍,人脑是用音节或图形来存储信息的。 : 能记几十个电话号码的人,在中国满大街都是,在米国是凤毛麟角。不为别的,就是因 : 为汉语数字都是单音节对单数字,英语多音节,跟数字非单一对应,增加记忆难度。
|
l**p 发帖数: 6080 | 34 文盲你好
【在 e*****s 的大作中提到】 : 计算机语语言比英语罗嗦多了吧,你一个汉字不知道要多少个01,
|
Z****a 发帖数: 5434 | 35 错。法语名词有两个性,但没有格。
德语有三个性,四个格。
【在 S*****s 的大作中提到】 : 要说严密,法语和德语都远超英语。 : 法语和德语名词都有性,而且有四个格。 : 我建议全民必须掌握法德其中一种
|
T******t 发帖数: 458 | 36 你不用越扯越远,没有人用笔划记忆信息的。你那笔划论的一段,整个作废。你就再堆
笔划也没用。
随便拿个文章来,同等英文比表达同样信息的中文,一般至少多个百分之三四十的音节。
我再说一遍,人脑是用音节或图形来存储信息的。能记几十个电话号码的人,在中国满
大街都是,在米国是凤毛麟角。不为别的,就是因 为汉语数字都是单音节对单数字,
英语多音节,跟数字非单一对应,增加记忆难度。
英文对尔等还是外语,记忆数字及其他信息主要用中文,等尔等把英文当第二语言的时
候就明白就里了。
【在 t*******l 的大作中提到】 : 你把好几个字母堆到一起,拼成一个字,笔画数目和汉字差不多, : 下出来一样节省纸张 : 笔画是构成文字的最基本要素,单位信息量使用笔画的多少,才决定 : 文字的编码效率。至于你横这些,竖着写,大了写,小了写,堆在一起 : 写,还是展开写,都是次要的。
|
g***j 发帖数: 40861 | |
t*******l 发帖数: 3662 | 38 你概念混乱。依靠单音节或者谐音帮助记忆电话号码,这个属于一个转换编码,好比类
似用“山巅一寺一壶酒”可以记忆Pi。这个和整个语言本身的编码效率没啥关系。你这
个指示数字到文字的对应。就好比我打很多tollfree电话,很多直接和公司名字进行一
一对应编码,连记都不用记。
如果从发音和书写文字的对应关系上来看,中文反而是联系比较少的。英文的发音和文
字相关度比较大。我孩子在幼儿园学了几个小时发音组合以后,就可以自己捧着书读下
去了。从说话到阅读几乎是0障碍。而中文从说到读,是一个个大门槛。
节。
【在 T******t 的大作中提到】 : 你不用越扯越远,没有人用笔划记忆信息的。你那笔划论的一段,整个作废。你就再堆 : 笔划也没用。 : 随便拿个文章来,同等英文比表达同样信息的中文,一般至少多个百分之三四十的音节。 : 我再说一遍,人脑是用音节或图形来存储信息的。能记几十个电话号码的人,在中国满 : 大街都是,在米国是凤毛麟角。不为别的,就是因 为汉语数字都是单音节对单数字, : 英语多音节,跟数字非单一对应,增加记忆难度。 : 英文对尔等还是外语,记忆数字及其他信息主要用中文,等尔等把英文当第二语言的时 : 候就明白就里了。
|
t*******l 发帖数: 3662 | 39 中文编码效率比其他语言高,这个结论本身没错。你看看相关的研究
语言的entropy coding的比较试验就知道,但是最终差别没有你说的
那么大。
http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&
另外,英文里面每个字之间都有空格,很切大量使用介词,这些都比较浪费
编码,虽然压缩算法可以去掉这些冗余,但是也不见得就一定有效。
节。
【在 T******t 的大作中提到】 : 你不用越扯越远,没有人用笔划记忆信息的。你那笔划论的一段,整个作废。你就再堆 : 笔划也没用。 : 随便拿个文章来,同等英文比表达同样信息的中文,一般至少多个百分之三四十的音节。 : 我再说一遍,人脑是用音节或图形来存储信息的。能记几十个电话号码的人,在中国满 : 大街都是,在米国是凤毛麟角。不为别的,就是因 为汉语数字都是单音节对单数字, : 英语多音节,跟数字非单一对应,增加记忆难度。 : 英文对尔等还是外语,记忆数字及其他信息主要用中文,等尔等把英文当第二语言的时 : 候就明白就里了。
|
T******t 发帖数: 458 | 40 我还是那句话,你把蛋越扯越远也没有用。 你这个所谓的论文,对于反驳主贴来讲,
就是垃圾。原因如下:
1.主贴讲思维和交流的人类行为,跟你这个机器编码其实没什么关系,你还需要我跟
你再重申么?你这所谓论文,只字未提人类思维和交流,而只是通篇讲机器对符号的压
缩。
话说人类记忆信息和思考沟通,要么是音节,要么是图形。尼玛是我能嘴里说个压缩文
件给你听,还是你能用压缩PPT来推导你的结论吗? 不能吧,你还得是在或是音节或是
图像的原状态下或思考或沟通吧?
你就是搬个上帝出来,你也不能抹煞随便一段话的中文音节,比表同意的英文音节少个
百分之三四十,这样一个事实吧?你就解释一下你从嘴到耳的沟通,动脑思考的过程,
怎么能把这个百分之三四十的音节差距抹杀吧。你不能吧,你最多英文说的快点儿,那
中文也可以啊。你就指这个不相干的垃圾理论说你看看它说是这样地因此它就权威了。
你这不是糊弄人么?
2.抛开以上的东西不谈,纯技术上讲, 我看你引的这个文根本就是以奶嘴儿套大象的
手法去理解语言本身。
a. 我认为你这个文用PPM Compression这个统计法 对中文就是瞎拉硬套。 此法主要预
测数码式语言出现的可能性,对吧? 尼玛首先我如果要理解你讲话,我主要是得看你
讲过了什么,而不是你将要讲什么,对吧?你这个机器压缩预测可能性,对人迹沟通又
有啥意义呢? 其次你这个压缩法使用于arithmetic coding, 对字母文当然可以,因
为字母文本身就是数字排序。对尼玛非数字排序的中文还不是驴唇不对马嘴吗?
b.再者你这个文还under the assumption that languages are equally expressive,
and that PPM compression does similarly well across all languages云云。
这俩假设明显都是错的啊。尼玛语言要表示的概念摊开来肯定不一样啊,有重合有不重
合,咋能equally expressive啊,譬如有个词叫Eierlegende Wollmilchsau, 你能在
中文或英文里找到一样的expression吗?你不能吧?a 已经说过了你这PPM 不可能对所
有语言都适用,尤其是对非字母语言的中文更不适用。 你们照这个假设套下去,你那结
论能蒙得住谁啊,还不说你这个结论跟本文主贴没什么关系。
c. 尼玛此一文还给中文国标两个字节。我TNND平时说话思考的单音节字,明明是比多
音节的英文快捷。到它这算法里直接就上code然后中文字节就加一倍了。这基本就是夹
带私货啊。电脑按图存储需要多一节,人脑按音存储就得也跟着加倍,单音节变双音节,
说话思考也要打着卷儿地多加个音节?这纯是扯淡。
你还让我再望下写吗? 我小结一下你这做法就是指一没吊用的垃圾理论来说你你看看
这个就是权威了,权威说是A, 因此你就是B. 首先权威没法证明A,权威甚至没法证明
自己是权威. 其次即便所谓权威证明了A, 它这个证明结果也跟B或者非B没屁关系。
这是啥? 这就是一蒙势。 真的蒙势,敢于面对操蛋的派生, 敢于无视淋漓的 假学。
我再说一遍,中文无论是平时表达,思考,或者涵盖的信息量,肯定比英文多了去了。
同样音节数下,汉语就是比英语表达的信息多。
你们弄些垃圾毛豆上来云山雾罩的,也没法否定这个事实。
【在 t*******l 的大作中提到】 : 中文编码效率比其他语言高,这个结论本身没错。你看看相关的研究 : 语言的entropy coding的比较试验就知道,但是最终差别没有你说的 : 那么大。 : http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2& : 另外,英文里面每个字之间都有空格,很切大量使用介词,这些都比较浪费 : 编码,虽然压缩算法可以去掉这些冗余,但是也不见得就一定有效。 : : 节。
|