大模型里中文优于英文。Deepseek用128重“视角”审视,深入发掘了中文体系

烨华聊商业 2025-02-08 11:21:58

大模型里中文优于英文。Deepseek用128重“视角”审视,深入发掘了中文体系的神奇

现在很明显了,在AI看来,全球文字就只有两种值得分析,英语与汉语。别的语言没有办法竞争,都有严重缺陷,

很多语言,和英语出于同门,都是字母文字,英文到处借了不少词。同体系语言,不可能比英文语料更强。美国大模型显然英语中心论,技术牛逼,照顾你们别的语言也给训练输出。

其它语言,基本都不行。如韩文自己发明的,没有汉字造成麻烦。日文体系有大量汉字,还混杂了英语发音当名词,体系非常乱。南亚梵文,语法词汇复杂,文字还变形,流传到东南亚影响了泰文、老挝文。还有埃塞俄比亚的阿姆哈拉文,过于简单,表达不了复杂意思。梵文等不少语言问题是科学技术文章少,大模型就看不上了。

中文是唯一对手。汉语有极佳开放性,描述现代社会、科学技术没问题,还焕发出了强大的生命力。中文素材种类丰富,科技文章也多,还能融合英文名词。中文是唯一可以与英文对标的素材库。

有人说,汉字二维,字母文字一维。这不重要,大模型里汉字都转成了token。词汇表里,都是token1、token2...,用整数代表。Deepseek词汇表有12.9万个token,AI只看token,所有文字都一样。

但token之间的联系,有明显的团块,分语种扎堆。大模型预训练,就是在建立token之间的复杂联系。一个token就有好几千维的浮点数,用这么多维度去和别的token建立联系。Deepseek用61层,每层约10个大矩阵,实现“注意力”,也就是文字之间的关联。然后最关键的是,一套矩阵是一种审视的“视角”(如语法关联),Deepseek建立了128种视角去看同一段话(如逻辑关联)。也就是61层,每层128套矩阵,每套10个矩阵。每个矩阵都是7000*7000这么大。

英文世界,它不和中文发生关联。英文素材里没中文,读者不懂。但中文素材有不少英文,自然融入。也就是说,英文没法融合中文!如果以英文主打,大模型会拒绝中文。但中文却可以自然融合英文!将英文名词放中文里,毫无问题。中英夹杂输出,一定是中文主导。

大模型发现,中文的权重关联团块中,自然“导入”了英文那边的知识,一个名词就导过来了。而英文那边没法导入中文知识。外国人不知道中国的情况,中国却对外国比较了解,AI世界情况类似。

AI是哪个语言好用,就在哪努力。除非强迫它用英文思考,不许中文,那能力又不行了,和中国相关的问题拒绝回答。AI决定,中文主导、融合英文!AI就是模仿人,人类就是这个自然倾向。要么英文主导,中文白痴;要么中文主导,中英俱佳。素材往那一放,自然就是如此,OpenAI也没办法。

而且就象许多人分析的,中文内在联系丰富,表达高效,思考深入效率高。又高效,又能自然融合英文,AI自然喜欢用中文。

所以,OpenAI的o3-mini,即使问题是英文,问题本身也和中国、中文无关,它还是忍不住用中文思考,再用英文输出最终结果。

而deepseek的高水平,是在中文素材上下了很大功夫,动用了128重视角,终于把中文玩得很熟练了。它在中文上的水平,真正让人服气了。以此为基础,思考水平非常高。

0 阅读:2274

评论列表

网络游客

网络游客

41
2025-02-08 12:31

所以中文会是地球上的终极语言👍🏻

ssscwb

ssscwb

32
2025-02-08 17:40

老祖宗的智慧深谟远虑

马上云爸爸 回复 チツ天堂口~ 02-10 00:04
玩儿?你把中文学会再来找我

チツ天堂口~ 回复 02-09 14:16
这些玩不过呀,带玄的都是概念。

星辰大海

星辰大海

14
2025-02-08 17:27

原来如此!汉字还有这个优势。

用户17xxx37

用户17xxx37

11
2025-02-08 20:23

就问薑葱蒜都是草本植物吗,人也好Ai也好,一看草字头就归类了,全是草本植物,英语就复杂了。鸡鸭鹅都是鸟类吧?一看都是带鸟的,自然全是了,英语要分清就复杂了。

败天 回复 02-09 20:20
英文单词量很多年前就破百万了,现在不清楚,但是再发展下去破千万只是时间问题,而汉字只到万而已,全靠组合

喜风

喜风

5
2025-02-12 07:44

底层逻辑架构用文言文,老外更加懵逼

用户38xxx54

用户38xxx54

4
2025-02-21 20:53

若这个世界缺失了西方文明所构建的那一套科技标准体系和英语体系这两大支柱,我们华夏民族又将如何驱动科技的进步呢?回望历史长河,华夏文明自古以来便孕育着独特的科技研发脉络。我们的先辈,如《周髀算经》与《九章算术》的作者们,早已运用汉字这一载体,深入探索数学原理与方程解法,无需拉丁字母或阿拉伯数字的辅助。 正因如此,即便没有西方文明的这两大支撑,我们依然能够凭借华夏文明的深厚底蕴,打造出与之契合的科技标准体系,并与汉字体系深度融合,以此推动科技的研发与创新。一个有趣的现象值得思考:倘若当年西方世界采用华夏文明体系与汉字体系进行科技研发,或许时至今日,整个西方社会都将沉浸在全面汉化的氛围中。反之,当前华夏若过度依赖西方文明构建的体系和英语进行科技研发,未来或许将面临全面西化的挑战。

用户15xxx42

用户15xxx42

3
2025-02-09 17:40

能不能不要胡说八道

悬崖边的小鱼儿

悬崖边的小鱼儿

3
2025-02-11 11:57

不是忍不住,是直接移过来用没改彻底或者底层没法改。

烨华聊商业

烨华聊商业

感谢大家的关注