大的来了!中国直接掏出新芯片,算力超越顶级GPU千倍 10月15日消息,北京大学人工智能研究院孙仲研究员团队联合集成电路学院研究团队,成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片。 可能有人要问,这芯片到底特殊在哪?咱们先把话说白了,现在咱们用的电脑、手机里的芯片,基本都是 "数字计算" 的路子,就像家里那把只能精确到厘米的尺子,不管实际长度是 25.3 厘米还是 25.7 厘米,都得凑整成 25 厘米来算。 这种方式虽然不容易出错,但有个大毛病:算题的时候得把数据从内存里调出来给处理器,算完再塞回去,来回折腾浪费时间,还特别费电,这就是专家们常说的 "冯・诺依曼瓶颈",就像你做饭时调料罐全在厨房另一头,每放一种料都得跑一趟,效率能高吗? 而北大这款新芯片走的是 "模拟计算" 的路子,听着像老古董,实则是开了新赛道。它有点像老辈用的弹簧秤,指针能滑过每一个细微刻度,不用把连续的物理量拆成离散的数字再算。 核心秘密就在 "阻变存储器" 上,这东西就是种 "智能电阻",能记住流过它的电流大小,成千上万个摆成交叉阵列,直接就成了个 "计算黑板"。 当电压信号输进去,靠着欧姆定律这些物理规律,电流一出来就是计算结果,根本不用数据来回倒腾,这速度能不快吗? 但模拟计算以前为啥没普及?关键卡脖子的就是精度。就像以前的弹簧秤,刻度不准,称出来的数差得远,根本没法干精细活,这可是困扰全球科学家的 "世纪难题"。 可这次北大团队太神了,他们硬生生把模拟计算的精度拉到了 24 位定点精度,跟数字计算没啥两样,这一下就把传统模拟计算的精度提升了五个数量级,相当于把一把模糊的尺子换成了能精确到头发丝的游标卡尺。 他们是咋做到的?说起来不复杂但特别巧妙,先靠模拟计算快速算出个 "大概齐" 的答案,就像缝衣服先粗缝几针固定形状,再用 "位切片" 技术做高精度修正,一点点把误差磨掉,最后得到精准结果。 实验里算 16×16 的矩阵方程,迭代 10 次后相对误差低到 10⁻⁷量级,这精度别说处理通信信号、AI 训练了,就算是复杂的科学计算都够用。 最让人振奋的还是实打实的性能数据,这可不是吹出来的。现在最顶级的 GPU,比如 NVIDIA 的 H100,已经算行业天花板了,处理 AI 大模型、科学计算都得靠它。 但跟咱们这款新芯片比,短板一下就露出来了。算 32×32 的矩阵求逆问题,新芯片的算力已经超过高端 GPU 的单核性能。 等问题规模扩大到 128×128,新芯片的计算吞吐量直接飙到顶级 GPU 的 1000 倍以上!啥概念?要是顶级 GPU 干一天的活,这款中国芯片一分钟就能搞定,这效率简直是降维打击。 更绝的是它还特省电,能效比顶级 GPU 高出 100 倍以上。现在那些大数据中心,一排排 GPU 整天嗡嗡转,电费都是天文数字,要是换上这种芯片,能省多少电可想而知,这对建绿色高效的算力 中心太关键了。 光说性能没用,得看实际能干啥。团队已经把它用到了 "大规模 MIMO 信号检测" 上,这可是 5G-A 和 6G 的核心技术,基站和手机之间那么多天线,信号混在一起,得靠解复杂矩阵方程才能还原清楚。 实验里,用这芯片恢复图像,第二次迭代出来的图就和原图差不多了,三次迭代后,误码率和 32 位高精度数字处理器的效果一模一样。 以后咱们用 6G 上网,不管人多信号杂,视频都能秒加载,打电话绝不会卡顿,这背后就是它在发力。 不止通信,AI 领域更是大受益者。现在训练大模型,动辄几十上百个 GPU 跑几个月,耗电不说还慢。有了这芯片,那些吃算力的二阶优化算法能被大幅加速,说不定以后训练一个大模型只要几天。 更贴心的是它功耗低,以后手机、平板不用把数据传到云端,自己就能处理复杂的 AI 任务,比如拍个照实时修图、离线语音助手反应更快,还能保护隐私,这体验提升可不是一星半点。 可能有人会问,这成果靠谱吗?当然靠谱,相关论文都发在《自然・电子学》上了,这可是全球电子领域的顶刊,能上去的都是经过严苛验证的硬成果。而且团队已经在推进产业化,用不了多久,咱们就能在实际生活中感受到它的威力。 以前总听人说咱们在高端芯片领域被卡脖子,核心算力得看别人脸色。但这次不一样了,北大团队不是在别人的赛道上追,而是直接开辟了新赛道,用模拟计算的新思路打破了数字计算半个多世纪的垄断。 这不仅是一款芯片的突破,更是中国在算力架构上的一次 "换道超车",证明了咱们不光能造好芯片,还能定义下一代算力技术。 想想都激动,以后不管是 6G 通信、人工智能,还是科学研究,咱们有了自己的 "算力王牌"。 这波突破不是偶然,是咱们科研人员啃硬骨头啃出来的,实实在在地让中国在全球算力竞争中站在了前排。
大的来了!中国直接掏出新芯片,算力超越顶级GPU千倍 10月15日消息,北京大学
云景史实记
2025-10-16 12:13:13
0
阅读:50