aalas:AI算力赛道的“小众破局者”?

科技深水区 2026-03-06 18:00:30

近日,加拿大一家神秘的AI芯片初创公司Taalas,在业界抛出了一枚重磅炸弹。其推出的HC1芯片,在推理速度上实现了数量级的突破,传闻其表现甚至让英伟达创始人黄仁勋连夜召集团队开会讨论。 Taalas成立于2023年,由前AMD、英伟达资深架构师创立,累计融资已超2亿美元。2026年2月,其首款专用AI芯片HC1曝光,一个极具争议的技术路线浮出水面:在AI算力普遍短缺、英伟达垄断格局固化的今天,Taalas试图用“把大模型写死在硅片上”的极端方式,挑战通用GPU的统治地位。

这究竟是算力革命的前奏,还是专用芯片的死胡同? 技术拆解:把模型“硬化”在硅片上

Taalas的核心技术路线可以概括为“模型即芯片”。这与传统GPU架构有着本质区别。 传统GPU采用的是“计算+存储”分离的架构,数据需要在计算单元和HBM(高带宽内存)之间频繁搬运,形成了著名的“内存墙”,大量能耗和时间浪费在数据搬运上。而Taalas的HC1芯片,采用了台积电6nm工艺,面积815平方毫米。最关键的是,它抛弃了外部HBM显存。 这是如何做到的?Taalas将特定大模型(如Llama3.18B)的权重和逻辑,通过“硬连线”(Hardwired)的方式,直接转化为硅片顶层的金属连线。简单来说,模型的权重不再是存储在存储器里的数据,而是变成了芯片物理结构的一部分。存储和计算合二为一,彻底打通了内存墙。

据公开报道,整个HC1芯片的研发仅花费了 约3000万美元。对比行业基准——仅设计一款7nm芯片的平均成本就高达2.17亿美元——这个数字在动辄数亿甚至十亿美元起的芯片研发领域,确实堪称“零头”,展现了其方法论在成本控制上的巨大潜力。 性能对比与场景落地

若数据属实,TaalasHC1在特定任务上展现出了革命性的性能表现。 首先是推理速度。HC1为Llama3.18B模型定制,吞吐量超17,000tokens/s,远超通用GPU(如H200、B200)。其架构优势使其速度达同类方案的8倍以上。

其次是成本与能效。HC1单芯片成本为传统GPU的1/20,功耗仅200-250W,能效比传统GPU高1000倍。 最后是集群能力。有宣传称,在模拟运行超大规模模型(如DeepSeekR1671B)时,30颗HC1集群性能可对标数百颗B200。 HC1的极致速度是以牺牲灵活性为代价的。这决定了它无法成为通用算力,只能在特定场景落地。HC1的“一模型一芯片”特性是其主要约束。模型权重被永久蚀刻在掩模ROM中,无法通过软件更新更改。因此仅适配固定模型场景(如政务、客服、工业控制)。

在自动驾驶、工业机器人、高频量化交易等领域,毫秒级的延迟都至关重要。HC1的低延迟特性在这里具有天然优势。对于不能联网、需要离线推理的军工场景,或者对数据安全要求极高的边缘计算节点,HC1这种无需加载外部权重、开机即用的特性,反而成了安全优势。

0 阅读:20
科技深水区

科技深水区

每天定时更新作品,感谢欣赏