aalas：AI算力赛道的“小众破局者”？

近日，加拿大一家神秘的AI芯片初创公司Taalas，在业界抛出了一枚重磅炸弹。其推出的HC1芯片，在推理速度上实现了数量级的突破，传闻其表现甚至让英伟达创始人黄仁勋连夜召集团队开会讨论。 Taalas成立于2023年，由前AMD、英伟达资深架构师创立，累计融资已超2亿美元。2026年2月，其首款专用AI芯片HC1曝光，一个极具争议的技术路线浮出水面：在AI算力普遍短缺、英伟达垄断格局固化的今天，Taalas试图用“把大模型写死在硅片上”的极端方式，挑战通用GPU的统治地位。

这究竟是算力革命的前奏，还是专用芯片的死胡同？技术拆解：把模型“硬化”在硅片上

Taalas的核心技术路线可以概括为“模型即芯片”。这与传统GPU架构有着本质区别。传统GPU采用的是“计算+存储”分离的架构，数据需要在计算单元和HBM（高带宽内存）之间频繁搬运，形成了著名的“内存墙”，大量能耗和时间浪费在数据搬运上。而Taalas的HC1芯片，采用了台积电6nm工艺，面积815平方毫米。最关键的是，它抛弃了外部HBM显存。这是如何做到的？Taalas将特定大模型（如Llama3.18B）的权重和逻辑，通过“硬连线”（Hardwired）的方式，直接转化为硅片顶层的金属连线。简单来说，模型的权重不再是存储在存储器里的数据，而是变成了芯片物理结构的一部分。存储和计算合二为一，彻底打通了内存墙。

据公开报道，整个HC1芯片的研发仅花费了约3000万美元。对比行业基准——仅设计一款7nm芯片的平均成本就高达2.17亿美元——这个数字在动辄数亿甚至十亿美元起的芯片研发领域，确实堪称“零头”，展现了其方法论在成本控制上的巨大潜力。性能对比与场景落地

若数据属实，TaalasHC1在特定任务上展现出了革命性的性能表现。首先是推理速度。HC1为Llama3.18B模型定制，吞吐量超17,000tokens/s，远超通用GPU（如H200、B200）。其架构优势使其速度达同类方案的8倍以上。

其次是成本与能效。HC1单芯片成本为传统GPU的1/20，功耗仅200-250W，能效比传统GPU高1000倍。最后是集群能力。有宣传称，在模拟运行超大规模模型（如DeepSeekR1671B）时，30颗HC1集群性能可对标数百颗B200。 HC1的极致速度是以牺牲灵活性为代价的。这决定了它无法成为通用算力，只能在特定场景落地。HC1的“一模型一芯片”特性是其主要约束。模型权重被永久蚀刻在掩模ROM中，无法通过软件更新更改。因此仅适配固定模型场景（如政务、客服、工业控制）。

在自动驾驶、工业机器人、高频量化交易等领域，毫秒级的延迟都至关重要。HC1的低延迟特性在这里具有天然优势。对于不能联网、需要离线推理的军工场景，或者对数据安全要求极高的边缘计算节点，HC1这种无需加载外部权重、开机即用的特性，反而成了安全优势。