昨天,一家成立不到三年的多伦多芯片公司扔下了一颗核弹。他们不是做大模型的,不是做应用的,而是做了一件听起来很复古的事:把AI模型直接刻在芯片里。
这家公司叫 Taalas。他们做的芯片 HC1,运行 Llama 3.1 8B的速度是 17000 tokens/秒。作为对比,目前业界最快的 GPU 也就 2000 左右。十倍差距。
但这还不是最疯狂的。最疯狂的是,这块芯片只能跑这一个模型。不能换,不能改,不能升级。你买回家,它就永远只会做这一件事:以光速运行 Llama 3.1 8B。
Taalas 的赌注很简单:在这个所有人都追求灵活性的时代,他们选择了绝对的不灵活,换取绝对的效率。
感兴趣的朋友可以去他们的demo站点体验一下什么是光速级别的inference:
网页链接
虽然这个ai很蠢,但是真的超级快。。