三巨头同日接入DeepSeek
使用deepseek似乎不难,很多人都部署成功了?因为大模型推理,本来就很简单,代码才1000多行!
群众对大模型技术不太熟悉,美国又狠命忽悠,说是特别高级的高科技,要几百亿美元才做得出。所以,大家容易误会,以为大模型很复杂。
真相是,高水平大模型的“训练”,确实很复杂。中小公司搞不了训练,搞懂都不容易。但是,大模型“推理”,是很简单的。个人就可以把开源的大模型推理,部署成功,真的不难。
例如我下载了deepseek v3的源码,用python写的。python写大模型代码非常紧凑,最大一个代码文件才800行!加上别的源文件,一共1500行代码就差不多了。里面自己实现了fp8的gemm,也就是8比特表示浮点数的矩阵乘法。其它是借了Meta的PyTorch框架,这就是开源的力量,很厉害的程序 代码也不长。
当然这是借助了python。如果用C++来,大模型推理其实也不复杂。
我下载了Meta的LLama开源大模型的C++工程源码,核心的llama.cpp也就是1万行,里面描述了如何进行推理计算。按照C语言的标准,这真的不算复杂。加上别的源文件,一共也就3万多行代码。底层实现都说清楚了。就是有个张量矩阵运算库ggml,要支持各种平台和硬件,如cuda、opencl、blas,这个代码量大。但是这是C工程的特色,库函数弄好了就不用管了,编译就行。
看C代码会比较清楚,大模型推理就是进行了图二的计算过程,矩阵不断地乘了加,加了乘,没几步。当然这是一层,deepseek有60层,但就是重复,代码都一样。
所以,只要有厉害的权重文件开源,把大模型推理玩起来是很简单的!自己看代码都不难,个人PC下载来安装小一些权重的都行。
这就是deepseek开源的厉害之处,推理用起来非常容易!
书同文车同轨
就跟华为做出了卫星手机, 一夜之间大家就都会做卫星手机一样。。
天才
这发明那么厉害,能不能帮警察把骗子揪出来?
红云 回复 02-06 13:55
DS是访问不了公安网的,如果能接入再加上天眼的帮助,估计还是有可能的
dddd 回复 02-06 12:53
你如果觉得deepseek能揪出骗子才行的话,你可以试试gpt看看openAI行不行。
Accelerator
这b是1450,mate是Facebook的
芸芸众生 回复 02-10 06:47
mate就是mate,是人家总公司改名了。mate才是最高一级的名称。
zf
一点都不难。。。牛顿不就是被苹果砸了一下,就想出了万有引力吗?爱因斯坦不就在专利局业余时间花一两年就搞出了对相对论吗?我笨一点,花五年肯定能想出来。
胡归农
你懂个卵,卵你都不懂,因为你没有。胡说八道
大好河山
一般人就别折腾了,还是好好用官网的吧,部署对电脑硬件要求很高,没有外星人那种配置,部署上了也会卡的不会动。
谢蕙珊
确实不难,本质就是与或非三门的排列组合,不停的调整各个环节的加乘项的权重,程序自己找到智能排列组合
小星落尘
?把调用人家的接口叫做大模型?
用户15xxx42 回复 02-06 21:37
所以这家伙最多就是一个码农
送你一杯咖啡 回复 用户15xxx42 02-14 21:19
好像你做得了码农似的。做码农也要学点东西的。别以为源代码是个人都能看懂。
悠然
本地部署个确实简单,问题是带不动和喂资源的问题,单纯部署个十分钟就搞定,问题是没那么大硬盘去喂,纯文本还好,图源一多4060也带不动,自己的电脑也不太可能搞服务器配置,所以还是白扯
芸芸众生 回复 02-10 06:50
很多互联网公司都是用deepseek专注于自家小模型的适配优化,因为可以大大降低调用资源的费用比。
大好河山 回复 02-16 23:09
关键太吃硬件,普通家庭电脑根本带不动,我估计得用多年前挖矿的矿卡才能带的动,还不如直接用官网或360的,官网不差钱自身服务器资源都不够用,都很卡,普通人弄这个纯粹是瞎折腾。
用户18xxx20
你这是调用api
琪乐融融
难不成我手机下载了这个软件,也叫接入[开怀大笑]
小老虎
感谢分享
百分百神圣一击率
之前没发出来,都不会。一发出来,个个都说,这很简单。古代,说都不知道爆裂性炸药怎么制造,等别人研究出来后,你们说这很简单,又能了。