全球主机交流论坛

标题: 开启核显跑AI后,显存大小不是问题了,32B都满足不了我了! [打印本页]

作者: 吊打华伪    时间: 2025-4-12 11:45
标题: 开启核显跑AI后,显存大小不是问题了,32B都满足不了我了!
跑个20G的模型,都是家常便饭

以前8G显卡 只能跑个6G的模型,再大就用内存了,速度就和核显没区别了。


作者: gdtv    时间: 2025-4-12 12:18
有教程吗
作者: Ausxilia    时间: 2025-4-12 12:31
恩,知道你动作慢了
作者: 杜甫    时间: 2025-4-12 13:55
同求教程。
不过我试P106-100 6G显卡+48G内存也可以跑32B啊,只是很慢
作者: shc    时间: 2025-4-12 13:57
楼主是只有核显,还是有独显再开核显?
作者: cici9911    时间: 2025-4-12 14:25
780m?  intel的核显好像不能共享内存
作者: 吊打华伪    时间: 2025-4-12 14:28
杜甫 发表于 2025-4-12 13:55
同求教程。
不过我试P106-100 6G显卡+48G内存也可以跑32B啊,只是很慢

你比我还慢。。。准确的说慢多了。
pcie, 你矿卡才1.1*16,你理论值才4GB/s  比我慢多了。双通道内存带宽理论值有51.2GB/s, 实际算36GB。 跑24G大小的模型,我的速度有36/24=1.5token/s  你最多0.3.  --------当然你要是跑小模型,几GB的那种,你的速度就吊打我了。

我也有矿卡,7B Q4的模型,核显只有5个token, 矿卡有好几十
作者: 吊打华伪    时间: 2025-4-12 14:35
本帖最后由 吊打华伪 于 2025-4-12 14:36 编辑
shc 发表于 2025-4-12 13:57
楼主是只有核显,还是有独显再开核显?


香菇肥牛,有印象    记得以前看过你博客的一篇教程。

没有独显,纯核显。

你可能不了解,现代AI构架都已经支持异步了,就是总时间=计算和传输的最大,而不是二者之和。独显算力比核显强再多,只要传输的时间多,算力就毫无意义。
作者: 杜甫    时间: 2025-4-12 14:43
吊打华伪 发表于 2025-4-12 14:28
你比我还慢。。。准确的说慢多了。
pcie, 你矿卡才1.1*16,你理论值才4GB/s  比我慢多了。双通道内存带宽 ...

刚试了下,
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒,不知道把P106拔下来后有多少

作者: 吊打华伪    时间: 2025-4-12 15:04
杜甫 发表于 2025-4-12 14:43
刚试了下,
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒,不知道把P106拔下来后有多少

你跑的时最小的吧,几GB的那种。 单凡你跑个10GB的, 就不可能有这个速度。

理论最好的情况10-6=4GB要传输。 至少1秒。

--------------以上针对密集模型,比如qwq32和llama以及deepseek微调的那些。---------------

啊,想起来了, 你这个deepseek原生是moe模型,每次加载一小部分。所以速度还行。但是仅限于moe的才有这个速度,其他的绝大部分模型都不行。
作者: 吊打华伪    时间: 2025-4-12 15:11
杜甫 发表于 2025-4-12 14:43
刚试了下,
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒,不知道把P106拔下来后有多少

我之前用这个https://loc.fffk.eu.org/thread-1399611-1-1.html
生成文章的效果不是一般的差。

不知道你这个coder版本质量怎么样。
作者: 杜甫    时间: 2025-4-12 15:30
吊打华伪 发表于 2025-4-12 15:04
你跑的时最小的吧,几GB的那种。 单凡你跑个10GB的, 就不可能有这个速度。

理论最好的情况10-6=4GB要传 ...

16B,模型大小8.9G
作者: 吊打华伪    时间: 2025-4-12 16:07
杜甫 发表于 2025-4-12 15:30
16B,模型大小8.9G

你这个是moe的,每次只读取激活的权重,远远小于8.9.   大概率都小于6GB.

其他模型每次都要读取8.9GB.   不信你跑下其他模型,同样8.9GB, 你会发现速度大幅度下降。估计也就2token/s左右了。
作者: 杜甫    时间: 2025-4-12 16:15
吊打华伪 发表于 2025-4-12 16:07
你这个是moe的,每次只读取激活的权重,远远小于8.9.   大概率都小于6GB.

其他模型每次都要读取8.9GB.   ...

不懂。
128G的内存,能跑32B的模型了吧
作者: 吊打华伪    时间: 2025-4-12 17:03
杜甫 发表于 2025-4-12 16:15
不懂。
128G的内存,能跑32B的模型了吧

能是能,就是超级慢。  你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s.
换更大24G的,会直接掉到0.3以下。  也就是你想跑大的模型,只能把p106去掉。会大幅度提高速度。

因为cpu算力虽然比显卡慢,但是最慢的数据传输部分,读取速度从矿卡的4GB/s大幅提高到了40GB/s(ddr4 3200双通道).
作者: 杜甫    时间: 2025-4-12 17:11
吊打华伪 发表于 2025-4-12 17:03
能是能,就是超级慢。  你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s.
换更大 ...

就是说去掉烂显卡,反而会快很多?
作者: 吊打华伪    时间: 2025-4-12 18:40
杜甫 发表于 2025-4-12 17:11
就是说去掉烂显卡,反而会快很多?

对大体积的而言,确实会快。 但是不是快太多。但肯定比被pcie 1.1*16限制下的0.3 token每秒快很多。2token差不多吧。

除了moe模型之外,其他模型每算一个token就要读取整个模型大小。

对大体积的而言,超过了你显存,cpu再慢,也用不了数据传输那么久。
作者: shc    时间: 2025-4-12 22:51
吊打华伪 发表于 2025-4-12 14:35
香菇肥牛,有印象    记得以前看过你博客的一篇教程。

没有独显,纯核显。

用的OpenVino? 我去研究研究




欢迎光临 全球主机交流论坛 (https://loc.fffk.eu.org/) Powered by Discuz! X3.4