利用好LLM 的prefix特性,用小模型先回复,然后大模型续上,LLM 首句延迟可以大幅降低到100ms级别。编程严选网 人工智能
利用好LLM的prefix特性,用小模型先回复,然后大模型续上,LLM首句延
JavaEdge聊AIss
2025-07-21 00:28:27
0
阅读:0