DeepSeek API 创新采用硬盘缓存,价格再降一个数量级
在大模型 API 的使用场景中,用户的输入有相当比例是重复的。举例说,用户的 prompt 往往有一些重复引用的部分;再举例说,多轮对话中,每一轮都要将前几轮的内容重复输入。
为此,DeepSeek 启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。
缓存命中的部分,DeepSeek 收费 0.1元 每百万 tokens。至此,大模型的价格再降低一个数量级。