0.1.35 版本更新说明:
量化:
ollama create 现在在导入模型时可以使用 --quantization 或 -q 标志对模型进行量化:
ollama create -f Modelfile -q q4_0 mymodel
注意:当从 fp16.bin 导入 float16 或 float32 时,--quantization 才会生效。
其他:
修复了在关闭时不会清理推理子进程的问题。
Ctrl+J 字符现在将在 ollama run 中正确添加新行。
修复了运行 ollama show 时针对视觉模型出现的问题。
对 Ollama API 的 OPTIONS 请求将不再导致错误。
修复了部分下载的文件不会被清理的问题。
在响应中添加了一个新的 done_reason 字段,描述生成停止响应的原因。
Ollama 现在将更准确地估计多 GPU 系统上可用的内存量,尤其是在连续运行不同模型时。