Ollama 0.1.35 for windows 64位正式版历史版本

Ollama是一个开源的大型语言模型（LLM）服务工具，专为在本地机器上便捷部署和运行大型语言模型而设计。它极大地简化了在Docker容器内部署和管理LLM的过程，使得非专业用户也能方便地管理和运行这些复杂的模型。

简化部署

一键安装与运行：用户只需通过简单的安装指令和一条命令，即可在本地快速运行开源大型语言模型，如Llama 2等。

跨平台支持：提供针对macOS、Windows（预览版）、Linux以及Docker的安装指南，确保用户能在多种操作系统环境下顺利部署和使用Ollama。

轻量级与可扩展

资源占用少：Ollama的代码简洁明了，运行时占用资源少，能够在本地高效地运行，不需要大量的计算资源。

灵活多变：支持热加载模型文件，无需重新启动即可切换不同的模型，这使得它非常灵活多变。

可扩展性：支持多种模型架构，并可以扩展以支持新的模型，满足用户的不同需求。

易于使用

简单API：提供了一个简洁的API，使得开发者能够轻松创建、运行和管理大型语言模型实例，降低了与模型交互的技术门槛。

聊天界面：提供了类似ChatGPT的聊天界面，用户无需开发即可直接与模型进行聊天交互。

安装简便：用户只需按照安装指南进行操作即可完成安装，无需具备专业的技术背景。

预构建模型库

丰富的模型选择：包含一系列预先训练好的大型语言模型，用户可以直接选用这些模型应用于自己的应用程序，无需从头训练或自行寻找模型源。

多领域覆盖：预构建模型库中的模型覆盖多个领域，如文本生成、翻译、问答等，满足用户的不同需求。

兼容性与导入功能

兼容深度学习框架：兼容PyTorch和Safetensors等深度学习框架，允许用户将基于这些框架训练的模型集成到Ollama中。

支持从特定平台导入：支持从特定平台（如GGUF）导入已有的大型语言模型，增加了模型的来源和多样性。

自定义与配置

自定义提示：允许用户为模型添加或修改提示（prompt engineering），以引导模型生成特定类型或风格的文本输出。

环境变量配置：如OLLAMA_HOST，用于指定服务绑定的主机地址和端口，用户可以根据需要进行修改。

0.1.35 版本更新说明：

量化：

ollama create 现在在导入模型时可以使用 --quantization 或 -q 标志对模型进行量化：

ollama create -f Modelfile -q q4_0 mymodel

注意：当从 fp16.bin 导入 float16 或 float32 时，--quantization 才会生效。

其他：

修复了在关闭时不会清理推理子进程的问题。

Ctrl+J 字符现在将在 ollama run 中正确添加新行。

修复了运行 ollama show 时针对视觉模型出现的问题。

对 Ollama API 的 OPTIONS 请求将不再导致错误。

修复了部分下载的文件不会被清理的问题。

在响应中添加了一个新的 done_reason 字段，描述生成停止响应的原因。

Ollama 现在将更准确地估计多 GPU 系统上可用的内存量，尤其是在连续运行不同模型时。