什么是tokens/s?
每秒令牌数衡量语言模型生成文本的速度。tokens/s越高,对话响应越灵敏。GpuLLM测量峰值和持续吞吐量,全面展示您的GPU的LLM性能。




GpuLLM是用于本地LLM评估的最完整的免费Windows套件。以下就是您将获得的一切 — 没有订阅,没有付费墙。
通过LLamaSharp与llama.cpp后端直接在GPU上运行GGUF格式大语言模型。支持CUDA、Vulkan和CPU回退 — 自动选择最佳可用后端。
除了精选目录外,还可以从本地磁盘导入任意GGUF格式模型。将GpuLLM指向您自己的GGUF文件,即可立即与自定义或社区模型聊天 — 无需云端上传。
实时追踪GPU利用率、显存使用、温度和功耗。包含60秒迷你图历史图表和多GPU支持,自动发现设备。
与任意模型聊天,即时测量GPU的令牌生成速度(tokens/s)、首令牌时间和总延迟。内置成本估算器将本地推理与云端API定价对比 — 准确显示本地运行能为您节省多少费用。
浏览13个精选模型,包括Qwen2.5-Coder、DeepSeek-R1、Llama 3.2、Gemma 3和Mistral。按类别筛选 — 编程、对话或推理 — 一键查看显存兼容性。
直接从HuggingFace Hub或ModelScope下载模型。支持SHA-256验证的可恢复下载、多源回退和许可证同意管理。
开创新的交互模式 — 在单个聊天中分配两个LLM角色:回答问题的「回应者」和批判性评估并改进答案的「审阅者」。这种LLM-as-a-Judge/智能体辩论模式在AI研究中广受讨论,让您同时利用两个不同模型的优势,实现更高质量的自我纠正对话。
棱镜猫 — 一个根据GPU利用率水平做出反应的实时动画吉祥物。随着推理负载增加,实时观察猫的情绪状态和颜色变化。
用全面的题库对您的模型进行基准测试:100道英语题目(MMLU,从57个学科中采样)和100道中文题目(C-Eval),涵盖数学、物理、化学、生物、计算机科学、历史、文学、经济学、哲学、地理等10+维度。获取分类精度、难度分级分析和可导出Markdown报告。
每次推理生成包含后端链路、GPU峰值指标和令牌级统计的详细报告。可将完整聊天对话和报告导出为A4 PDF文档。
大多数替代方案只能让您与模型聊天,但不测量性能、评估精度或追踪GPU指标。您只能猜测哪个模型最适合您的硬件 — 以及与云端API相比是否真的在省钱。
每个条目都包含正确的HuggingFace仓库、量化方式和文件大小 — 一键下载。
| 显示名称 | 创建者 | 类别 | 大小 | 显存 |
|---|---|---|---|---|
| Qwen2.5-Coder 3B | Alibaba | Coding | 1.9 GB | 8 GB |
| Qwen2.5-Coder 7B | Alibaba | Coding | 4.2 GB | 16 GB |
| DeepSeek-Coder V2 Lite | DeepSeek | Coding | 9.0 GB | 24 GB |
| Llama 3.2 1B Instruct | Meta | Chat | 0.7 GB | 4 GB |
| Llama 3.2 3B Instruct | Meta | Chat | 2.0 GB | 8 GB |
| Gemma 3 4B Instruct | Chat | 2.5 GB | 8 GB | |
| Mistral 7B Instruct | Mistral AI | Chat | 4.1 GB | 16 GB |
| Qwen2.5 7B Instruct | Alibaba | Chat | 4.7 GB | 8 GB |
| Qwen2.5 14B Instruct | Alibaba | Chat | 8.9 GB | 24 GB |
| DeepSeek-R1-Distill 1.5B | DeepSeek | Reasoning | 1.0 GB | 4 GB |
| DeepSeek-R1-Distill 7B | DeepSeek | Reasoning | 4.2 GB | 16 GB |
| DeepSeek-R1-Distill 14B | DeepSeek | Reasoning | 8.5 GB | 16 GB |
| DeepSeek-R1-Distill 32B | DeepSeek | Reasoning | 20 GB | 32 GB |
高性能C++推理引擎,配备托管.NET绑定 — 为全球无数本地AI应用提供支持的同一后端。
采用Fluent Design System组件的现代Windows桌面UI。支持深色/浅色主题,具有玻璃效果材质和流畅动画。
CUDA 12 → Vulkan → CPU自动回退链。应用检测可用硬件并选择最快的后端,无需手动配置。
所有模型推理、数据处理和文件操作均在您的本地设备上完成。无遥测、无云端依赖、模型下载后无需网络。
每秒令牌数衡量语言模型生成文本的速度。tokens/s越高,对话响应越灵敏。GpuLLM测量峰值和持续吞吐量,全面展示您的GPU的LLM性能。
首令牌时间(TTFT)衡量从发送提示到响应第一个词之间的延迟。TTFT越低,交互越灵敏。GpuLLM追踪TTFT,帮助您比较模型响应能力。
大规模多任务语言理解(MMLU)是测试57个学科知识的标准化基准。GpuLLM包含100道采样题,评估模型的知识广度和推理能力。
C-Eval是涵盖52个学科和四个难度等级的中文评估套件。GpuLLM包含100道题,测试模型的中文理解和领域知识。
GpuLLM是一款Windows桌面应用。所有推理、基准测试和评估均在您的设备本地运行。模型数据或聊天内容永不上传至任何服务器。下载链接将在默认浏览器中打开微软商店。
All tools on fastool.io run entirely in your browser — zero data leaves your device. No personal data is collected, stored, or transmitted to any server. Solar calculations use SunCalc.js; lunar data uses JPL DE440 ephemeris; coordinate transforms use publicly documented EPSG/OGC standards. This site requires no signup, no account, and no cloud processing.