tokens/sとは?
1秒あたりのトークン数は、言語モデルがテキストを生成する速度を測定します。tokens/sが高いほど、会話の応答性が向上します。GpuLLMはピークと持続スループットの両方を測定し、GPUのLLM性能を総合的に把握できます。
Windows デスクトップアプリ
GpuLLMはローカルLLMを包括的に評価できる無料のWindowsアプリケーションです — 推論速度(tokens/s、レイテンシ)とモデル能力(MMLU、C-Eval精度)の両方を測定できます。すべて100%オフラインで動作 — チャット、ベンチマーク、GPU監視、モデル管理 — インターネットに接続するのはモデルのダウンロードだけです。理想的なモデルとハードウェアのマッチングを数分で見つけます。クラウド依存なし、APIキー不要、データはマシンから外に出ません。




GpuLLMはローカルLLM評価のための最も完全な無料Windowsスイートです。サブスクリプションも課金壁もありません。
LLamaSharpとllama.cppバックエンドでGGUF形式の大規模言語モデルをGPU上で直接実行。CUDA、Vulkan、CPUフォールバックをサポート — 最適なバックエンドを自動選択。
カタログに加えて、ローカルディスクから任意のGGUF形式モデルをインポート。独自のGGUFファイルを指定して、カスタムまたはコミュニティモデルとすぐにチャット可能 — クラウドアップロード不要。
GPU使用率、VRAM使用量、温度、電力消費をリアルタイムで追跡。60秒スパークライン履歴チャートとマルチGPU対応、自動デバイス検出を搭載。
任意のモデルとチャットし、GPUのトークン生成速度(tokens/s)、Time-to-First-Token、合計レイテンシを即座に測定。内蔵コスト推定機能はローカル推論とクラウドAPI価格を比較 — ローカル実行でいくら節約できるかを正確に表示。
Qwen2.5-Coder、DeepSeek-R1、Llama 3.2、Gemma 3、Mistralなど13のカリアされたモデルを閲覧。コーディング、チャット、推論でカテゴリフィルタリング、ワンクリックでVRAM互換性を確認。
HuggingFace HubまたはModelScopeから直接モデルをダウンロード。SHA-256検証による再開可能ダウンロード、マルチソースフォールバック、ライセンス同意管理をサポート。
新しいインタラクションパターンを開拓 — 単一のチャットで2つのLLMロールを割り当て:質問に答えるレスポンダーと、回答を批判的に評価・改善するレビュアー。AI研究で広く議論されているLLM-as-a-Judge / Agentic Debateパターンにより、2つの異なるモデルの強みを同時に活用し、高品質な自己修正会話を実現。
Prism Cat — GPU利用率レベルに反応するライブアニメーションのマスコット。推論ワークロードが増加するにつれて、猫の感情状態と色がリアルタイムで変化する様子をご覧ください。
包括的な問題セットでモデルをベンチマーク:100の英語問題(MMLU、57科目からサンプリング)と100の中国語問題(C-Eval)、数学、物理、化学、生物、コンピュータ科学、歴史、文学、経済学、哲学、地理など10以上の分野をカテゴリ別精度、難易度別内訳、エクスポート可能なMarkdownレポートで取得。
各推論でバックエンドチェーン、GPUピークメトリクス、トークンレベルの統計を含む詳細レポートを生成。フルチャット会話とレポートをA4 PDFドキュメントとしてエクスポート。
ほとんどの代替案はモデルとのチャットはできますが、性能測定、精度評価、GPUメトリクスは追跡しません。どのモデルが自分のハードウェアに最適か — そしてクラウドAPIと比較して実際に節約できるか — を推測するしかありません。
すべてのエントリに正しいHuggingFaceリポジトリ、量子化、ファイルサイズが含まれ — ワンクリックでダウンロード。
| 表示名 | 制作者 | カテゴリ | サイズ | VRAM |
|---|---|---|---|---|
| Qwen2.5-Coder 3B | Alibaba | Coding | 1.9 GB | 8 GB |
| Qwen2.5-Coder 7B | Alibaba | Coding | 4.2 GB | 16 GB |
| DeepSeek-Coder V2 Lite | DeepSeek | Coding | 9.0 GB | 24 GB |
| Llama 3.2 1B Instruct | Meta | Chat | 0.7 GB | 4 GB |
| Llama 3.2 3B Instruct | Meta | Chat | 2.0 GB | 8 GB |
| Gemma 3 4B Instruct | Chat | 2.5 GB | 8 GB | |
| Mistral 7B Instruct | Mistral AI | Chat | 4.1 GB | 16 GB |
| Qwen2.5 7B Instruct | Alibaba | Chat | 4.7 GB | 8 GB |
| Qwen2.5 14B Instruct | Alibaba | Chat | 8.9 GB | 24 GB |
| DeepSeek-R1-Distill 1.5B | DeepSeek | Reasoning | 1.0 GB | 4 GB |
| DeepSeek-R1-Distill 7B | DeepSeek | Reasoning | 4.2 GB | 16 GB |
| DeepSeek-R1-Distill 14B | DeepSeek | Reasoning | 8.5 GB | 16 GB |
| DeepSeek-R1-Distill 32B | DeepSeek | Reasoning | 20 GB | 32 GB |
マネージド.NETバインディング付きの高性能C++推論エンジン — 世界中の無数のローカルAIアプリケーションを支える同じバックエンド。
Fluent Design Systemコンポーネントを使用したモダンWindowsデスクトップUI。グラス効果マテリアルとスムーズなアニメーションを備えたダーク/ライトテーマ対応。
CUDA 12 → Vulkan → CPU自動フォールバックチェーン。アプリが利用可能なハードウェアを検出し、手動設定なしで最速のバックエンドを選択。
すべてのモデル推論、データ処理、ファイル操作はお使いのローカルデバイスでのみ行われます。テレメトリなし、クラウド依存なし、モデルダウンロード後はネットワーク不要。
1秒あたりのトークン数は、言語モデルがテキストを生成する速度を測定します。tokens/sが高いほど、会話の応答性が向上します。GpuLLMはピークと持続スループットの両方を測定し、GPUのLLM性能を総合的に把握できます。
Time To First Token(TTFT)は、プロンプト送信から最初の単語を受信するまでのレイテンシを測定します。TTFTが低いほど、インタラクションが素早くなります。GpuLLMはTTFTを追跡し、モデルの応答性を比較するのに役立ちます。
Massive Multitask Language Understanding(MMLU)は57科目の知識をテストする標準ベンチマークです。GpuLLMにはモデルの知識の幅と推論能力を評価するための100のサンプリング問題が含まれています。
C-Evalは52分野と4つの難易度レベルをカバーする中国語評価スイートです。GpuLLMにはモデルの中国語理解と分野知識をテストする100の問題が含まれています。
GpuLLMはWindowsデスクトップアプリケーションです。すべての推論、ベンチマーク、評価はお使いのデバイスでローカルに実行されます。モデルデータやチャット内容がサーバーにアップロードされることはありません。ダウンロードリンクはMicrosoft Storeを開きます。
All tools on fastool.io run entirely in your browser — zero data leaves your device. No personal data is collected, stored, or transmitted to any server. Solar calculations use SunCalc.js; lunar data uses JPL DE440 ephemeris; coordinate transforms use publicly documented EPSG/OGC standards. This site requires no signup, no account, and no cloud processing.