llama.cpp

未分類

【geek-terminal】128K長文を数秒で処理?llama.cppを10倍速める「PFlash」の衝撃

📝 本日のニュース概要 2026年5月2日、Local LLM界隈に激震。4月に登場した推論加速技術「DFlash」の正統進化、あるいは対となる新技術「PFlash」の噂がReddit(r/LocalLLaMA)を中心に急浮上しています。1...
未分類

【衝撃】VRAM不足は過去の遺物へ。ついに降臨した「1-Bit LLM」の実稼働コードを徹底解剖【Bonsai / GGUF】

📝 本日のニュース概要 ついに「量子化の最終回答」が、研究論文の枠を飛び越えて僕らのGPUに降臨しました。重みわずか1ビット。理論上の極限と言われたBitNet系アーキテクチャが、PrismMLの手によって『Bonsai』としてGGUF実装...
未分類

【Geek Terminal】RTX 5070 Tiで79t/sを叩き出す変態技術!Qwen3.6 MoEの「VRAM不足」を力技で解決する新フラグの衝撃

📝 本日のニュース概要 2026年4月19日、ローカルLLM界隈に激震。Qwen3.6-35B-A3Bという巨大なMoE(Mixture of Experts)モデルを、ミドルレンジGPUであるRTX 5070 Tiで「爆速」駆動させる禁断...
未分類

【衝撃】Qwen3.6-35B-A3Bがリリース!RTX 4090で「25万トークン」を飲み込むローカルエージェントの怪物を徹底解剖

📝 本日のニュース概要 2026年4月、Qwenチームから最新モデル「Qwen3.6-35B-A3B」が突如リリースされました。総パラメータ35Bに対し、アクティブパラメータをわずか3Bに抑えたMoE(Mixture of Experts)...
未分類

【1.125ビットの衝撃】8Bモデルが1GBで動く?超軽量LLM「Ternary Bonsai」の実力と、Redditで噴出する賛否両論を徹底解説

📝 本日のニュース概要 2026年4月、ローカルLLM界に激震が走りました。PrismMLが発表した「Ternary Bonsai」は、実質1.125ビットという驚異的な量子化を実現した新しいLLMファミリーです。80億パラメータのモデルが...
未分類

【Geek Terminal】RTX 5090 Blackwell真価発揮!Gemma 4 × NVFP4が叩き出す「爆速」の衝撃と、露呈した4bitの壁

📝 本日のニュース概要 2026年4月、ローカルLLM界隈はRTX 50シリーズ(Blackwell)のネイティブ4bit演算「NVFP4」の実装で沸騰しています。Gemma 4 26BをvLLMやllama.cppで動かした際の圧倒的なス...
未分類

【llama.cpp神アプデ】AIが自身を最速化する『–ai-tune』実装!Qwen3.5-27Bが54%爆速化&128KコンテキストがVRAM数GBで動く時代へ

📝 本日のニュース概要 2026年4月、Local LLM界隈に激震。llama.cppに導入された新フラグ『--ai-tune』は、実行環境に合わせてAI自らが推論設定を自動最適化し、Qwen3.5-27Bで54%もの速度向上を叩き出しま...