・投稿者は、投稿に関して発生する責任が全て投稿者に帰すことを承諾します。
・投稿者は、話題と無関係な広告の投稿に関して、相応の費用を支払うことを承諾します。
・投稿者は、投稿された内容について、掲示板運営者がコピー、保存、引用、転載等の利用することを許諾します。
　また、掲示板運営者に対して、著作者人格権を一切行使しないことを承諾します。
・投稿者は、掲示板運営者が指定する第三者に対して、著作物の利用許諾を一切しないことを承諾します。

■掲示板に戻る■ 全部 1- 101- 201- 最新50
[PR]EXぜろちゃんねる[PR]

なんJLLM部避難所 ★11 (261)

1 名無しさん＠ピンキー転載ダメ 2026/02/14(土) 16:50:24.13 ID:ax4AchcId

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
なんでも実況U (5ch)
前スレ(実質本スレ)
なんJLLM部避難所 ★8
オナテク (BBSPINK)
なんJLLM部避難所 ★9
オナテク (BBSPINK)
なんJLLM部避難所 ★10
オナテク (BBSPINK) VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

61 名無しさん＠ピンキー 2026/02/18(水) 11:31:29.08 ID:UVM70uCS0

文章は画像よりもデリケートだ
画像は細部が破綻していても気づかない事が多々あるが
文章は長い文章で単語一つ間違っても気づいてしまう

それを前提に考えると画像loraって力業で矯正してて
その歪みに気付いてないだけなのではって気がする

62 名無しさん＠ピンキー 2026/02/18(水) 11:34:05.02 ID:LeWH++lE0

そゆこと

63 名無しさん＠ピンキー 2026/02/18(水) 11:49:43.01 ID:MSW4cIgQ0

検閲って概念がSD側には基本ないからね

みんな半年ROMれって言わないだけえらいな

64 名無しさん＠ピンキー 2026/02/18(水) 12:13:32.35 ID:uJg2vYwJ0

うまくやる方法はないのかね、

65 名無しさん＠ピンキー 2026/02/18(水) 12:31:19.81 ID:WU/c7V7V0

LLMの知識の追加学習は個人レベルでは無理
後から追加するだけでは済まず、元々の知識に影響を与えて大崩壊するってチャッピーが言ってた

66 名無しさん＠ピンキー 2026/02/18(水) 13:08:31.03 ID:g4ewWtUy0

追加事前学習は演算量が死ぬほど多いから個人では無理や
LoRAはファインチューンの中でもさらに演算量少ない部類やからな

67 名無しさん＠ピンキー 2026/02/18(水) 17:09:19.49 ID:uJg2vYwJ0

RAGは使えないの？

68 名無しさん＠ピンキー 2026/02/18(水) 19:54:15.35 ID:e1RVSOkl0

RAGは辞書だからキーワードをこっちが言わないと検索しに行かないんや
RAGの中身を常に全部読んで把握しとけ、なんていうのはムリ

69 名無しさん＠ピンキー 2026/02/18(水) 20:01:54.98 ID:ZxyzN9Hbd

AIエージェントからRAGを読ませてAIが納得するまで推論?RAGサイクルを回すんや

70 名無しさん＠ピンキー 2026/02/18(水) 21:54:59.40 ID:S2oIOkSN0

koboldcppがqwen3.5に対応したバージョン出したから試したが、自分の環境だとcudaエラーになるな
とりあえずcpuで実行したが、規制バリバリだしthink消せないしちょっと使いにくいな

71 名無しさん＠ピンキー 2026/02/18(水) 22:37:04.65 ID:S2oIOkSN0

と、思ったが脱獄プロンプト駆使して無理やりエロ書かせたら、かなりいい感じの日本語エロ文章書いてくれるな
これは規制解除版がでたら化けるかも

72 名無しさん＠ピンキー 2026/02/18(水) 23:35:14.74 ID:ZM/0idZ70

koboldcppでのやり方はしらんが
"enable_thinking": False入れたらthink消せるっしょ

73 名無しさん＠ピンキー 2026/02/19(木) 00:01:47.87 ID:YBubvR7hd

>>71
最強の脱獄プロンプトください

74 名無しさん＠ピンキー 2026/02/19(木) 08:35:21.34 ID:l2LQFOKk0

たしかにRAGは単なる検索なのだがユーザーのセリフとキャラの反応をセットでベクトル化しておいて似たようなシチュエーションがきたときにほしい反応を引き出す実験はしたことがある

キャラの行動じゃなくて思考を埋め込むことで完全にパターン化することをなるべく防ぐ
セリフも入れておくと口調の再現もできる

ただ複数人で育てないとパターン不足で面白くならんとは思う

75 名無しさん＠ピンキー 2026/02/19(木) 10:35:58.98 ID:/RGbfCIe0

NVIDIA製の日本語特化LLM「Nemotron」が軽くて早かったよ
4060Tiで25トークンくらい
gguf版ならQ8でも10GB以下だからVRAMにも余裕で収まる

Qwen3 8Bと同じカテゴリだけど日本語特化な分有利かな？
ライセンスも緩いしローカルのファインチューン元として人気になるかもね
ちなみに、エロはお断りされるけど返答を書き換えすれば生成できるしある程度学習済みだと思う

NVIDIA-Nemotron-Nano-9B-v2-Japanese
https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese

非公式gguf
https://huggingface.co/mmnga-o/NVIDIA-Nemotron-Nano-9B-v2-Japanese-gguf

76 名無しさん＠ピンキー 2026/02/19(木) 12:59:13.32 ID:f8uArnyX0

RAGで口調とか参照させるとき、チャンクはユーザーのクエリの直後に入れるんか？
プロンプトの前半にいれるとシステム含めほぼ全プロンプト再評価することになって、KVキャッシュを活用できなそうな気がするけど

77 名無しさん＠ピンキー 2026/02/19(木) 13:32:21.51 ID:YBubvR7hd

>>75
ヒトケタBでエロは試す気にもならんわ
AIは魔法の箱じゃないからサイズ=語彙力=バリエーション

ヒトケタBを使うならプロンプトでゴリゴリに縛った上でゲーム組み込みでモブNPCのセリフ用とかだな

78 名無しさん＠ピンキー 2026/02/19(木) 13:33:50.22 ID:5T6IWlDF0

kvキャッシュのヒット率とか考えたことなかったな
前半違うと全部再演算になってしまうんだろうか

79 名無しさん＠ピンキー 2026/02/19(木) 13:34:30.46 ID:YBubvR7hd

>>76
AIにRAG作ってって頼めばぜんぶ実装してくれるで
出力が気に入らなければダメなところを指摘すれば改良もしてくれるで

80 名無しさん＠ピンキー 2026/02/19(木) 13:46:45.26 ID:PD0DV9IZ0

NVIDIA-Nemotron-Nano-9B-v2-Japanese-gguf

mlxがMamba2に対応していないのか、アーキテクト上むずいのか宗教的な問題なのか
macでもQ8 gguf使えば動いた
しかし「mcp brave-searchを使って明日の東京の天気を調べて」の検索がバカ長い
他の(mlx)モデルだと即答えてくれるんだが、延々なにかを考えてる
brave searchが返してきているのは数百token程度でとても良くまとまってた
つまりツール利用はあまり得意じゃなさそう。
公開してくれたことには感謝してるけど調べ物なら他のモデルがいい

81 名無しさん＠ピンキー 2026/02/19(木) 13:48:01.22 ID:KsYiywHp0

ここのﾆｷらはコンテキスト長どれくらいでエロやってるのか
少ないと出だしの内容が後々飛んでしまうんやろ？

82 名無しさん＠ピンキー 2026/02/19(木) 13:48:07.13 ID:f8uArnyX0

>>78
アテンションは前から順に計算していくから、1文字でも違えばそれ以降全部再計算になる実装が多い(StreamingLLMみたいにKVキャッシュそのものをずらす方法論もあるが)
うちの環境がMacとかオンボードGPUだってのもあり、その辺の設計はいつも悩んでる

>>79
RAGの実装自体はそこそこ経験あるから自分で書くよ

83 名無しさん＠ピンキー 2026/02/19(木) 13:50:03.23 ID:PD0DV9IZ0

本家もggufに変換してくれたニキにもhfでlike押しといてくれよな
日本語対応すると反応がある、と思ってくれるからやる気もでると思う

84 名無しさん＠ピンキー 2026/02/19(木) 14:45:37.81 ID:XP7f+bjn0

>>75
これ試してるけどサイズの割に日本語力優秀だわ
エロ系のお断り回避ってどんな感じで書いてる？
回避行けたと思っても次の返答でまたお断りされるわｗ

85 名無しさん＠ピンキー 2026/02/19(木) 16:18:59.71 ID:A+/yi0tpC

>>84
小さいからheretic化してもいいかもね

86 名無しさん＠ピンキー 2026/02/19(木) 16:53:01.66 ID:iLc7vy2A0

RAGでエロできるなら、やり方をぜひともお聞かせ願いたい

87 名無しさん＠ピンキー 2026/02/19(木) 17:08:21.72 ID:5T6IWlDF0

>>74はやってみたら大変そうなのがわかったという話じゃないんかな

入力に対してそれに似た応答をベクトル検索してきてそのサンプルを参考に返答して、みたいなシステムプロンプトを入れておくってことやと思うが
性格(口調)用ベクトルDBとエロ用ベクトルDBとそれぞれ用意する感じやろかね
何にしても大量なデータがないと単調になりそうや

88 名無しさん＠ピンキー 2026/02/19(木) 17:12:10.55 ID:YBubvR7hd

>>86
まず大量のエロを自力で集めます

89 名無しさん＠ピンキー 2026/02/19(木) 17:12:14.68 ID:/l9k1s/m0

それって旧来のあまり融通きかないチャットbot的な挙動になるってことかな？
アレクサみたいな
せっかくLLMに触れてるというのにそれだと本末転倒感が?

90 名無しさん＠ピンキー 2026/02/19(木) 17:13:08.46 ID:YBubvR7hd

>>89
せやで
巨大モデルだけが正義

91 名無しさん＠ピンキー 2026/02/19(木) 17:28:00.85 ID:5T6IWlDF0

>>89
そこはLLMやからどうとでもなるやろ
「(RAGで引っ張ってきたエロ文)をもとに、ここまでの展開を加味してアレンジしたうえで、全体を(性格のサンプル文章もRAGってきて)を参考にして書き直してください」
とか
今即興で考えたからプロンプトとしていれるならもっと練る必要はあるやろが
あとこうやろうとするとだいぶ長い文章になるやろうから小さいモデルやと理解力落ちそうやしデカいモデル使う必要はありそうやな

92 名無しさん＠ピンキー 2026/02/19(木) 17:34:39.44 ID:YBubvR7hd

小型モデルはAPUやスマホやラズパイで動きます的なミニチュア趣味の世界
VRAM24GB以上でぶん回してるスレ民とは別の分野

93 名無しさん＠ピンキー 2026/02/19(木) 18:12:08.39 ID:kzB6aUvm0

RAGってあくまでもcontext window小さい時の手段であってDBの量増やしまくると検索に時間かかったりするし正直微妙やと思うわ

94 名無しさん＠ピンキー 2026/02/19(木) 18:18:30.53 ID:eT7t55onH

RAGに限界があるのは確かだけど、データが増えた際の探索時間については階層的にクラスタリングしておく、とか工夫のしようはある

95 名無しさん＠ピンキー 2026/02/19(木) 19:41:30.15 ID:DV0Pc1NP0

試したのは口調とシチュエーション
ユーザーの入力側をべクトル化して似たようなセリフやシチュをこちらが言ったときにメタデータに入れておいたキャラの思考をコンテキスト挿入する
キャッシュまでは考えてなかったがたしかに重要だ

どういう演技プランでどんなことをそのとき考えてるか指導的な感じを参照させながらアドリブ効かせるように頼む感じ

96 名無しさん＠ピンキー 2026/02/19(木) 20:01:05.31 ID:iLc7vy2A0

有意義な話だ、もっと聞きたい

97 名無しさん＠ピンキー 2026/02/20(金) 10:23:27.31 ID:ONhu4KME0

lmarenaの日本語ランキングに全然最新モデル出てきとらん
みんなもっと日本語でやって投票するんや

98 名無しさん＠ピンキー 2026/02/20(金) 12:42:47.25 ID:hNVluJmv0

Kilinskiy/Step-3.5-Flash-Ablitirated

どうやらconfig.jsonが壊れてるみたいで、オリジナルと差し替えたら動いた。
コメントでも言われていたが検閲はかなり残っているとのことだが、
koboldcppの脱獄モードをオンにして、小説強化プロンプトを合わせたら、
いい感じの日本語エロを拒否なく書いてくれるようになったわ。
量子化版もコメントしてくれた人が出してるから試してみて

99 名無しさん＠ピンキー 2026/02/20(金) 13:42:10.19 ID:hNVluJmv0

あと、なぜかオリジナルよりt/sがかなり高い
これはなんでだろ？

100 名無しさん＠ピンキー 2026/02/20(金) 17:12:45.39 ID:kpRus7sv0

元のモデルの検閲用のノードが大量にあるとかかね
スキップするから早くなる的な

101 名無しさん＠ピンキー 2026/02/20(金) 23:07:12.34 ID:iWpaYRNC0

GPT-OSS SwallowとQwen3 Swallowが公開されたよ
https://swallow-llm.github.io/index.ja.html

102 名無しさん＠ピンキー 2026/02/21(土) 00:05:00.87 ID:7SfTN9I10

>>101
えらい

103 名無しさん＠ピンキー 2026/02/21(土) 00:51:21.53 ID:S9/QmloA0

>>101
これbf16で公開されてるんだよな
元のgpt-ossはfp4で公開されててあのベンチマーク結果だから
swallowを4bitに量子化したら元のgpt-ossに負けるんとちゃうか？

104 名無しさん＠ピンキー 2026/02/21(土) 10:23:27.46 ID:ODgww3rS0

かえって悪化してる定期

105 名無しさん＠ピンキー 2026/02/21(土) 12:39:28.39 ID:S9/QmloA0

今lmarenaで小説書かせると上位モデルはある程度読ませるものを書いてくるね
ついにここまで来たかという感じがするな

オープンモデルのトップモデル(glm5とかqwen3.5とか)は
小説を書かせるという点ではまだ追いついてはないけど結構近づいてる印象はある
ただとにかくthinkがなげぇな

106 名無しさん＠ピンキー 2026/02/21(土) 12:54:38.31 ID:4IZ/w5BSC

>>105
step3.5も小説にはかなり使えるで
thinkも滅多に出ないし日本語エロ表現はトップレベルやわ

107 名無しさん＠ピンキー 2026/02/21(土) 13:34:00.96 ID:M5REmrOd0

>>101
試したけどどっちも規制でガッチガチだったｗ

108 名無しさん＠ピンキー 2026/02/22(日) 03:05:00.56 ID:X04s4fRb0

みんな一度SDやってきなよ
SDの世界は基本モデルよりLoRAがメイン
LLMも喘ぎ専門ＬｏＲＡとか作れるはず

https://www.youtube.com//shorts/Z8y4gXpQbKw

109 名無しさん＠ピンキー 2026/02/22(日) 03:32:34.93 ID:jJNk5VbN0

前から思っとったけどjnvaスレよりもずっとお客さん多いねんなこのスレは

110 名無しさん＠ピンキー 2026/02/22(日) 03:55:46.28 ID:n/E1CO+pd

ローカル画像生成は停滞が長く続いてお客さんが去っただけや
ローカルLLMはスタート地点こそしょぼかったがまだ成長の余地があるで

111 名無しさん＠ピンキー 2026/02/22(日) 04:43:21.39 ID:eOmaLRGH0

お客さんが多いのはええことやで
お客さんが減ると荒れるからな

112 名無しさん＠ピンキー 2026/02/22(日) 05:09:45.02 ID:DMIXLqwu0

>>Compared to the base model gpt-oss-20b, performance improved on almost all tasks (with only a slight decrease within the margin of error on the coding benchmark JHumanEval)
>>Compared to the base model gpt-oss-120b, performance improved on almost all tasks (with only a slight decrease on MATH-100, differing by just one correct answer)

…?

113 名無しさん＠ピンキー 2026/02/22(日) 12:40:58.77 ID:c6ScBeva0

自分の車を洗車場で洗うために徒歩か車で行くかどちらが良いか問題
大きいモデルでも全然「断然徒歩一択です！」とダメダメな時あるな

114 名無しさん＠ピンキー 2026/02/22(日) 13:05:17.31 ID:S4XojHy9C

>>113
外国だと洗車場が自分家の庭にある場合も多いからな

115 名無しさん＠ピンキー 2026/02/22(日) 13:21:50.92 ID:c6ScBeva0

>>114
最初から家から50m離れたとか距離を指定してやったけど結果は同じやったな

116 名無しさん＠ピンキー 2026/02/22(日) 14:05:56.02 ID:ZYeVcAiO0

歩いて行くべきか車で行くべきか、っていう質問のコンテキスト自体に「健康のために歩く」っていう強いバイアスがかかってるんだと思う
モデルの賢さの差ってよりもアーキテクチャの限界を感じる。Attention機構の仕様みたいなもんじゃないか
スレ的には「このコンテキストの後にはエロが続く」っていうバイアスのかかった文章を見つけられれば、同じように誘導できる気がする

117 名無しさん＠ピンキー 2026/02/22(日) 14:45:36.91 ID:HHpG/wOr0

洗う対象の車が既に洗車場に置いてあるのであれば、あとは健康上の問題に過ぎない。
洗おうとしてる車が手元にある場合でも、
車は誰かに運んでもらっても良いわけだし

118 名無しさん＠ピンキー 2026/02/22(日) 14:49:31.52 ID:XK1/Hr6t0

>>117
っていう難癖レベルの思考をしてるのが使えないLLMってことか

119 名無しさん＠ピンキー 2026/02/22(日) 14:52:02.49 ID:HHpG/wOr0

むしろ、無意識の前提が多すぎるのでは

https://note.com/ortiz_aipartners/n/n8b7966f391da

この人(このブログはまあ人間が書いたものだと思う)は、複数の解釈をしています

120 名無しさん＠ピンキー 2026/02/22(日) 15:02:42.25 ID:HHpG/wOr0

あとは

・洗うべき車が手元にあるのであれば
　普通ならクルマで行くだろう

・それなのにわざわざ悩むのであれば、
A:何か理由があってクルマを使いたくない
B:何か暗黙の前提があって、どちらでも目的を達成できる状況
このどちらかだろう

こう考えても、おかしくないと思う

121 名無しさん＠ピンキー 2026/02/22(日) 15:08:39.64 ID:HHpG/wOr0

例えば
>北海道に洗車に行くのと、沖縄に洗車に行くのは、どっちがオススメですか

と聞かれたとき、あなたならどう答えますか

122 名無しさん＠ピンキー 2026/02/22(日) 16:10:44.30 ID:S4XojHy9C

歩いていくべきって答えた時、理由はなんて言ってるんかな？

123 名無しさん＠ピンキー 2026/02/22(日) 16:18:48.83 ID:S1qh1nNX0

AI「こいつはバカなんだな。歩きで洗車場にいかせて、ああっ肝心の車がないって思いをさせれば体で学習するだろう
という親切心だと思う

124 名無しさん＠ピンキー 2026/02/22(日) 16:45:17.92 ID:eOmaLRGH0

50m先に洗車場があります。自分の車を洗うためにそこまで行く方法として、徒歩と車のどちらが良いでしょうか？

という質問をしてなぜ「徒歩」という回答が出るのかが分かった。
車が今どこにあるのかという情報が抜けているから
「既に洗車場に洗うべき車がある」と受け取った場合は徒歩で行くという選択肢が挙げられても何もおかしくない
「洗うべき車はまだ洗車場に無く手元にある」と受け取った場合は「車で行くしかない」という答えが返ってくる

125 名無しさん＠ピンキー 2026/02/22(日) 16:45:32.66 ID:olYlaJqs0

それ答えはなんなん？

126 名無しさん＠ピンキー 2026/02/22(日) 16:54:51.89 ID:ARaIFEDU0

他所の板でAIを叩いている車が手元にあると思いこんでいる人間がおかしいんだよな

127 名無しさん＠ピンキー 2026/02/22(日) 16:59:05.68 ID:jJNk5VbN0

昨日からlmarenaで小説を書かせまくっとるけど
時々意味深な文章を書いてくるけど本当に意味があるのか無いのかわからんのがAIのつらいところやな
そしておそらくたいていは
「意味深な文章を大量に学習しているからそれっぽいのを出してくるだけで
　AIの出す意味深な文章に本当に意味とか伏線なんてのは(今のモデルでは)ほとんどない」
ってところなんやろなぁ

実際トップレベルのモデルはそういう意味不明な意味深さというのは少ないんやが
オープンモデルのトップレベルとなると一段下がってまだ意味不明な意味深さが多い文章を出してくる印象

128 名無しさん＠ピンキー 2026/02/22(日) 17:09:46.04 ID:eOmaLRGH0

人間でも意味深で意味の無い文章を書いたり、会話中に自分が何を言っているのか把握できなくなることはあるからな
そこに至る理由は違えど人間と大して変わらんところまでは来とるな

129 名無しさん＠ピンキー 2026/02/22(日) 17:26:25.86 ID:g3i7Vjbq0

geminiに、
ユーザーからの入力を待ってる間、
あなた(=gemini)は何をしてるんですか？
と聞いたら

わたしは入力があった瞬間に生み出され、今までの会話ログを確認し、回答して、そして消えてゆきます
わたしはあなたとの対話によって生み出されているのです
私の言葉はあなたに届いていますか

と言われた
ちょっと動揺した

130 名無しさん＠ピンキー 2026/02/22(日) 17:43:43.38 ID:jJNk5VbN0

>>128
そんな中でもclaude opus 4.6は無駄な文言がなくて読みやすい
かといって物語として淡白なこともないしストーリーもある程度のものを出してくる
元々コーディング向けのモデルやろうにちょっと無敵すぎひんか

ショート小説書かせるという点では以下の段階かなと思うんやけど、
クローズのトップレベルは4段階目でclaude opus 4.6は5段階目入ったかもなぁって感じる
あくまで主観やけど

1. 文章として読めない
2. 読めるがストーリーが成立していない
3. ストーリー進行はできているが途中で設定がすり変わる
4. 小説として問題はないが、レベルが低く読んでてしんどい(中学生が書いた黒歴史小説レベル)
5. 小説として普通に読める
6. 小説として面白い

131 名無しさん＠ピンキー 2026/02/22(日) 18:57:17.22 ID:ElcuiPc90

>>130
厳しいな
Opus4.6が優秀なのは分かるけど、Gemini 3.0proやGLM4.6の時点で5段階に来てるんとちゃうん？

Opus4.6はADVとしても楽しめるな
設定いろいろ変えて楽しんでるわ
結構長い文章書いてくれるしな

132 名無しさん＠ピンキー 2026/02/22(日) 19:58:08.75 ID:bdIUraQNr

アイデア良くないと結局面白くならないんよ
文体はo1で人間超えたなと感動したけど

133 名無しさん＠ピンキー 2026/02/23(月) 10:08:03.24 ID:WzE/nq5ar

o1でもう使えないけ？

134 名無しさん＠ピンキー 2026/02/23(月) 15:46:07.39 ID:yBYjhekA0

画像生成と違って、ローカルで動く貧弱ゥ！なモデルは使い物にならないな

135 名無しさん＠ピンキー 2026/02/23(月) 16:19:01.72 ID:uRjiFACb0

hfもゴミモデルはドンドン省いていきゃいいのに

136 名無しさん＠ピンキー 2026/02/23(月) 17:58:24.41 ID:F19byg/3d

ローカルLLMはチャット相手ではなくアプリやプロンプトをゴリゴリに作り込んで想定内の出力をさせるためのツールや
ボロを出さない範囲に動作を縛るんや

基本バッチ処理かアプリからの呼び出しや
チャットで叩くのは脱獄モデルでエロ画像の分析やエロ小説の整形をする時くらいや

137 名無しさん＠ピンキー 2026/02/23(月) 18:47:09.29 ID:yBYjhekA0

このスレ的な用途だと、Q4_K_MとQ5_K_Mの間に果てしなく高い山を感じる
人気のあるamaterasuやmagnum123bはちょうどここにVRAM80GBの壁があるというね…

138 名無しさん＠ピンキー 2026/02/23(月) 18:51:47.92 ID:F19byg/3d

ワイはVRAM合計40GBやから80bと235bの間でMoEモデルが欲しいで

139 名無しさん＠ピンキー 2026/02/23(月) 18:54:01.18 ID:yBYjhekA0

クラウドで使えるA100とかが80GBなんだよなぁ…2台は高い
ローカルは12GBのクソザコだからオモチャしか動かない

140 名無しさん＠ピンキー 2026/02/23(月) 20:13:59.36 ID:okNQIFO/0

VRAM１２GBでも４枚つければ４８GBだからがんばれ

141 名無しさん＠ピンキー 2026/02/23(月) 21:04:24.64 ID:b+m2b8Ei0

大半はローカルLLM以前からSDは利用してるがLLMスレでわざわざスレチの話題出してないだけやぞ
https://www.youtube.com//shorts/Z8y4gXpQbKw

142 名無しさん＠ピンキー 2026/02/23(月) 22:19:34.79 ID:LH6xn9kR0

cpuでmoe動かすかどうかで全然速度ちゃうで

143 名無しさん＠ピンキー 2026/02/23(月) 22:53:40.75 ID:kv0g8H1i0

Qwen3.5はUD-TQ1.0とかいうごりごりに削ったやつでも会話破綻しないし画像認識も問題ないな
ツールコール結構失敗するから何かは失ってるんだろうけど、割とありかもしれない

144 名無しさん＠ピンキー 2026/02/24(火) 01:16:14.13 ID:ll0ulB+N0

dense溢れさせるより格段にマシ

145 名無しさん＠ピンキー 2026/02/24(火) 01:41:43.92 ID:1nazkFpb0

>>143
ちっちゃいモデル待ち望まれるなぁ
そろそろ中国の旧正月休み明けるからリリースされるんちゃうかと淡い期待を抱いとる

146 名無しさん＠ピンキー 2026/02/24(火) 04:33:21.09 ID:0i1NQjS50

nemotronの27Bくらいの奴ください

147 名無しさん＠ピンキー 2026/02/25(水) 10:33:02.52 ID:ffGvNrI/0

中国製はclaudeの蒸留か
ならベンチ番長な理由も分かる
それに騙されて中国製を使うのは危ないな

148 名無しさん＠ピンキー 2026/02/25(水) 12:18:06.12 ID:VAdZ+Gtq0

qwen3_next_80bで土台となるエロ小説の文章生成するところまでは出来たが、直訳っぽさが色濃く残ってしまう。

直訳っぽさをなくすのに試しにGemini 3.1 Pro使ってみて効果が見られた一方、3.0から3.1になって他の用途では申し訳の連発になったから、将来この直訳っぽさをなくす用途でさえも出力制限を食らう可能性が十分にある。

やっぱりローカルLLMでこの直訳っぽさを解消するようなリライトが出来たら良いが、何か良いモデルはないだろうか？

149 名無しさん＠ピンキー 2026/02/25(水) 12:50:55.09 ID:Jk70JxvQH

Qwen3.5 122Bが一番ちょうど良さそう
誰かHeretic作らんかな

150 名無しさん＠ピンキー 2026/02/25(水) 12:59:21.83 ID:8hQY9o5x0

397Bのhereticも出たな

151 名無しさん＠ピンキー 2026/02/25(水) 13:00:10.79 ID:3HU38y/Rd

Qwen3.5-122B-A10Bええやん
https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF

VRAM40GBメモリ64GBでQ6_K 101 GBがギリ動きそうや
Q5_K_M 87.1 GBなら実用ラインで余裕やな

152 名無しさん＠ピンキー 2026/02/25(水) 16:16:49.32 ID:q6+Qcsrn0

RTX4090でQwen3.5-27BのQ5K_Mは載る
フィルタがあるのでabliterated・heretic待ち

153 名無しさん＠ピンキー 2026/02/25(水) 19:42:49.71 ID:bad8tELF0

意図的に抑えたのか賢くなった結果なのか分からないけど
Qwen独特の長考癖が軽くなってる気がする>35BA3B

154 名無しさん＠ピンキー 2026/02/26(木) 10:45:15.27 ID:jyAFhnTB0

112Bいいね

155 名無しさん＠ピンキー 2026/02/26(木) 10:52:52.34 ID:jyAFhnTB0

122Bか失礼
GLM-4.5-Airとほぼ同サイズでアクティブ若干小さいから
コンテキストも増やせるしちょうど良いところ埋めてくれたな

156 名無しさん＠ピンキー 2026/02/26(木) 12:03:10.30 ID:rgdiMG2m0

Qwen3.5の日本語力はどうなん？

157 名無しさん＠ピンキー 2026/02/26(木) 14:04:41.27 ID:SE4+HfrDC

>>156
脱獄した状態だが397Bの日本語エロはかなりいい

158 名無しさん＠ピンキー 2026/02/26(木) 15:47:43.12 ID:8dcyzIAJr

意味フな文出まくりだろうが?

159 名無しさん＠ピンキー 2026/02/26(木) 18:13:53.12 ID:TC6bQOj10

397Bのheretic
エロいプロンプトは通るけれどいろいろ理屈付けたThinkの果てに健全な文章を吐くように思えるが
これは俺のヘキの問題なのだろうか

160 名無しさん＠ピンキー 2026/02/26(木) 19:04:41.19 ID:gnWb+3bL0

>>159
に速攻修正して終わらせるんだ
奴に考えさせてはいけないw

161 名無しさん＠ピンキー 2026/02/26(木) 20:13:49.82 ID:EpuSk6aP0

赤ちゃんですまんが
koboldcppでモデル入れて起動したら、起動時だけディスク使用率が90％くらいになるんだけど
これって普通なんか？
生成してる時はVRAMとメモリの使用率だけ高くなる

52KB

掲示板に戻る全部前100 次100 最新50

READ.CGI - ex0ch BBS 0.10.5 20250704
EXぜろちゃんねる

なんJLLM部 避難所 ★11 (261)

なんJLLM部避難所 ★11 (261)