f
E
首页
视频
F
发现
G
游戏
注册
登录
//img.t.sinajs.cn/t6/skin/default/skin.css?version=12eb15e5
karminski-牙医
AI博主
+
关注
g
私信
=
悄悄关注
分享到微博
加入黑名单
投诉他
他的主页
他的相册
1950
关注
27.8万
粉丝
20965
微博
AI博主
查看更多
a
微关系
他的关注(1943)
金山
爱搞机
HappyHorse_AI
LXYOURS林下
他的粉丝(27.8万)
祎璃然
给我一首歌的时间-_886
用户8371279245
官小官cs
查看更多
a
赞
大魔王FCP
忙了一段时间的FCP2.0自动测试报告系统(也就是图2的KFC)今天实装,喂了一份海韵FOCUS ...
查看更多
a
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
5月1日 03:01
来自
微博网页版
pov 在这里 github.com/karminski/deepseek-reasoning-content-field-issue-pov
@karminski-牙医
给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命.
问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错:
HTTP 400
{"error":{"message":"The ...
展开全文
c
80
41
ñ
182
5月1日 02:59
来自
微博网页版
û
收藏
9
1
ñ
33
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
5月1日 02:59
来自
微博网页版
给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命.
问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错:
HTTP 400
{"error":{"message":"The ...
展开全文
c
û
收藏
80
41
ñ
182
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
5月1日 02:58
来自
微博网页版
TQL
@大魔王FCP
忙了一段时间的FCP2.0自动测试报告系统(也就是图2的KFC)今天实装,喂了一份海韵FOCUS GX-1000 ATX 3.1电源测试RAW报告让它生成一整篇图形化可交互的报告。
当然处理的过程不是让AI处理,是已经写好的程序,把我十几年的工作经验写成程序,包含了自动瞄准动态波形判定动态电压恢复时间和热成像区域自 ...
展开全文
c
19
10
ñ
47
5月1日 01:30
来自
iPhone客户端
û
收藏
3
2
ñ
15
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月27日 13:50
来自
微博网页版
给大家同步一下DeepSeek-V4 的测试进度,目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的GPT-5.5-Pro (我去攒点银子), xiaomi-mimo, hunyuan-3-preview 的测试,这几个正在跑了。
然后这次我还增加了【大模型工程能力测试】,说下测试核心设计思路:
首先工程项目我选择了酒馆(SillyTaver ...
展开全文
c
û
收藏
28
35
ñ
248
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月25日 02:50
来自
微博网页版
已编辑
DeepSeek-V4-Pro API 这么贵的吗? 我都没看定价就直接开测了...测到一半提示我API欠费了.....
#HOW I AI#
#deepseek#
û
收藏
7
62
ñ
201
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月25日 00:05
来自
微博视频号
给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试.
这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力.
DeepSeek-V4 从这个 Case 来看比之前的 V3 ...
展开全文
c
小窗口
û
收藏
33
35
ñ
251
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月24日 19:36
来自
微博网页版
我都还没来得及看,这次是真的全国产卡训练了吗?
@蚁工厂
#DeepSeekV4发布#
用GPT Image 2 做个介绍图
图1总结自模型卡
图2总结自技术报告
54
13
ñ
68
4月24日 11:52
来自
微博网页版
已编辑
û
收藏
13
15
ñ
58
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月24日 19:14
来自
微博网页版
来了老铁们
我刚到家,已经开始测了.... 白天在山里赫然收到推送DSv4发了,这会也回不去下也下不来。爬的我脑瓜子嗡嗡的....
一会先放速报哈,完整测评视频全部评测完毕放出,本次内容会包括近半年所有大模型的编程能力横评。
#HOW I AI#
#deepseek#
û
收藏
15
60
ñ
287
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月23日 23:03
来自
微博网页版
难道是拼好模? 并不! 混元3架构解析!
腾讯混元3刚刚发布, 给大家带来架构解析, 先说结论: 基础架构适当改进和整合, 参数调节下了真功夫
一个现代大模型基本上就是这么几个大部件拼起来的: 注意力, 解码层, MoE 容器 + 路由 + 专家, 以及位置编码.
这几年开源社区把这些零件卷得很成熟了. 那腾讯这 ...
展开全文
c
û
收藏
24
48
ñ
92
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月23日 19:41
来自
微博网页版
回复
@我姓田我很甜嗯
:是的,一般后训练模型比基模好不少,但是这部分没放出来,不知道为啥//
@我姓田我很甜嗯
:用base是什么意思?意思实际分数大于表格里的?
@karminski-牙医
混元3藏了一手? 我把其他模型分数补充了下
腾讯混元3大模型(hunyuan3-preview) 刚刚发布!
不过我注意到一个事情哈, 官方放出的模型跑分表格有点说法, 他们说这是基模的, 也就是 hy3-preview-base. 并不是后训练模型 hy3-preview 的.
而这个表格里却少了很多 Agentic 性能测试的评分, 比如 SWE-Ben ...
展开全文
c
11
8
ñ
35
4月23日 19:28
来自
微博网页版
û
收藏
3
3
ñ
12
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月23日 19:28
来自
微博网页版
混元3藏了一手? 我把其他模型分数补充了下
腾讯混元3大模型(hunyuan3-preview) 刚刚发布!
不过我注意到一个事情哈, 官方放出的模型跑分表格有点说法, 他们说这是基模的, 也就是 hy3-preview-base. 并不是后训练模型 hy3-preview 的.
而这个表格里却少了很多 Agentic 性能测试的评分, 比如 SWE-Ben ...
展开全文
c
û
收藏
11
8
ñ
35
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月22日 00:50
来自
微博网页版
回复
@廖熊猫沉迷Haskell
:👍,我原本的设定类似冈本伦的思路,然后收容设施内部的箱庭冒险设计来自于动物迷城+恐怖の世界。用药片当货币(类似地铁里面用子弹当货币)。然后立绘是kimi根据人设+参考图调用nano-banana-2生成
¡
评论配图
//
@廖熊猫沉迷Haskell
:
看封面有一种主角要黑化...
展开全文
c
@karminski-牙医
Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏!
给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测!
本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图 ...
展开全文
c
小窗口
68
19
ñ
142
4月21日 19:47
来自
微博视频号
û
收藏
8
7
ñ
18
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月21日 19:47
来自
微博视频号
Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏!
给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测!
本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图 ...
展开全文
c
小窗口
û
收藏
68
19
ñ
142
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月20日 08:04
来自
微博网页版
来个投票! 各位老铁觉得 DeepSeek-V4 正式版本周会发布吗?
R
karminski-牙医的微博投票
DeepSeek 会在本周发布吗?
就在今天!
160人
本周二
21人
本周三
32人
本周四
24人
主打一个放假前发布! 本周五!
129人
没想到吧? 本周六!
7人
偷袭! 本周日!
22人
下周发! 主打一个让你五一不好过
116人
暗度陈仓! 妥妥五一之后了
100人
611人参与 投票已结束
@karminski-牙医
创建
û
收藏
8
36
ñ
624
c
帮上头条
用此卡片背景
投诉
+
关注
karminski-牙医
4月19日 14:02
回复
@蚁工厂
:其实与 GPT-5.4-Pro (xhigh) 相比还是有性价比的, 这次主要是补上了上次没测的 Opus-4.6 的测试, 俩模型测下来+本次的新测试集, 成本都比 GPT-5.4-Pro 低.
¡
评论配图
//
@蚁工厂
:
100刀的测试成本
@karminski-牙医
给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试!
本次测试多模态前端测试采用 pass
@3
(相同prompt运行3次取最好结果), 复杂前端测试采用 pass
@6
, 后端能力测试采用 pass
@3
.
从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6 ...
展开全文
c
小窗口
38
16
ñ
114
4月19日 13:34
来自
微博视频号
û
收藏
2
评论
ñ
11
正在加载中,请稍候...
最近
2026
5月
4月
3月
2月
1月
2025
12月
11月
10月
9月
8月
7月
6月
5月