pov 在这里 github.com/karminski/deepseek-reasoning-content-field-issue-pov
给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命.

问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错:

HTTP 400
{"error":{"message":"The ​​​​...展开全文c
给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命.

问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错:

HTTP 400
{"error":{"message":"The ​​​​...展开全文c
TQL
忙了一段时间的FCP2.0自动测试报告系统(也就是图2的KFC)今天实装,喂了一份海韵FOCUS GX-1000 ATX 3.1电源测试RAW报告让它生成一整篇图形化可交互的报告。

当然处理的过程不是让AI处理,是已经写好的程序,把我十几年的工作经验写成程序,包含了自动瞄准动态波形判定动态电压恢复时间和热成像区域自 ​​​​...展开全文c
给大家同步一下DeepSeek-V4 的测试进度,目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的GPT-5.5-Pro (我去攒点银子), xiaomi-mimo, hunyuan-3-preview 的测试,这几个正在跑了。

然后这次我还增加了【大模型工程能力测试】,说下测试核心设计思路:
首先工程项目我选择了酒馆(SillyTaver ​​​​...展开全文c
DeepSeek-V4-Pro API 这么贵的吗? 我都没看定价就直接开测了...测到一半提示我API欠费了.....

#HOW I AI##deepseek# ​​​​
给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试.

这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力.

DeepSeek-V4 从这个 Case 来看比之前的 V3 ​​​​...展开全文c
我都还没来得及看,这次是真的全国产卡训练了吗?
#DeepSeekV4发布# 用GPT Image 2 做个介绍图 ​​​​
图1总结自模型卡
图2总结自技术报告 ​​​​
来了老铁们[泪奔] 我刚到家,已经开始测了.... 白天在山里赫然收到推送DSv4发了,这会也回不去下也下不来。爬的我脑瓜子嗡嗡的....

一会先放速报哈,完整测评视频全部评测完毕放出,本次内容会包括近半年所有大模型的编程能力横评。

#HOW I AI##deepseek# ​​​​
难道是拼好模? 并不! 混元3架构解析!

腾讯混元3刚刚发布, 给大家带来架构解析, 先说结论: 基础架构适当改进和整合, 参数调节下了真功夫

一个现代大模型基本上就是这么几个大部件拼起来的: 注意力, 解码层, MoE 容器 + 路由 + 专家, 以及位置编码.

这几年开源社区把这些零件卷得很成熟了. 那腾讯这 ​​​​...展开全文c
回复@我姓田我很甜嗯:是的,一般后训练模型比基模好不少,但是这部分没放出来,不知道为啥//@我姓田我很甜嗯:用base是什么意思?意思实际分数大于表格里的?
混元3藏了一手? 我把其他模型分数补充了下

腾讯混元3大模型(hunyuan3-preview) 刚刚发布!

不过我注意到一个事情哈, 官方放出的模型跑分表格有点说法, 他们说这是基模的, 也就是 hy3-preview-base. 并不是后训练模型 hy3-preview 的.

而这个表格里却少了很多 Agentic 性能测试的评分, 比如 SWE-Ben ​​​​...展开全文c
混元3藏了一手? 我把其他模型分数补充了下

腾讯混元3大模型(hunyuan3-preview) 刚刚发布!

不过我注意到一个事情哈, 官方放出的模型跑分表格有点说法, 他们说这是基模的, 也就是 hy3-preview-base. 并不是后训练模型 hy3-preview 的.

而这个表格里却少了很多 Agentic 性能测试的评分, 比如 SWE-Ben ​​​​...展开全文c
回复@廖熊猫沉迷Haskell:👍,我原本的设定类似冈本伦的思路,然后收容设施内部的箱庭冒险设计来自于动物迷城+恐怖の世界。用药片当货币(类似地铁里面用子弹当货币)。然后立绘是kimi根据人设+参考图调用nano-banana-2生成 ¡评论配图 //@廖熊猫沉迷Haskell:[喵喵]看封面有一种主角要黑化...展开全文c
Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏!

给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测!

本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图 ​​​​...展开全文c
Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏!

给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测!

本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图 ​​​​...展开全文c
来个投票! 各位老铁觉得 DeepSeek-V4 正式版本周会发布吗? Rkarminski-牙医的微博投票 ​​​​
DeepSeek 会在本周发布吗?
就在今天!
160人
本周二
21人
本周三
32人
本周四
24人
主打一个放假前发布! 本周五!
129人
没想到吧? 本周六!
7人
偷袭! 本周日!
22人
下周发! 主打一个让你五一不好过
116人
暗度陈仓! 妥妥五一之后了
100人
611人参与 投票已结束
回复@蚁工厂:其实与 GPT-5.4-Pro (xhigh) 相比还是有性价比的, 这次主要是补上了上次没测的 Opus-4.6 的测试, 俩模型测下来+本次的新测试集, 成本都比 GPT-5.4-Pro 低. ¡评论配图 //@蚁工厂:[老师好]100刀的测试成本
给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试!

本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3.

从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6 ​​​​...展开全文c

正在加载中,请稍候...