
今日精选
Hands-On Modern RL:现代强化学习实战指南
一本填补主流教程与行业实践鸿沟的现代强化学习教程。从第一行代码开始训练智能体,涵盖PPO、DPO、GRPO等算法,采用先动手后理论的学习路径,适合学生、工程师和研究人员。

今日精选
一本填补主流教程与行业实践鸿沟的现代强化学习教程。从第一行代码开始训练智能体,涵盖PPO、DPO、GRPO等算法,采用先动手后理论的学习路径,适合学生、工程师和研究人员。
Netflix 官方技术博客介绍了模型服务中的路由现状。在大规模在线推理系统中,路由需在延迟、吞吐、成本、可用性和模型异构性之间权衡。文章从简单负载均衡演进到自适应路由,强调结合模型副本、容量、SLO 和观测数据动...
Realmbird 正在撰写关于 Deepseek 新架构 mHC 的系列文章。mHC 是对超连接(HC)的修复,解决了梯度消失或爆炸问题,已在 Deepseek v4 中实现。其核心是使用 Sinkhorn-Kn...
本文基于一份面向工程设计的人形机器人指南,分析执行器在连续冲击下的失效原因。每小时5000步、每步2-3倍体重的冲击力,速度超过传感器反应时间,因此机械上可反向驱动成为幸存执行器的共同特征。
OpenAI 联合 AMD、博通、英特尔、微软、英伟达,通过 OCP 开源了训练 ChatGPT 所用的 MRC 网络协议。该协议通过多路径并行传输和 SRv6 源路由,将链路故障恢复时间降至微秒级,简化网络结构,...
按时间排序,聚焦近期更新。
Florian Brand 访问中国多家 AI 实验室后,描述了研究人员谦逊、开放、专注模型训练的氛围,与西方零和竞争形成对比,并观察到年轻化、工业界吸引力强以及普通大众对 AI 的乐观态度。

Understand-Anything 是一款开源工具,将代码分析功能整合为可视化解决方案。它通过交互式知识图谱、语义搜索、引导式架构游览和变更影响分析,帮助开发者快速理解大型代码库的结构与依赖关系,并兼容多款主流...

hfviewer 是一个在线工具,通过粘贴 Hugging Face 模型链接即可生成交互式架构图。支持从高层次概览到具体子模块的粒度切换,支持模型家族对比,以及 MoE 路由、多模态融合等复杂结构可视化。无需安装...

deepclaude 是一个开源工具,兼容 Claude Code 的代理循环,通过替换后端模型(如 DeepSeek V4 Pro)实现 17 倍成本节省。支持实时后端切换、自动上下文缓存和成本追踪,可在终端和...

Zilliz 开源 claude-context,通过 AST 分块、向量化存储和混合搜索,让 Claude Code 能语义检索整个代码库,减少约 40% token 消耗,支持多种编程语言和开发工具。
通过标签快速进入细分技术话题。