26/01/22-26/01/30-比特栈

宇树开源 UnifoLM-VLA-0 大模型，助力通用人形机器人操作

宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构，通过340小时真机数据训练，融合2D/3D空间感知与动力学预测能力，突破传统VLM在物理交互中的局限。来源：IT之家

Qwen3-ASR开源：够稳定，能流式，多语言！

阿里云千问团队开源Qwen3-ASR系列语音识别模型，包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别，覆盖中文22种地方口音及多国英语变体，在嘈杂环境、歌唱场景下均表现稳定。来源：千问Qwen

MiniMax Music 2.5: 格莱美级创作，不再需要录音棚

MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5，突破性实现14种段落结构（如前奏、副歌、桥段）的标签化精准控制，支持创作者像专业编曲人一样设计整曲情绪曲线。来源：MiniMax稀宇科技

MiniMax发布MiniMax M2-her角色扮演模型

MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构，模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系，从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力，在百轮长对话测试中综合表现领先。来源：MiniMax稀宇科技

Kimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解（图像/视频）等多项基准测试中达到开源SOTA水平，支持多模态输入及四种工作模式。创新性引入“Agent集群”能力，可自主创建多达100个分身并行处理复杂任务，效率提升最高4.5倍。来源：月之暗面Kimi

DeepSeek又探索新架构了，开源DeepSeek-OCR 2

DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2，采用DeepEncoder V2架构，将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token，使AI能像人类一样按逻辑顺序理解复杂文档（如表格、多栏排版），在OmniDocBench评测中以91.09%的综合得分刷新纪录，阅读顺序识别误差降低33%。来源：机器之心

千问最强模型Qwen3-Max-Thinking正式发布

阿里正式发布其规模最大、能力最强的推理模型Qwen3-Max-Thinking。模型总参数量超万亿，预训练数据达36T Tokens，在多项国际专业基准测试中刷新纪录。其创新性地采用了测试时扩展机制，在提升推理性能的同时更加经济。来源：阿里云

GitHub开源项目Clawdbot意外带火Mac mini

开源项目Clawdbot在GitHub爆火，Star数两天内从五千飙升至两万。项目支持自部署AI助手，通过网关连接聊天软件（如WhatsApp、Telegram）与多款AI模型（Claude、GPT等），并集成日历管理、邮件处理、自动化任务等技能，实现真正的“对话式”个人助理。来源：APPSO

Qwen3-TTS全家桶开源上线！

通义千问团队正式开源Qwen3-TTS系列语音生成模型，包含1.7B和0.6B两种参数规模，全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构，实现高效语音压缩与高保真还原，首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言，支持自然语言指令精确控制音色、情感及韵律。来源：千问Qwen

腾讯CodeBuddy Code 2.0版本正式发布，核心升级包括开放SDK集成能力，通过Plan模式与ACP协议实现Agent能力标准化输出，支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态，支持Plugin插件市场与自定义Subagents智能体，集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能，支持GLM-4.7等多模型切换。来源：腾讯云代码助手CodeBuddy

目录CONTENT

26/01/22-26/01/30