宇树开源 UnifoLM-VLA-0 大模型,助力通用人形机器人操作
宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构,通过340小时真机数据训练,融合2D/3D空间感知与动力学预测能力,突破传统VLM在物理交互中的局限。来源:IT之家
Qwen3-ASR开源:够稳定,能流式,多语言!
阿里云千问团队开源Qwen3-ASR系列语音识别模型,包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别,覆盖中文22种地方口音及多国英语变体,在嘈杂环境、歌唱场景下均表现稳定。来源:千问Qwen
MiniMax Music 2.5: 格莱美级创作,不再需要录音棚
MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5,突破性实现14种段落结构(如前奏、副歌、桥段)的标签化精准控制,支持创作者像专业编曲人一样设计整曲情绪曲线。来源:MiniMax稀宇科技
MiniMax发布MiniMax M2-her角色扮演模型
MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构,模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系,从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力,在百轮长对话测试中综合表现领先。来源:MiniMax稀宇科技
Kimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力
月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理复杂任务,效率提升最高4.5倍。来源:月之暗面Kimi
DeepSeek又探索新架构了,开源DeepSeek-OCR 2
DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token,使AI能像人类一样按逻辑顺序理解复杂文档(如表格、多栏排版),在OmniDocBench评测中以91.09%的综合得分刷新纪录,阅读顺序识别误差降低33%。来源:机器之心
千问最强模型Qwen3-Max-Thinking正式发布
阿里正式发布其规模最大、能力最强的推理模型Qwen3-Max-Thinking。模型总参数量超万亿,预训练数据达36T Tokens,在多项国际专业基准测试中刷新纪录。其创新性地采用了测试时扩展机制,在提升推理性能的同时更加经济。来源:阿里云
GitHub开源项目Clawdbot意外带火Mac mini
开源项目Clawdbot在GitHub爆火,Star数两天内从五千飙升至两万。项目支持自部署AI助手,通过网关连接聊天软件(如WhatsApp、Telegram)与多款AI模型(Claude、GPT等),并集成日历管理、邮件处理、自动化任务等技能,实现真正的“对话式”个人助理。来源:APPSO
Qwen3-TTS全家桶开源上线!
通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。来源:千问Qwen
腾讯CodeBuddy Code 2.0 重磅升级!
腾讯CodeBuddy Code 2.0版本正式发布,核心升级包括开放SDK集成能力,通过Plan模式与ACP协议实现Agent能力标准化输出,支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态,支持Plugin插件市场与自定义Subagents智能体,集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能,支持GLM-4.7等多模型切换。来源:腾讯云代码助手CodeBuddy
评论区