侧边栏壁纸
博主头像
比特栈 博主等级

行动起来,活在当下

  • 累计撰写 111 篇文章
  • 累计创建 3 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

12.12-12.19

Administrator
2026-01-03 / 0 评论 / 0 点赞 / 2 阅读 / 0 字

扣子编程,开启免费公开测试

在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。来源:扣子Coze

OpenAI最强代码模型GPT-5.2-Codex上线

OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。来源:机器之心

苹果开源 SHARP 模型,1 秒内 AI 让照片变 3D“活”起来

苹果公司宣布开源其新型AI模型SHARP,能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比,处理速度提升了三个数量级,实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术,通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。来源:IT之家

Google 发布了高速、低成本模型 Gemini 3 Flash

谷歌正式发布高速、低成本模型Gemini 3 Flash,模型在多项基准测试中表现优异,其性能已超越前代Gemini 2.5 Pro,在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力,响应速度提升3倍,同时显著降低了成本。来源:机器之心

Meta 发布 SAM Audio,多模态音频分离新突破

Meta发布首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术,用户可点击视频中物体分离对应音频,或输入”狗吠”等文本指令过滤噪音。来源:IT之家

OpenAI 最强 AI 生图模型GPT Image 1.5登场

OpenAI发布全新旗舰图像生成模型GPT Image 1.5,模型在提示词遵循、细节保留和文本渲染方面实现重大突破,能精准生成或编辑图像并保持原图光线、构图等核心特征。来源:IT之家

LiblibAI 上线「Wan 2.6」视频模型,中国版 SORA2 来了!

LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频,实现完整叙事生成,无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色,支持单/双人表演及多人对话场景的声画同步。来源:哩布哩布AI

Wan2.6正式发布!上线国内首个角色扮演功能

阿里巴巴发布通义万相2.6多模态模型,是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。角色扮演功能允许用户上传参考视频,AI能复刻角色外观与音色,生成单人或多人表演内容。在图像生成方面,模型提升了艺术风格融合与细节刻画能力,支持图文混排、多图融合等商用级创作。来源:通义万相Wan

通义百聆语音双子星,同步开源!

阿里云通义百聆开源语音双子星模型Fun-CosyVoice3Fun-ASR。Fun-CosyVoice3支持仅3秒音频即可实现跨9种语言、18种方言的音色克隆与情感控制,首包延迟降低50%,中英混说错误率下降56.4%。Fun-ASR在嘈杂环境下识别准确率达93%,支持31种语言混说及方言识别,将流式识别首字延迟降至160毫秒。来源:通义大模型

Google Gemini TTS升级:支持24种语言,语音更拟真

谷歌Gemini TTS模型,发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型,提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制,能根据上下文调整语速,如在兴奋时加快、强调时放慢,还能在多语言对话中保持一致的角色声音,使对话更真实。来源:AI工具集

GPT-5.2 正式发布!让打工人每周少干 10 小时

OpenAI正式发布GPT-5.2模型,推出Instant、Thinking、Pro三个版本,分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录。其幻觉率降低约30%,长文本处理准确率接近完美。来源:APPSO

迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频

迪士尼公司与OpenAI达成为期三年的战略合作协议,将向OpenAI投资10亿美元并获得股权。根据协议,OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权,包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频,部分精选内容还将在Disney+平台播出。来源:IT之家

0

评论区