侧边栏壁纸
博主头像
比特栈 博主等级

行动起来,活在当下

  • 累计撰写 104 篇文章
  • 累计创建 3 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

6-3,AI事件

Administrator
2025-06-04 / 0 评论 / 0 点赞 / 3 阅读 / 0 字

微软Bing推出AI视频生成工具:Bing Video Creator,免费使用Sora模型

微软 Bing 团队推出 Bing Video Creator免费的 AI 视频生成工具,由 OpenAl 的 Sora 模型提供支持。用户只需在Bing 移动应用中输入详细的文字描述,可生成5秒长的竖屏视频(9:16格式)。提供快速和标准两种生成速度,初始有10次免费快速生成机会,之后可使用积分兑换或转为标准速度,

我国水利标准AI大模型正式发布

水利部国科司组织中国水科院自主研发的“水利标准A1大模型”正式发布并应用。模型基于"SkyLIM”体系,采用“海量知识库+DeepSeek/Qwen双模型+标准服务"架构,集成1800余项水利水电标准、500余项法律法规等多源语料,具备水利标准查重比对、查询、编制、审查、评估等多维功能。

银河通用发布全球首个产品级端到端具身 FSD 大模型:TrackVLA

银河通用发布全球首个产品级端到端具身FSD大模型TrackVLA。模型具备纯视觉环境感知、语言指令驱动、自主推埋及零样本泛化能力,无需提前建图和遥操控制,可实现“听一看一懂一走”的闭环运动。有八大核心能力,包括自然语言理解与目标识别、复杂场景下准确跟随、目标丢失找回、陌生环境自主导航等。

谷歌 DeepMind 推出手语翻译模型:SignGemma,打破手语沟通壁垒

谷歌 DeepMind 推出 SignGemma,是强大的手语翻译模型,可将手语转化为口语文本,主要针对美国手语(ASL)和英语深度优化,为开源模型,将于今年晚些时候加入 Gemma 模型家族。DeepMind 希望借此打破手语使用者的沟通障碍,助力他们在工作、学习和社交中更顺畅地参与。

小米多模态大模型 MiMo-VL 开源,多方面领先 Qwen2.5-VL-7B

小米多模态大模型 MiMo-VL 正式开源。在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,在 GUl Grounding 任务上比肩专用模型。

0

评论区