侧边栏壁纸
博主头像
比特栈 博主等级

行动起来,活在当下

  • 累计撰写 104 篇文章
  • 累计创建 3 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

8-27,AI事件

Administrator
2025-09-12 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

Claude for Chrome来了!可作为浏览器扩展程序直接使用

Anthropic发布Claude for Chrome,一款作为浏览器扩展程序的AI工具。可在Chrome侧边窗口与用户对话,执行任务如设置日历、回复邮件等。目前仅向1000名Max套餐用户开放,月费100至200美元。安全是其重点,用户可限制其访问特定网站,且高风险操作需用户许可。

字节跳动推出新一代AI视频生成模型Waver 1.0

字节跳动推出了新一代AI视频生成模型Waver 1.0,基于修正流Transformer架构,支持文本到视频、图像到视频和文本到图像的生成,无需切换模型。支持最高1080p分辨率和2-10秒的灵活视频长度,擅长捕捉复杂运动,生成的视频在运动幅度和时间一致性上表现出色。

多模态新旗舰MiniCPM-V 4.5:高刷视频理解又准又快

面壁科技开源了8B参数多模态旗舰模型MiniCPM-V 4.5,是首个具备高刷视频理解能力的端侧多模态模型。模型在高刷视频理解、长视频理解、图片理解、OCR、文档解析等多个领域表现优异,甚至在一些榜单上超越了72B参数的Qwen2.5-VL。来源:面壁小钢炮MiniCPM

谷歌推出图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)

谷歌正式推出最新的图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana),模型在多个榜单上名列前茅,表现出色。主要特点包括保持角色一致性、基于提示的图片编辑、利用Gemini的现实世界知识进行推理以及多幅图像融合。已通过Gemini APP、API、Google AI Studio和Vertex AI开放访问,每张图片生成成本约0.039美元。

Wan2.2-S2V开源!图片+音频丝滑生成电影级视频

通义万相开源了全新多模态视频生成模型「Wan2.2-S2V」。模型仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,大幅提升数字人直播、影视制作等行业的视频创作效率。模型支持真人、卡通、动物等多种图片类型,可通过文本控制视频画面。

文心快码多项升级更新,新增Zulu-CLI终端编码能力

文心快码进行了多项升级更新,新增了Zulu-CLI,允许开发者在终端中使用Zulu的智能编码能力,无需离开命令行界面。企业版支持自定义模型,可根据不同场景灵活切换模型。

微软开源TTS模型:VibeVoice,可生成 90 分钟语音

微软开源了文本转语音(TTS)模型VibeVoice-1.5B,可生成最长90分钟、最多4位说话者的自然语音,支持跨语言及歌声合成。模型基于1.5B参数的Qwen2.5语言模型,结合声学与语义双分词器,以7.5Hz低帧率处理。

0

评论区