8-27,AI事件-比特栈

Claude for Chrome来了！可作为浏览器扩展程序直接使用

Anthropic发布Claude for Chrome，一款作为浏览器扩展程序的AI工具。可在Chrome侧边窗口与用户对话，执行任务如设置日历、回复邮件等。目前仅向1000名Max套餐用户开放，月费100至200美元。安全是其重点，用户可限制其访问特定网站，且高风险操作需用户许可。

字节跳动推出新一代AI视频生成模型Waver 1.0

字节跳动推出了新一代AI视频生成模型Waver 1.0，基于修正流Transformer架构，支持文本到视频、图像到视频和文本到图像的生成，无需切换模型。支持最高1080p分辨率和2-10秒的灵活视频长度，擅长捕捉复杂运动，生成的视频在运动幅度和时间一致性上表现出色。

多模态新旗舰MiniCPM-V 4.5：高刷视频理解又准又快

面壁科技开源了8B参数多模态旗舰模型MiniCPM-V 4.5，是首个具备高刷视频理解能力的端侧多模态模型。模型在高刷视频理解、长视频理解、图片理解、OCR、文档解析等多个领域表现优异，甚至在一些榜单上超越了72B参数的Qwen2.5-VL。来源：面壁小钢炮MiniCPM

谷歌推出图像生成与编辑模型Gemini 2.5 Flash Image（代号nano banana）

谷歌正式推出最新的图像生成与编辑模型Gemini 2.5 Flash Image（代号nano banana），模型在多个榜单上名列前茅，表现出色。主要特点包括保持角色一致性、基于提示的图片编辑、利用Gemini的现实世界知识进行推理以及多幅图像融合。已通过Gemini APP、API、Google AI Studio和Vertex AI开放访问，每张图片生成成本约0.039美元。

Wan2.2-S2V开源！图片+音频丝滑生成电影级视频

通义万相开源了全新多模态视频生成模型「Wan2.2-S2V」。模型仅需一张静态图片和一段音频，能生成电影级数字人视频，视频时长可达分钟级，大幅提升数字人直播、影视制作等行业的视频创作效率。模型支持真人、卡通、动物等多种图片类型，可通过文本控制视频画面。

文心快码多项升级更新，新增Zulu-CLI终端编码能力

文心快码进行了多项升级更新，新增了Zulu-CLI，允许开发者在终端中使用Zulu的智能编码能力，无需离开命令行界面。企业版支持自定义模型，可根据不同场景灵活切换模型。

微软开源TTS模型：VibeVoice，可生成 90 分钟语音

微软开源了文本转语音（TTS）模型VibeVoice-1.5B，可生成最长90分钟、最多4位说话者的自然语音，支持跨语言及歌声合成。模型基于1.5B参数的Qwen2.5语言模型，结合声学与语义双分词器，以7.5Hz低帧率处理。

目录CONTENT

8-27,AI事件