我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

Gemini 2.0：Google 最新的多模态大模型

Gemini 2.0 是 Google 最新的统一大模型，能够同时处理 文本、音频和视频数据，并支持 音频输出。这意味着你可以通过 摄像头和麦克风，与该模型进行 实时对话。

目前，在 GitHub 上可以找到的部署方案大多是针对 PC 端 的 Gemini 2.0 多模态实时交互，而我可能是第一个将这一功能移植到手机端的开发者。不知道是否有朋友感兴趣，想看看它在 移动设备 上的效果？

现有功能

✅ 音频交互：通过手机麦克风赋予 Gemini 2.0 听觉能力，实现 实时问答。
✅ 视觉交互：通过手机摄像头赋予 Gemini 2.0 视觉能力，进行 实时图像分析与交互。
✅ 联网与代码执行：模型支持 联网查询实时数据 及 代码执行功能，使其更加强大。
✅ 免费使用：目前该功能 完全免费，无需额外付费。

功能限制

⚠ 国内可能无法使用：由于模型依赖 Google 的服务，在中国大陆地区可能无法正常访问。
⚠ 时长限制：目前 Google 仍在测试该模型，因此对话时长受限：

纯音频对话 最长 15 分钟
音频 + 视觉交互 最长 3 分钟

这是 Google 设定的限制，非技术问题导致。

如果你对这个项目感兴趣，欢迎讨论和交流！

Android 版本： https://play.google.com/store/apps/details?id=com.keras.keras_android_chatbot

苹果版本： https://apps.apple.com/us/app/keras-chatbot-voice-assistant/id6608969280

第 1 条附言 · 4 天前

请选择第一项在线聊天：

Gemini

手机

实时

9 条回复 • 2025-01-31 09:25:52 +08:00

vfx666

4 天前 via iPhone

马克马克

Amanises

4 天前

厉害厉害，尝试下🤔

smalltong02

3 天前

请问大家试用过之后有什么反馈吗？

我提供自己的一个测试案例，我复现过 Google 演示中一个非常厉害的功能，我在桌子上放了一个 PC 的头戴式耳机，然后在提问过程中，手机摄像头移动时扫到过这个耳机，在又经过一些问答之后并且摄像头并没有对准桌子和耳机的情况下，我询问是否有看到我的耳机在什么地方，Gemini 2.0 回答耳机在桌子上。

Aka114514

3 天前 via iPhone

想问下开发者，这个软件在 ios 端是不是用连续连续拍照实现视频对话的。手机的快门声一直在响没停过🤦

boshok

3 天前

安装-卸载。

smalltong02

3 天前

@Aka114514

是的，其实我是调用了 takepicture 功能获取的图像数据，这样省了转换的编码，其实如果获取原始的 pcm 数据流就没这个问题了。我下个版本会进行修复，好像有些国家或地区，在调用拍照的时候必须开启快门声音，为了避免偷拍什么的。请问您的手机是苹果手机还是 ipad? 我的苹果手机没有快门的声音。

smalltong02

3 天前

@boshok

为啥呢，小哥哥。

Aka114514

2 天前 via iPhone

@smalltong02

港版 iphone12pro ios18.3 系统，要是把手机的静音键打开就没有拍照声，不打开的话就没法把铃声调节至 0 就依然会有拍照声。开启静音不影响媒体声音，只是对铃声静音，所以对话声音正常

smalltong02

2 天前

@Aka114514

我已经改了一版捕获摄像头图像帧的方法来处理视频流，这样就没有快门声音了，就是上传发布还需要点时间。你是在国内还是香港使用？可以用 gemini 2.0 进行实时对话吗，我只在加拿大使用过，不知道其它地区使用效果怎么样。