AI新闻

谷歌发文宣布了 Gemini 的重大更新

https://blog.google/products/gemini/google-gemini-new-features-july-2024/

1、5 Flash的推出：Gemini现在支持1.5 Flash，这使得用户在超过40种语言和230多个国家和地区能够获得更快、更智能的响应。（没有我们）

2、免费版改进：在免费版中，用户现在可以访问1.5 Flash，这将带来全面的质量提升和响应时间的缩短，特别是在推理和图像理解方面。

3、上下文窗口扩展：Gemini的上下文窗口扩大到32K tokens，允许用户进行更长的对话和提出更复杂的问题。

4、文件上传功能：即将增加通过Google Drive或直接从设备上传文件的功能，这将允许用户上传例如经济学学习指南，并要求Gemini创建练习问题。

5、数据分析能力：Gemini将能够分析数据文件，并帮助用户通过图表和图形来揭示洞见。

AI工具

Stable-Hair：发型迁移

基于扩散模型的发型迁移方法，效果不错。

Github：https://github.com/Xiaojiu-z/Stable-Hair

AI变现

最近奥运会是热门词，搜索“AI 奥运”，就会发现很多通过AI生成的图片和视频，热度高，适合蹭一下。

AI知识

这篇文章以不带数学公式的方式解释了大型语言模型（LLMs）是如何工作的，包括它们如何通过预测下一个词（token）来生成文本，以及它们是如何通过训练数据学习并生成看似智能的响应的。通俗易懂，适合大众。

https://blog.miguelgrinberg.com/post/how-llms-work-explained-without-math

文章推荐

文章标题

GPT-4o 最关键功能本周上线，语音交互的时代终于要来了

https://mp.weixin.qq.com/s/hA6lLpiWTzThE6t5LoY9Ag

文章来源

海外独角兽，作者拾象

文章日期

2024-07-29

核心观点

Voice Agent 是下一代人机交互界面，具有与人类自然沟通方式的高度一致性。
GPT-4o 是首个实现端到端 voice-in, voice-out 的大模型，具有低延迟、高智能。

Voice Agent 优势

提供直观、低能耗的交互体验。
适合简短、即时的信息交流。
能够独立完成交流任务，无需人类协作。

应用场景分析框架

实时性 vs 创造力：根据场景对实时性和创造力的不同需求进行分类。

第一象限（右上）

需要实时回答，容错率高，如陪伴、心理疗愈。

第二象限（左上）

需要实时回答和高准确度，如呼叫中心、销售、客服、教育。

第三象限（左下）

可以离线完成，要求按台本发挥，如TTS技术应用。

第四象限（右下）

想象空间大，对创意要求高，如音乐生成、NPC语音生成。

创业和投资机会

疗愈/陪伴类 Voice Agent
Enterprise workflow
TTS 技术

值得关注的公司

11labs：TTS 领域领先公司。
Hume AI：成熟的 emotion engine。
LiveKit：GPT-4o RTC 方案提供者。
Bland AI：成熟的 Full stack 平台。

Voice Agent 的关键问题

企业用例落地的挑战。
GPT-4o API 开放时间和形式。
端到端模型对工作流的影响。

Voice Agent 工作流

VAD（Voice Automatic Detection）
ASR（音频转文字）
LLM（生成回答）
TTS（文本转声音）
Emotion engine（情感引擎）
RTC（降低延迟）

To Developer, To Enterprise, To Customer 分析

To Developer：面向开发者的 API 或开发平台。
To Enterprise：面向企业用户的 Voice Agent。
To Customer：面向消费者的语音交互应用。

To B 和 To C 应用

To B：SaaS 解决方案，如呼叫中心、销售、客服。
To C：消费者应用，如心理疗愈、教育、陪伴。

具体案例

Praktika.AI：使用 GPT-4+Unity Avatars+11labs 创建 AI tutor。
Ello：面向儿童的阅读伴侣应用程序。
Sonia：AI 驱动的认知行为治疗师。

硬件机会

基于 Voice Agent 的消费级硬件，如 Humane、rabbit。

结论

Voice Agent 技术的发展预示着人机交互界面的重大变革，具有广泛的应用前景和投资机会。GPT-4o 的上线将推动这一技术的发展，为不同领域带来创新解决方案。

AI绘画

prompt： A Child, in white in the style of Comic Illustration. The background is blue, light red and white, creating a beautiful composition. creates harmony and serenity. A feeling that she's smiling to herself. -

AI工具导航站“未来已来”，AI工具收录。

https://ainavtool.com/

目录CONTENT

信息差|Gemini重大更新|发型迁移|AI奥运热点|大模型原理