目 录CONTENT

文章目录

信息差|Gemini重大更新|发型迁移|AI奥运热点|大模型原理

昊明
2024-07-29 / 0 评论 / 1 点赞 / 1 阅读 / 8193 字

AI新闻

谷歌发文宣布了 Gemini 的重大更新

https://blog.google/products/gemini/google-gemini-new-features-july-2024/

1、5 Flash的推出:Gemini现在支持1.5 Flash,这使得用户在超过40种语言和230多个国家和地区能够获得更快、更智能的响应。(没有我们)

2、免费版改进:在免费版中,用户现在可以访问1.5 Flash,这将带来全面的质量提升和响应时间的缩短,特别是在推理和图像理解方面。

3、上下文窗口扩展:Gemini的上下文窗口扩大到32K tokens,允许用户进行更长的对话和提出更复杂的问题。

4、文件上传功能:即将增加通过Google Drive或直接从设备上传文件的功能,这将允许用户上传例如经济学学习指南,并要求Gemini创建练习问题。

5、数据分析能力:Gemini将能够分析数据文件,并帮助用户通过图表和图形来揭示洞见。

AI工具

Stable-Hair:发型迁移

基于扩散模型的发型迁移方法,效果不错。

Github:https://github.com/Xiaojiu-z/Stable-Hair

AI变现

最近奥运会是热门词,搜索“AI 奥运”,就会发现很多通过AI生成的图片和视频,热度高,适合蹭一下。

AI知识

这篇文章以不带数学公式的方式解释了大型语言模型(LLMs)是如何工作的,包括它们如何通过预测下一个词(token)来生成文本,以及它们是如何通过训练数据学习并生成看似智能的响应的。通俗易懂,适合大众。

https://blog.miguelgrinberg.com/post/how-llms-work-explained-without-math

文章推荐

文章标题

GPT-4o 最关键功能本周上线,语音交互的时代终于要来了

https://mp.weixin.qq.com/s/hA6lLpiWTzThE6t5LoY9Ag

文章来源

海外独角兽,作者拾象

文章日期

2024-07-29

核心观点

  • Voice Agent 是下一代人机交互界面,具有与人类自然沟通方式的高度一致性。

  • GPT-4o 是首个实现端到端 voice-in, voice-out 的大模型,具有低延迟、高智能。

Voice Agent 优势

  • 提供直观、低能耗的交互体验。

  • 适合简短、即时的信息交流。

  • 能够独立完成交流任务,无需人类协作。

应用场景分析框架

  • 实时性 vs 创造力:根据场景对实时性和创造力的不同需求进行分类。

第一象限(右上)

  • 需要实时回答,容错率高,如陪伴、心理疗愈。

第二象限(左上)

  • 需要实时回答和高准确度,如呼叫中心、销售、客服、教育。

第三象限(左下)

  • 可以离线完成,要求按台本发挥,如TTS技术应用。

第四象限(右下)

  • 想象空间大,对创意要求高,如音乐生成、NPC语音生成。

创业和投资机会

  1. 疗愈/陪伴类 Voice Agent

  2. Enterprise workflow

  3. TTS 技术

值得关注的公司

  • 11labs:TTS 领域领先公司。

  • Hume AI:成熟的 emotion engine。

  • LiveKit:GPT-4o RTC 方案提供者。

  • Bland AI:成熟的 Full stack 平台。

Voice Agent 的关键问题

  1. 企业用例落地的挑战。

  2. GPT-4o API 开放时间和形式。

  3. 端到端模型对工作流的影响。

Voice Agent 工作流

  • VAD(Voice Automatic Detection)

  • ASR(音频转文字)

  • LLM(生成回答)

  • TTS(文本转声音)

  • Emotion engine(情感引擎)

  • RTC(降低延迟)

To Developer, To Enterprise, To Customer 分析

  • To Developer:面向开发者的 API 或开发平台。

  • To Enterprise:面向企业用户的 Voice Agent。

  • To Customer:面向消费者的语音交互应用。

To B 和 To C 应用

  • To B:SaaS 解决方案,如呼叫中心、销售、客服。

  • To C:消费者应用,如心理疗愈、教育、陪伴。

具体案例

  • Praktika.AI:使用 GPT-4+Unity Avatars+11labs 创建 AI tutor。

  • Ello:面向儿童的阅读伴侣应用程序。

  • Sonia:AI 驱动的认知行为治疗师。

硬件机会

  • 基于 Voice Agent 的消费级硬件,如 Humane、rabbit。

结论

Voice Agent 技术的发展预示着人机交互界面的重大变革,具有广泛的应用前景和投资机会。GPT-4o 的上线将推动这一技术的发展,为不同领域带来创新解决方案。

AI绘画

prompt: A Child, in white in the style of Comic Illustration. The background is blue, light red and white, creating a beautiful composition. creates harmony and serenity. A feeling that she's smiling to herself. -

AI工具导航站“未来已来”,AI工具收录。

https://ainavtool.com/

1

评论区