AI新闻
谷歌发文宣布了 Gemini 的重大更新
https://blog.google/products/gemini/google-gemini-new-features-july-2024/
1、5 Flash的推出:Gemini现在支持1.5 Flash,这使得用户在超过40种语言和230多个国家和地区能够获得更快、更智能的响应。(没有我们)
2、免费版改进:在免费版中,用户现在可以访问1.5 Flash,这将带来全面的质量提升和响应时间的缩短,特别是在推理和图像理解方面。
3、上下文窗口扩展:Gemini的上下文窗口扩大到32K tokens,允许用户进行更长的对话和提出更复杂的问题。
4、文件上传功能:即将增加通过Google Drive或直接从设备上传文件的功能,这将允许用户上传例如经济学学习指南,并要求Gemini创建练习问题。
5、数据分析能力:Gemini将能够分析数据文件,并帮助用户通过图表和图形来揭示洞见。
AI工具
Stable-Hair:发型迁移
基于扩散模型的发型迁移方法,效果不错。
Github:https://github.com/Xiaojiu-z/Stable-Hair
AI变现
最近奥运会是热门词,搜索“AI 奥运”,就会发现很多通过AI生成的图片和视频,热度高,适合蹭一下。
AI知识
这篇文章以不带数学公式的方式解释了大型语言模型(LLMs)是如何工作的,包括它们如何通过预测下一个词(token)来生成文本,以及它们是如何通过训练数据学习并生成看似智能的响应的。通俗易懂,适合大众。
https://blog.miguelgrinberg.com/post/how-llms-work-explained-without-math
文章推荐
文章标题
GPT-4o 最关键功能本周上线,语音交互的时代终于要来了
https://mp.weixin.qq.com/s/hA6lLpiWTzThE6t5LoY9Ag
文章来源
海外独角兽,作者拾象
文章日期
2024-07-29
核心观点
Voice Agent 是下一代人机交互界面,具有与人类自然沟通方式的高度一致性。
GPT-4o 是首个实现端到端 voice-in, voice-out 的大模型,具有低延迟、高智能。
Voice Agent 优势
提供直观、低能耗的交互体验。
适合简短、即时的信息交流。
能够独立完成交流任务,无需人类协作。
应用场景分析框架
实时性 vs 创造力:根据场景对实时性和创造力的不同需求进行分类。
第一象限(右上)
需要实时回答,容错率高,如陪伴、心理疗愈。
第二象限(左上)
需要实时回答和高准确度,如呼叫中心、销售、客服、教育。
第三象限(左下)
可以离线完成,要求按台本发挥,如TTS技术应用。
第四象限(右下)
想象空间大,对创意要求高,如音乐生成、NPC语音生成。
创业和投资机会
疗愈/陪伴类 Voice Agent
Enterprise workflow
TTS 技术
值得关注的公司
11labs:TTS 领域领先公司。
Hume AI:成熟的 emotion engine。
LiveKit:GPT-4o RTC 方案提供者。
Bland AI:成熟的 Full stack 平台。
Voice Agent 的关键问题
企业用例落地的挑战。
GPT-4o API 开放时间和形式。
端到端模型对工作流的影响。
Voice Agent 工作流
VAD(Voice Automatic Detection)
ASR(音频转文字)
LLM(生成回答)
TTS(文本转声音)
Emotion engine(情感引擎)
RTC(降低延迟)
To Developer, To Enterprise, To Customer 分析
To Developer:面向开发者的 API 或开发平台。
To Enterprise:面向企业用户的 Voice Agent。
To Customer:面向消费者的语音交互应用。
To B 和 To C 应用
To B:SaaS 解决方案,如呼叫中心、销售、客服。
To C:消费者应用,如心理疗愈、教育、陪伴。
具体案例
Praktika.AI:使用 GPT-4+Unity Avatars+11labs 创建 AI tutor。
Ello:面向儿童的阅读伴侣应用程序。
Sonia:AI 驱动的认知行为治疗师。
硬件机会
基于 Voice Agent 的消费级硬件,如 Humane、rabbit。
结论
Voice Agent 技术的发展预示着人机交互界面的重大变革,具有广泛的应用前景和投资机会。GPT-4o 的上线将推动这一技术的发展,为不同领域带来创新解决方案。
AI绘画
prompt: A Child, in white in the style of Comic Illustration. The background is blue, light red and white, creating a beautiful composition. creates harmony and serenity. A feeling that she's smiling to herself. -
AI工具导航站“未来已来”,AI工具收录。
https://ainavtool.com/
评论区