目 录CONTENT

文章目录

0926AI信息差|Llama 3.2多模态AI模型|OpenAI CTO 宣布离职|Gemini-1.5更新:价格减半

昊明
2024-09-26 / 0 评论 / 0 点赞 / 12 阅读 / 0 字 / 正在检测是否收录...
关注AI工具和资讯,跟踪大模型和AI产品发展。

🪐温馨提示:不是所有的都要看 ,挑感兴趣用得上的看,每个人的口味和需求不一样。

 

大模型动态

Meta发布Llama 3.2多模态AI模型

Meta AI发布Llama 3.2多模态AI模型,性能与GPT-4o-mini相当。包括90B和11B视觉大语言模型,以及3B和1B轻量文本模型,支持同时处理文本、图像和视频。11B视觉模型仅需22GB显存,可在4090显卡上运行。

OpenAI CTO Mira Murati宣布离职

OpenAI高层持续动荡,CTO Mira Murati宣布离职。Murati在OpenAI工作6年半,领导开发了ChatGPT、DALL-E等项目。此前,OpenAI总裁Greg Brockman和首席科学家Ilya Sutskever也相继离职。

Gemini-1.5更新:性能提升,价格减半

Google更新Gemini-1.5 AI模型,Pro版本价格减半,Flash和Pro版本速度和输出率翻倍。在数学、长文本上下文、视觉和代码处理性能方面均有改进。用户可在AI Studio平台直接使用Gemini-1.5模型。

08e370b8-3699-4ac1-ab46-dbd1e48a4024
image
https://aistudio.google.com/app/

AI产品

ChatGPT开放高级语音功能

OpenAI为Plus和Team用户推出ChatGPT高级语音功能,支持自定义指令、记忆功能、5种新语音以及改进的口音。用户可以指定ChatGPT的说话风格,使交互更自然engaging。

https://help.openai.com/en/articles/8400625-voice-mode-faq

字节跳动发布豆包视频生成模型

字节跳动发布两款视频生成模型:PixelDance和Seaweed,基于DiT架构,面向企业用户。目前不对公众开放,感兴趣的用户可通过字节跳动"机梦AI"微信公众号申请内测。

cdf22ffb-41ff-478f-a8a4-18af084e8763
image

阿里发布MIMO:AI视频人物替换与动画生成

阿里发布MIMO,一款AI视频人物替换和动画生成工具。可替换视频中的人物并保持原有动作,实现与背景的无缝集成。目前尚未开源,但演示视频显示在二次元角色替换方面效果不错。

50d00229-a112-4949-a6ea-1d58d3a34635
image
https://menyifang.github.io/projects/MIMO/index.html

多邻国推出AI视频通话功能

多邻国推出AI视频通话功能,应该是使用ChatGPT 4o的原生多模态模型。这种模型非常适合教育场景,有望提升语言学习体验。

https://www.youtube.com/watch?v=IdOO5G1vEYw

技术重点研究

Molmo:超越GPT-4的多模态视觉模型

Allen人工智能研究所(AI2)开发的Molmo多模态AI模型在学术基准测试中超越GPT-4、Gemini 1.5 Pro和Claude 3.5 Sonnet。基于Qwen2和OpenAI的CLIP训练,支持语音交互和图片理解。模型权重已开源。

8c486f88-f0d6-47db-9cfd-7fde1489c110
image
https://huggingface.co/spaces/akhaliq/Molmo-7B-D-0924

how2draw:生成绘图过程的LoRA模型

how2draw是一个有趣的LoRA模型,可根据文字提示生成绘图过程视频,而不仅仅是最终结果。这一功能特别适合小红书等注重视觉内容的平台,可用于创作教程和演示视频。

c764c227-e066-4a7d-9327-295ac289da9e
image
https://glif.app/@Ampp/glifs/cm0zpqvq2000lqe5lyjkw4qe5

Meta发布Orion AR眼镜

Meta发布Orion AR眼镜,集成了能感知周围环境的AI功能。眼镜内置情境人工智能,可"感知和理解"佩戴者周围的世界,"预测并主动满足"佩戴者需求。Meta的目标是用这款眼镜替代智能手机。

https://x.com/imxiaohu/status/1839097451325829322
0

评论区