0926AI信息差｜Llama 3.2多模态AI模型｜OpenAI CTO 宣布离职｜Gemini-1.5更新：价格减半-AI漫游指南

关注AI工具和资讯，跟踪大模型和AI产品发展。

🪐温馨提示：不是所有的都要看，挑感兴趣用得上的看，每个人的口味和需求不一样。

大模型动态

Meta发布Llama 3.2多模态AI模型

Meta AI发布Llama 3.2多模态AI模型，性能与GPT-4o-mini相当。包括90B和11B视觉大语言模型，以及3B和1B轻量文本模型，支持同时处理文本、图像和视频。11B视觉模型仅需22GB显存，可在4090显卡上运行。

OpenAI CTO Mira Murati宣布离职

OpenAI高层持续动荡，CTO Mira Murati宣布离职。Murati在OpenAI工作6年半，领导开发了ChatGPT、DALL-E等项目。此前，OpenAI总裁Greg Brockman和首席科学家Ilya Sutskever也相继离职。

Gemini-1.5更新：性能提升，价格减半

Google更新Gemini-1.5 AI模型，Pro版本价格减半，Flash和Pro版本速度和输出率翻倍。在数学、长文本上下文、视觉和代码处理性能方面均有改进。用户可在AI Studio平台直接使用Gemini-1.5模型。

https://aistudio.google.com/app/

ChatGPT开放高级语音功能

OpenAI为Plus和Team用户推出ChatGPT高级语音功能，支持自定义指令、记忆功能、5种新语音以及改进的口音。用户可以指定ChatGPT的说话风格，使交互更自然engaging。

https://help.openai.com/en/articles/8400625-voice-mode-faq

字节跳动发布豆包视频生成模型

字节跳动发布两款视频生成模型：PixelDance和Seaweed，基于DiT架构，面向企业用户。目前不对公众开放，感兴趣的用户可通过字节跳动"机梦AI"微信公众号申请内测。

阿里发布MIMO：AI视频人物替换与动画生成

阿里发布MIMO，一款AI视频人物替换和动画生成工具。可替换视频中的人物并保持原有动作，实现与背景的无缝集成。目前尚未开源，但演示视频显示在二次元角色替换方面效果不错。

https://menyifang.github.io/projects/MIMO/index.html

多邻国推出AI视频通话功能

多邻国推出AI视频通话功能，应该是使用ChatGPT 4o的原生多模态模型。这种模型非常适合教育场景，有望提升语言学习体验。

https://www.youtube.com/watch?v=IdOO5G1vEYw

Molmo：超越GPT-4的多模态视觉模型

Allen人工智能研究所（AI2）开发的Molmo多模态AI模型在学术基准测试中超越GPT-4、Gemini 1.5 Pro和Claude 3.5 Sonnet。基于Qwen2和OpenAI的CLIP训练，支持语音交互和图片理解。模型权重已开源。

https://huggingface.co/spaces/akhaliq/Molmo-7B-D-0924

how2draw：生成绘图过程的LoRA模型

how2draw是一个有趣的LoRA模型，可根据文字提示生成绘图过程视频，而不仅仅是最终结果。这一功能特别适合小红书等注重视觉内容的平台，可用于创作教程和演示视频。

https://glif.app/@Ampp/glifs/cm0zpqvq2000lqe5lyjkw4qe5

Meta发布Orion AR眼镜

Meta发布Orion AR眼镜，集成了能感知周围环境的AI功能。眼镜内置情境人工智能，可"感知和理解"佩戴者周围的世界，"预测并主动满足"佩戴者需求。Meta的目标是用这款眼镜替代智能手机。

https://x.com/imxiaohu/status/1839097451325829322