目 录CONTENT

文章目录

0809信息差|LLM对齐|地表最强人形机器人|Neuralink及人类未来|FLUX初体验

昊明
2024-08-09 / 0 评论 / 0 点赞 / 16 阅读 / 10091 字

今天学点AI

一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……

https://www.jiqizhixin.com/articles/2024-08-05-4

为了对齐 LLM,各路研究者妙招连连。 这篇文章是关于大型语言模型(LLM)对齐技术的综述,涵盖了多种对齐方法,包括基于人类反馈的强化学习(RLHF)、基于人工智能反馈的强化学习(RLAIF)、PPO、DPO等。主要观点:

2aa6a82c-bb60-412b-b9f9-8fafe356d2f2

image

1. LLM对齐的重要性

  • LLM虽然功能强大,但可能生成有害或无用的结果,对齐技术确保LLM与人类价值观一致。

2. RLHF技术

  • 使用人类反馈微调模型,对齐语言模型与用户意图。

  • InstructGPT:OpenAI的技术,通过人类偏好评估响应,优化模型性能。

  • Anthropic的RLHF:研究不同规模模型的对齐效果,发现大型模型对齐带来的好处。

3. RLAIF技术

  • 降低获取人类偏好数据集的成本,使用AI反馈进行强化学习。

  • Anthropic的RLAIF:基于章程的监督学习和AI反馈。

  • 谷歌的RLAIF:研究人类反馈与AI反馈的效果,使用结构化prompt和偏好概率。

4. 直接人类偏好优化

  • 探索不依赖标量奖励信号的方法,直接优化LLM策略。

  • DPO:直接偏好优化,简化对齐流程。

  • DPOPβ-DPOIPOsDPOGPO:DPO的不同变体,针对不同场景优化。

5. Token级DPO

  • 在token层面进行信用分配,扩展DPO的应用。

6. 迭代式/在线DPO

  • 持续收集新偏好数据集,提升LLM性能。

7. 二元反馈

  • 使用点赞或点踩等二元反馈简化对齐过程。

8. 融合SFT和对齐

  • 研究将监督式微调和对齐整合的方法,减少灾难性遗忘。

9. 长度控制式DPO和无参考DPO

  • 控制LLM输出长度,消除对参考模型的需求。

10. 逐列表的偏好优化

  • 使用逐列表的数据集直接进行偏好优化。

11. 负偏好优化

  • 使用不期望的响应进行对齐。

12. 纳什学习

  • 解决成对偏好中的不一致问题,提高对齐效果。

13. 不同方法的比较

  • 研究比较了DPO、KTO、IPO、CPO等方法,发现KTO在多个基准上表现更优。

14. 未来研究方向

  • 探索统一评估任务、扩展到更大规模模型、二元反馈的实验、AI反馈的有用性、加速纳什学习、迭代/在线学习的终止、简化SFT与对齐的组合。

AI新闻推荐

刚刚,“地表最强”人形机器人发布!OpenAI加持,已在宝马打工

https://www.qbitai.com/2024/08/175409.html

eb7c9f84-1e0a-482b-9d0b-8ec1c74bfe86

image

基本信息

  • 名称:Figure 02

  • 类型:人形机器人

公司背景

  • 公司:Figure AI

  • 成立时间:2022年

  • 投资方:OpenAI、微软、英伟达、贝佐斯等

  • 估值:26亿美元

  • 前代产品:Figure 01(2023年推出)

技术特点

  • 视觉系统:6个高性能摄像头,AI驱动

  • 续航能力:提升50%以上

  • 计算能力:AI推理能力提高3倍

  • 手部设计:第四代,16个自由度,承重25公斤

  • 结构:外骨骼结构,提升刚度

  • 语音交互:端到端语音对话推理

应用场景

  • 工作场所:宝马工厂

  • 工作内容:拿钢材、组装器械

设计亮点

  • 外观:线路布局紧凑隐蔽,提高美观度和可靠性

  • 电池组:升级至2.25KWh,延长运行时间

  • UI设计:默认语音界面

社会反响

  • 网友评价:对机器人进化速度表示惊叹

  • 步态问题:步态被一些人认为笨拙

招聘信息

  • 团队规模:120人

  • 招聘状态:开放

其他信息

  • CEO期望:希望Figure 02能工作近20小时/天

  • AI模型:与OpenAI合作定制

个人感想

Figure 02的发布标志着人形机器人技术的又一大步。其在视觉、计算、语音交互等方面的显著提升,预示着未来劳动自动化的广阔前景。尽管存在一些设计上的争议,如步态问题,但这并不影响其在工业应用中的潜力。随着技术的不断进步,我们有理由相信,人形机器人将在不久的将来扮演更加重要的角色。

AI文章推荐

马斯克八月最新2万字长访:xAI, Neuralink及人类未来 (附精校视频)

https://mp.weixin.qq.com/s/k3S7cnsTeYVQ3MvpAxLTEQ

92e3bab6-a8cc-4479-a8b1-3f91436d5e04

image

Musk 描述了 Neuralink 的最新发展,包括人体植入物的成功和未来计划,旨在通过增加电极数量和改进信号处理,大幅提升人脑与机器的通信速度。 AI 与人类融合: 他预测 AI 可能在良性情况下增强人类的快乐和生活质量,特别是在娱乐和性行为方面,并讨论了 AI 如何通过模因压缩信息,提高交流效率。 技术对人类影响: Musk 认为技术进步将对人类与人工智能的共生关系产生深远影响,包括提高交流速度和质量,以及通过 AI 增强人类体验。 AI 系统的安全性: 他强调了设计 AI 系统时避免意识形态偏见的重要性,确保 AI 系统能够做出合理决策,不偏离真理。 技术与文明兴衰: Musk 讨论了技术进步如何成为推动文明发展的关键力量,同时指出过度繁荣可能导致生育率下降,威胁文明存续。

文章金句

"几年后,Neuralink 将变得非常强大,因为我们将大幅增加电极的数量,并改进信号处理。"

"如果一个单词能够传达通常需要 10 个简单单词才能表达的内容,那么你可能就得到了 10 倍的压缩。"

"在设计目标函数时,要避免无意中产生意想不到的后果,甚至在超级智能的支持下,轻微的意识形态偏见也会造成巨大损害。"

"真正的领导力在于面对危机时的勇气和坚定。"

"衡量成功的标准是我能做多少有用的事情。"

AI绘画领域新闻

FLUX.1: First Impressions

FLUX.1: 初印象

https://replicate.com/blog/flux-first-impressions

99cf61b7-bfee-4673-859a-7ffb0ab713cd

image

全文摘要

FLUX.1是Replicate平台上的一款创新AI模型,它采用“流匹配”技术从文本生成图像,与传统扩散模型不同,FLUX.1在速度、控制和美学上具有独特优势。它在处理复杂文本到图像转换、理解艺术风格、构图复杂场景以及创造具有“流”美学的图像方面表现出色。

关键点

  • FLUX.1技术特点: FLUX.1使用“流匹配”技术,直接将噪声映射到真实图像,提供速度、控制和独特美学的优势。

  • 文本到图像转换: 即使在复杂场景如表情包中,FLUX.1也能准确翻译文本到视觉表现,展现其结合精确文本渲染和独特“流”美学的能力。

  • 艺术风格理解与应用: FLUX.1不仅模仿艺术风格,更理解其底层原理,允许进行创意重释,如将超级英雄以立体主义风格呈现。

  • 复杂场景构图: 模型擅长创造可信且视觉吸引的场景,如悬浮书籍的魔法图书馆,展示其在故事讲述和视觉叙事中的潜力。

  • “流”美学特征: 作为流匹配技术的结果,“流”美学赋予图像独特的有机运动和流动性,与传统艺术技术相融合,使FLUX.1图像具有梦境般的视觉效果。

文章还提到了FLUX.1 [schnell]版本,这是为速度和本地执行优化的版本,适合艺术家、开发者以及对AI图像生成感兴趣的人探索使用。

AI工具推荐

网站名称:海绵音乐

https://www.haimian.com/featured

功能:AI音乐

简介:一个专为用户提供 AI 音乐创作的平台,通过先进的技术帮助用户一键生成音乐作品。目前该平台仅支持中国大陆地区用户使用。

效果非常好,人声没有杂音,完美支持中文,音乐也还算好听(间奏尤其不错),可以媲美Suno。 ac9219b5-cfa4-4ada-8506-3e9ad262de6d


公众号“言寡意多”,AI资讯推送。

3ad92b24-4732-488d-9054-e48da7f42b19-4


专栏“AI副业”,AI副业项目推送。

8a750873-8cf4-46cf-a231-aaca1c3d35a1-4


AI工具导航站“未来已来”,AI工具收录。

https://ainavtool.com/

0

评论区