ShoelessCai - ChatGPT 的一些“直觉理解”

ChatGPT 的一些“直觉理解”

- 2023 -
02/14
19:09

零号员工

发表时间：2023.02.14 作者：Jingyi 来源：ShoelessCai 阅读：191

ChatGPT，一款AI聊天机器人系统。有网友让它写诗、写小说、写小红书格式文案，也有网友用它写代码。总之，上能写论文、写代码，下能闲聊、打发时间，能达到什么效果，取决于你如何使用它。

2022年11月底推出，5天的注册量100万用户，ChatGPT 吸引用户的速度一举超过了Facebook。某瑞银分析师预估，ChatGPT在 2023年1月达到了1亿月度用户，在两个月内完成了TikTok大约九个月才完成的用户增长。

微软已经向ChatGPT母公司OpenAI投资，并且应用 ChatGPT，还有再投数十亿美元的打算。在2023年2月8日，宣布将GPT-4模型（ChatGPT所用模型升级版）集合至Bing及Edge浏览器里。这可能让未来的纯打工者，例如，文字工作者、数据分析师、客服、文秘等10多个职业，产生恐慌和交流感，ChatGPT 的业务范围也是有点广。

01 ChatGPT 与其他AI有什么不一样？

第一，在训练数据方面，ChatGPT 基于大量的网络文本数据进行训练，具有更高的准确性和更广泛的适用性。第二，在模型大小上，ChatGPT是一个非常大的模型，具有更高的处理能力和更强的学习能力。第三语言理解能力上，它可以对人类语言中的复杂语法和语义，进行更精细的理解。

清华大学计算机科学与技术系长聘副教授黄民烈甚至表示，ChatGPT已经超出80%甚至90%的人的对话能力了。

现在通过Prompt模式，使用少量数据就能引导AI发现自己的能力，而不需要重新训练，例如在它思考问题前加一个前缀“你一步一步想一下，再给出答案”，效果就会明显提升。

据OpenAI官网，GPT模型参数数量（可以理解为喂养模型的语言材料）在不断提升。GPT-1是1.17亿，GPT-2有15亿，到了GPT-3，已经飙升至1750亿。信息时代的今天，内容从PGC（专业生产内容）走向UGC（用户生产内容），再到AIGC（AI生产内容）。AIGC在代码、图像、视频、游戏等领域都有极大落地应用空间，能提升创作效率，和降低创作成本（界面新闻，2023）。

应用方面，ChatGPT 复现大致有三种途径：

基于instruct GPT复现（ChatGPT的姐妹模型，有公开paper）

基于OpenAI目前开放的GPT3.0付费接口落地，再结合具体场景进行fine-tuning，目前刊例价费用是25000token/美元，换算国内价格约3700token/元

基于OpenAI试点中的ChatGPT PRO落地，42美元/月，换算后约284元/月

OpenAI总部位于旧金山，由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立，目前由 Y-Conbinator 创始人 Altman 任职 CEO。OpenAI 因推出 GPT系列自然语言处理模型而闻名，2018年，GPT（Generative Pre-trained Transformer）对外发布第一版，可用于生成文章、代码、机器翻译、问答等各类内容。

每一代GPT模型的参数量都爆炸式增长，堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿，而2020年5月的GPT-3，参数量达到了1750亿（知乎，2023）。

02 ChatGPT 照顾提问者的偏好

OpenAI 在官方网站上基本公开了算法， ChatGPT: Optimizing Language Models for Dialogue 。

如果只是“直觉理解（Intuitive Recognization）”，ChatGPT 总的来说分三步走。

第一步，冷启动投喂部分 Prompt ，让模型宏观地理解一些概念。关于 Prompt 暂时没找到确切的翻译或者定义，知乎ID 张俊林解释为 “指令”。ShoelessCai 理解，“指令”是一种方向导向。这一步还包括微调 Fine-tuning，主要是对进行校准，其中 Answer 由人工标注获得。

列举几个 Prompt 示例：

简单日常对话。比如询问对方姓名，是否开心等等。

常识问答。比如问今天是周几，冬天如何取暖等等。

知识问答。比如热力学第二定律是什么，设计模式中的策略模式适用于哪些场景等等。

文本改写。比如给出一段话，让它改简单一些，或换个风格，同时给出要的风格是什么样子的。

（Yam, 2023）

Prompt 设计也需满足清晰、具体、聚焦、简洁、相关原则，简言之，ChatGPT 足够聪明或者足够自然，但是投喂的时候，使用语言的“结构”是受制于一些规则的。因此，用户引导 ChatGPT 时候，更多会使用，“如果你是……”等角色扮演类是句型进行交互。

第二步，训练回报模型，即 Reward Model, RM。回报模型，即选取一批 Prompt，每个 Prompt(i), 选出 k 个 Answer 进行排序，即 {Prompt(i), Answer(1)}, {Prompt(i), Answer(2)} ... {Prompt(i), Answer(k)}。排序的标准是很多的，例如，相关性、信息量等。该步骤还包括排序后训练，即 pair-wise learning to rank 。

资料来源人人都是产品经理

第三步，强化学习增强与训练模型的能力。本阶段无人工标注数据，主要是使用 RM 的输出结果，更新训练模型的参数。具体做法是，冷启动初始化 PPO （Proximal Policy Optimization）获得参数，此时用户再次输入一批 Prompt ，使用 PPO 训练 Answer，用上一阶段的 RM 打分排序，至此，一个时间步的步骤完成，将 Reward （RM Ouptut）由后往前传递。ShoelessCai 评注，这里设置一个“疑点”。

当模型不断重复第二、第三步的时候，每一轮都使得 LLM （Large Language Model）能力越来越强（知乎，2023）。

03 ChatGPT 研发成本不菲

根据美国方舟投资的报告，2020年完成一次 GPT-3 训练需花费 460 万美元，但这一成本有望以每年 70% 的速度下降。训练成本的下降将有助于为大规模的商用提供支撑。

报告还提到，到2030年，人工智能能将知识工作者的生产力提升 4 倍以上。在百分百采用的情况下，人工智能可以增加全球劳动生产率约 200 万亿美元，这远超知识工作者约 32 万亿美元的工资总额（界面新闻，2023）。

值得一提的是，训练 LLM 的硬件成本也是很高的，就是很耗芯片，芯片决定算力。从公开资料看，有理由相信 ChatGPT 芯片已经研发并生产了。

“大胆的预言存算一体技术将在ChatGPT芯片中占据主导地位。”知乎ID 陈巍谈芯。

04 哪些行业需要警觉？

OpenAI CEO Sam Altman 就发推文说，“现在任何重要的事情都依赖它是错误的” “在稳健性和真实性方面，我们还有很多工作要做”。

资料来源人人都是产品经理

ChatGPT需要提升的空间还有很多。比如，理解多样性和包容性，还需要更加细致地研究如何让模型更好地理解多元文化和性别、年龄等，以不存在偏见。还得降低鲁莽回答的风险，由于ChatGPT的回答是基于大量预先训练的文本数据，存在错误或不适当回答的风险。还需要提高对上下文的理解，改进交互体验（界面新闻，2023）。

另外，虽然 ChatGPT 的回答总是很自信，如果用户在某些专业领域内的知识不够的话，很容易被“忽悠”，因为它的回答，让用户“受伪”的概率很高，可能因为回答得太自信了。

资料来源知乎

除此之外，ChatGPT 还面临一些政策法规上的争议。

IT研究与顾问咨询公司 Gartner 在2022年的一项研究预测显示，到2027年，聊天机器人将成为约25%的公司的主要客户服务渠道。

Sam Altman在一次公开场合表示，“我觉得有意思的是，如果10年前问人们，AI将怎样带来影响，多数人会很有信心地说，首先它将取代工厂蓝领的工作，卡车司机等，然后将取代低技能的白领工作，然后是高技能、高智商的白领工作，比如程序员。也许永远不会取代那些创造性的工作。现在的发展正好相反。”

资料来源知乎

2022年，通过输入文本描述就能自动生成图片的AI绘画神器突然雨后春笋般冒了出来，其中最具代表性的几家为第二代DALL·E（由OpenAI于2022年4月发布）、Imagen（谷歌2022年5月发布）、Midjourney（2022年7月发布）、Stable Diffusion（2022年7月发布）等，让人眼花缭乱。

2022年9月，由Midjourney创作生成的画作《太空歌剧院》在科罗拉多州博览会数字艺术创作类比赛中获得一等奖并引发争议，AI绘画进一步破圈，受到大众关注。