- 发布日期
ChatGPT 投喂指南
- Authors
- Name
- 网赚手册
当我们想让 ChatGPT 做这些事:
- 提供一份PDF文件,分析摘要、提炼内容
- 提供一个网址,从网页上提取最新的信息
- 提供一份Excel文件,分析、总结数据信息
- 提供一份文本,总结、模仿文本风格进行创作
- 提供一份聊天记录,总结聊天内容
- 提供一本书,讲解这本书的故事脉络
以上这些任务,都离不开一个动作,就是提供资料,我们也可以称之为“投喂”。我相信你在使用 ChatGPT 的过程中,也遇到过相似的问题。 如果你不知道如何实现让 ChatGPT 完成上面的这些任务?那你一定要看接下来的内容,跟着我来学习如何给 ChatGPT 投喂资料。
目录
一、为什么要喂资料给 ChatGPT?
ChatGPT 本身的训练数据不是最新的,OpenAI 模型训练数据的时间可以在这里查看。
但是,我们想要使用 ChatGPT 分析的数据/文本往往存在两种状况:
- 私人数据,未被公开,ChatGPT 没有
- 公开内容,但是未被 ChatGPT 收录
也就是说,我们询问的问题涉及的资料在 ChatGPT 的数据库中不存在,因此我们需要教 ChatGPT 来学习这些资料。
二、都能给 ChatGPT 喂哪些格式的资料?
- 投喂的资料都支持哪些格式?
原则上:几乎涵盖了所有常见的文档类型,详细表格可以在这里查看。
- 投喂的资料的限制
单个文件大小不能超过512MB或者200万个token。参考OpenAI Upload File 接口说明。
直接输入文本的token限制每个模型也不相同, GPT-3 上限是16,385 tokens(大约是8192个汉字),GPT-4 上限是128,000 tokens(大约是64,000个汉字), 具体可以参考这里。
三、ChatGPT 吃掉资料后,是怎么进行工作的?
在 ChatGPT 界面中,我们可以尝试使用如下的方法进行数据的投喂。
我们通过在对话中提供更多的信息,来实现最简单的数据投喂。
如果是更多的内容则很难、无法在对话框中进行投喂。此时我们需要别的方式来进行处理。
- Fine Tuning 微调
- Embedding
Fine Tuning
这种方式是在 OpenAI 训练的模型之上使厍自己的小数据集来进行微调。 这种方式会让模型在特定的领域(取决于数据集)成为专家。 但是训练的效果需要不断的去检验,而且检验的数据集也必须盖面很大。
例如使用这种方式训练出来的:
提问:我们家的到家月嫂和别人家的月嫂有什么不一样?
它回答:到家月嫂是一个纯洁的工作
你会觉得???嗯?什么意思?它说这话是什么意思?怎么还能朕想到那里!这就是典型的发散型回答。
Embedding
Embedding 是对文本进行向量化处理,从而对两端文本可以进行向量比较,获取两端文本的相似性。 通过这种方式,就可以把长文本切分成小块(Chunk),通过对用户问题的命中来选取相应的内容, 然后交给 ChatGPT 进行后续处理。
如,汉堡的向量和三明治的向量相似性,就要大于和桌子的向量相似性。
如一段文本是,“我家快递用顺丰”,这句话就和“你家物流用什么”这个问题具有强相似性。 所以这种方式也往往用于在线客服的开发。
一般工具的处理方式
大量的工具如 ChatPDF,都是使用 embedding 的方式进行处理,处理的流程为:
- 用户输入长文本,工具对长文本按照策略切分成为文本块
- 对每一个文本块进行向量计算(Embedding)并存储到向量数据
- 用户提问进行向量计算
- 从向量数据看寻找和用户提问相似度最高的内容
- 整合命中的内容,连同用户的问题,调用 OpenAI Chat 接口进行处理
- 返回用户回答
四、投喂 ChatGPT 的方式和方法
投喂方式分为:网页端投喂和API投喂
1. 较短的文本
如果你想告诉 ChatGPT 的信息较短,你直接在网页端输入信息就可以。
例如,我们将一个小红书的文案输入到 ChatGPT,让 ChatGPT 学习这个小红书文案的写作风格,开始模仿创作, 就是最简单的投喂。
下面是演示效果:
2. 网址
事实上,我们需要网址,并不是需要这个链接,而是需要 ChatGPT 来访问链接内的文本内容。 例如微信公众号的文章,就是典型的使用场景。 这里有 3 种办法:
A. 使用New Bing AI
New Bing使用的是ChatGPT 4。
优点:快捷,免费
缺点:因为基于搜索引擎,所以它的答案指向很短,你没办法和它唠嗑。它还很傲娇, 总是动不动就拒绝和你继续下去了。
B 基于谷歌浏览器的插件
好处:不用花钱,即装即用
缺点:如果 gpt 页面有变动,插件可能会失效
比如 WebChatGPT 这个基于 chrome 的插件,它将互联网浏览功能直接整合到 ChatGPT 中。
地址如下:https://chrome.google.com/webstore/detail/webChatGPT-ChatGPT-with-i/lpfemeioodjbpieminkklglpmhlngfcn
C 开通 ChatGPT Plus
优点:方便,直接输入网址就可以 缺点:付费,Plus用户才能使用
在设置中启动 Web browing 功能即可。
3. PDF
PDF 格式的文件,和网址类似,我们可以通过官方活着第三方的插件来实现访问。
官方开通Plus会员使用ChatGPT 4来读取PDF文件。或者通过第三方插件来实现, 如AskYourPDF、ChatWithPDF。
如果你是Plus会员,也可以通过ChatPDF这款工具:https://www.chatpdf.com
4. Excel
对于 Excel 表格的数据投喂比较简单上手,直接用自然语言对 Excel 表格中的数据描述清晰, 把想要实现的需求表达清楚就好。例如下面这张 Excel 表格:
如果我们想要找出这些网页在不同指标中,表现较好的情况,我们直接对 ChatGPT 用这样的 提示词即可:
可以看出ChatGPT可以理解我们的意思,我们直接将公式复制,粘贴到 E1 单元格中:
回车即可看到一下结果:
当然这张表格是虚构的,通过这样的描述举一反三,可以解决大部分的 Excel 难题,甚至不用进行拖动和复制 单元格的操作。
5. 图片、视频、音频
ChatGPT 4 已经支持图片输入,视频和音频暂不支持。
图片中的文本识别目前也仅支持英文,中文不支持。
五、如何输出想要的结果/提问和设定
1. 提出一个好问题
相信我们都有一个共识,ChatGPT 最难的就是:如何提出一个好问题。 一个好问题就意味着一个高分的答案,人和人的能力区分也正是由于提问能力的差异。 在我看来,掌握如何提问分为两种:
- 知道在哪里找到好的提示词,为自己所用;
- 自己掌握了提问的底层逻辑,本身就可以问出一个好问题。
今天我们不谈底层逻辑,跟大家分享一些“抄作业”的提问模版。 AI 爆炸的时期,我们自己就算不动脑子,厉害的大神们也已经把饭喂到了我们嘴边。 例如,我需要分析一篇公众号到底讲了什么,我需要怎么做?
- 联网,让 GPT 可以访问这个地址
- 提出一个好问题,让 GPT 根据这个格式来为我分析。
以这篇文章为例: https://mp.weixin.qq.com/s/guBFNFtwR9WdmYlFDKtJNg
对 ChatGPT 输入了提示词后得到的结果:
提示词:
2. 找学霸抄作业
在我们没有熟练掌握“调教”技能之前,我们当然可以抄作业,例如这个网站( https://www.aishort.top ):
这个网站已经内置了200多套提示词模板,你根据需求直接复制粘贴就可以使用。