ChatGPT 投喂指南

当我们想让 ChatGPT 做这些事：

提供一份PDF文件，分析摘要、提炼内容
提供一个网址，从网页上提取最新的信息
提供一份Excel文件，分析、总结数据信息
提供一份文本，总结、模仿文本风格进行创作
提供一份聊天记录，总结聊天内容
提供一本书，讲解这本书的故事脉络

以上这些任务，都离不开一个动作，就是提供资料，我们也可以称之为“投喂”。我相信你在使用 ChatGPT 的过程中，也遇到过相似的问题。如果你不知道如何实现让 ChatGPT 完成上面的这些任务？那你一定要看接下来的内容，跟着我来学习如何给 ChatGPT 投喂资料。

一、为什么要喂资料给 ChatGPT？

ChatGPT 本身的训练数据不是最新的，OpenAI 模型训练数据的时间可以在这里查看。

但是，我们想要使用 ChatGPT 分析的数据/文本往往存在两种状况：

私人数据，未被公开，ChatGPT 没有
公开内容，但是未被 ChatGPT 收录

也就是说，我们询问的问题涉及的资料在 ChatGPT 的数据库中不存在，因此我们需要教 ChatGPT 来学习这些资料。

二、都能给 ChatGPT 喂哪些格式的资料？

投喂的资料都支持哪些格式？

原则上：几乎涵盖了所有常见的文档类型，详细表格可以在这里查看。

投喂的资料的限制

单个文件大小不能超过512MB或者200万个token。参考OpenAI Upload File 接口说明。

直接输入文本的token限制每个模型也不相同， GPT-3 上限是16,385 tokens（大约是8192个汉字），GPT-4 上限是128,000 tokens（大约是64,000个汉字），具体可以参考这里。

三、ChatGPT 吃掉资料后，是怎么进行工作的？

在 ChatGPT 界面中，我们可以尝试使用如下的方法进行数据的投喂。

我们通过在对话中提供更多的信息，来实现最简单的数据投喂。

如果是更多的内容则很难、无法在对话框中进行投喂。此时我们需要别的方式来进行处理。

Fine Tuning 微调
Embedding

Fine Tuning

这种方式是在 OpenAI 训练的模型之上使厍自己的小数据集来进行微调。这种方式会让模型在特定的领域（取决于数据集）成为专家。但是训练的效果需要不断的去检验，而且检验的数据集也必须盖面很大。

例如使用这种方式训练出来的：

提问：我们家的到家月嫂和别人家的月嫂有什么不一样？

它回答：到家月嫂是一个纯洁的工作

你会觉得？？？嗯？什么意思？它说这话是什么意思？怎么还能朕想到那里！这就是典型的发散型回答。

Embedding

Embedding 是对文本进行向量化处理，从而对两端文本可以进行向量比较，获取两端文本的相似性。通过这种方式，就可以把长文本切分成小块（Chunk），通过对用户问题的命中来选取相应的内容，然后交给 ChatGPT 进行后续处理。

如，汉堡的向量和三明治的向量相似性，就要大于和桌子的向量相似性。

如一段文本是，“我家快递用顺丰”，这句话就和“你家物流用什么”这个问题具有强相似性。所以这种方式也往往用于在线客服的开发。

一般工具的处理方式

大量的工具如 ChatPDF，都是使用 embedding 的方式进行处理，处理的流程为：

用户输入长文本，工具对长文本按照策略切分成为文本块
对每一个文本块进行向量计算（Embedding）并存储到向量数据
用户提问进行向量计算
从向量数据看寻找和用户提问相似度最高的内容
整合命中的内容，连同用户的问题，调用 OpenAI Chat 接口进行处理
返回用户回答

四、投喂 ChatGPT 的方式和方法

投喂方式分为：网页端投喂和API投喂

1. 较短的文本

如果你想告诉 ChatGPT 的信息较短，你直接在网页端输入信息就可以。

例如，我们将一个小红书的文案输入到 ChatGPT，让 ChatGPT 学习这个小红书文案的写作风格，开始模仿创作，就是最简单的投喂。

下面是演示效果：

2. 网址

事实上，我们需要网址，并不是需要这个链接，而是需要 ChatGPT 来访问链接内的文本内容。例如微信公众号的文章，就是典型的使用场景。这里有 3 种办法：

A. 使用New Bing AI

New Bing使用的是ChatGPT 4。

优点：快捷，免费

缺点：因为基于搜索引擎，所以它的答案指向很短，你没办法和它唠嗑。它还很傲娇，总是动不动就拒绝和你继续下去了。

B 基于谷歌浏览器的插件

好处：不用花钱，即装即用

缺点：如果 gpt 页面有变动，插件可能会失效

比如 WebChatGPT 这个基于 chrome 的插件，它将互联网浏览功能直接整合到 ChatGPT 中。

地址如下：https://chrome.google.com/webstore/detail/webChatGPT-ChatGPT-with-i/lpfemeioodjbpieminkklglpmhlngfcn

C 开通 ChatGPT Plus

优点：方便，直接输入网址就可以缺点：付费，Plus用户才能使用

在设置中启动 Web browing 功能即可。

3. PDF

PDF 格式的文件，和网址类似，我们可以通过官方活着第三方的插件来实现访问。

官方开通Plus会员使用ChatGPT 4来读取PDF文件。或者通过第三方插件来实现，如AskYourPDF、ChatWithPDF。

如果你是Plus会员，也可以通过ChatPDF这款工具：https://www.chatpdf.com

4. Excel

对于 Excel 表格的数据投喂比较简单上手，直接用自然语言对 Excel 表格中的数据描述清晰，把想要实现的需求表达清楚就好。例如下面这张 Excel 表格：

如果我们想要找出这些网页在不同指标中，表现较好的情况，我们直接对 ChatGPT 用这样的提示词即可：

可以看出ChatGPT可以理解我们的意思，我们直接将公式复制，粘贴到 E1 单元格中：

回车即可看到一下结果：

当然这张表格是虚构的，通过这样的描述举一反三，可以解决大部分的 Excel 难题，甚至不用进行拖动和复制单元格的操作。

5. 图片、视频、音频

ChatGPT 4 已经支持图片输入，视频和音频暂不支持。

图片中的文本识别目前也仅支持英文，中文不支持。

五、如何输出想要的结果/提问和设定

1. 提出一个好问题

相信我们都有一个共识，ChatGPT 最难的就是：如何提出一个好问题。一个好问题就意味着一个高分的答案，人和人的能力区分也正是由于提问能力的差异。在我看来，掌握如何提问分为两种：

知道在哪里找到好的提示词，为自己所用；
自己掌握了提问的底层逻辑，本身就可以问出一个好问题。

今天我们不谈底层逻辑，跟大家分享一些“抄作业”的提问模版。 AI 爆炸的时期，我们自己就算不动脑子，厉害的大神们也已经把饭喂到了我们嘴边。例如，我需要分析一篇公众号到底讲了什么，我需要怎么做？

联网，让 GPT 可以访问这个地址
提出一个好问题，让 GPT 根据这个格式来为我分析。

以这篇文章为例： https://mp.weixin.qq.com/s/guBFNFtwR9WdmYlFDKtJNg

对 ChatGPT 输入了提示词后得到的结果：

提示词：

2. 找学霸抄作业

在我们没有熟练掌握“调教”技能之前，我们当然可以抄作业，例如这个网站（ https://www.aishort.top ）：

这个网站已经内置了200多套提示词模板，你根据需求直接复制粘贴就可以使用。

目录