发布日期

ChatGPT 投喂指南

Authors
  • avatar
    Name
    网赚手册
    Twitter

当我们想让 ChatGPT 做这些事:

  • 提供一份PDF文件,分析摘要、提炼内容
  • 提供一个网址,从网页上提取最新的信息
  • 提供一份Excel文件,分析、总结数据信息
  • 提供一份文本,总结、模仿文本风格进行创作
  • 提供一份聊天记录,总结聊天内容
  • 提供一本书,讲解这本书的故事脉络

以上这些任务,都离不开一个动作,就是提供资料,我们也可以称之为“投喂”。我相信你在使用 ChatGPT 的过程中,也遇到过相似的问题。 如果你不知道如何实现让 ChatGPT 完成上面的这些任务?那你一定要看接下来的内容,跟着我来学习如何给 ChatGPT 投喂资料。

目录

一、为什么要喂资料给 ChatGPT?

ChatGPT 本身的训练数据不是最新的,OpenAI 模型训练数据的时间可以在这里查看。

但是,我们想要使用 ChatGPT 分析的数据/文本往往存在两种状况:

  1. 私人数据,未被公开,ChatGPT 没有
  2. 公开内容,但是未被 ChatGPT 收录

也就是说,我们询问的问题涉及的资料在 ChatGPT 的数据库中不存在,因此我们需要教 ChatGPT 来学习这些资料。

二、都能给 ChatGPT 喂哪些格式的资料?

  1. 投喂的资料都支持哪些格式?

原则上:几乎涵盖了所有常见的文档类型,详细表格可以在这里查看。

  1. 投喂的资料的限制

单个文件大小不能超过512MB或者200万个token。参考OpenAI Upload File 接口说明。

直接输入文本的token限制每个模型也不相同, GPT-3 上限是16,385 tokens(大约是8192个汉字),GPT-4 上限是128,000 tokens(大约是64,000个汉字), 具体可以参考这里

三、ChatGPT 吃掉资料后,是怎么进行工作的?

在 ChatGPT 界面中,我们可以尝试使用如下的方法进行数据的投喂。

我们通过在对话中提供更多的信息,来实现最简单的数据投喂。

如果是更多的内容则很难、无法在对话框中进行投喂。此时我们需要别的方式来进行处理。

  • Fine Tuning 微调
  • Embedding

Fine Tuning

这种方式是在 OpenAI 训练的模型之上使厍自己的小数据集来进行微调。 这种方式会让模型在特定的领域(取决于数据集)成为专家。 但是训练的效果需要不断的去检验,而且检验的数据集也必须盖面很大。

例如使用这种方式训练出来的:

提问:我们家的到家月嫂和别人家的月嫂有什么不一样?

它回答:到家月嫂是一个纯洁的工作

你会觉得???嗯?什么意思?它说这话是什么意思?怎么还能朕想到那里!这就是典型的发散型回答。

Embedding

Embedding 是对文本进行向量化处理,从而对两端文本可以进行向量比较,获取两端文本的相似性。​ 通过这种方式,就可以把长文本切分成小块(Chunk),通过对用户问题的命中来选取相应的内容, 然后交给 ChatGPT 进行后续处理。​ ​

如,汉堡的向量和三明治的向量相似性,就要大于和桌子的向量相似性。​

如一段文本是,“我家快递用顺丰”,这句话就和“你家物流用什么”这个问题具有强相似性。 ​ 所以这种方式也往往用于在线客服的开发。​ ​

一般工具的处理方式

大量的工具如 ChatPDF,都是使用 embedding 的方式进行处理,处理的流程为​:

  1. 用户输入长文本,工具对长文本按照策略切分成为文本块​
  2. 对每一个文本块进行向量计算(Embedding)并存储到向量数据​
  3. 用户提问进行向量计算​
  4. 从向量数据看寻找和用户提问相似度最高的内容​
  5. 整合命中的内容,连同用户的问题,调用 OpenAI Chat 接口进行处理​
  6. 返回用户回答​

四、投喂 ChatGPT 的方式和方法

投喂方式分为:网页端投喂和API投喂

1. 较短的文本

如果你想告诉 ChatGPT 的信息较短,你直接在网页端输入信息就可以。

例如,我们将一个小红书的文案输入到 ChatGPT,让 ChatGPT 学习这个小红书文案的写作风格,开始模仿创作, 就是最简单的投喂。

下面是演示效果:

2. 网址

事实上,我们需要网址,并不是需要这个链接,而是需要 ChatGPT 来访问链接内的文本内容。​ 例如微信公众号的文章,就是典型的使用场景。 这里有 3 种办法:​

A. 使用New Bing AI

New Bing使用的是ChatGPT 4。

优点:快捷,免费​

缺点:因为基于搜索引擎,所以它的答案指向很短,你没办法和它唠嗑。它还很傲娇, 总是动不动就拒绝和你继续下去了。​

B 基于谷歌浏览器的插件​

好处:不用花钱,即装即用​

缺点:如果 gpt 页面有变动,插件可能会失效​

比如 WebChatGPT 这个基于 chrome 的插件,它将互联网浏览功能直接整合到 ChatGPT 中。​

地址如下:https://chrome.google.com/webstore/detail/webChatGPT-ChatGPT-with-i/lpfemeioodjbpieminkklglpmhlngfcn

C 开通 ChatGPT Plus

优点:方便,直接输入网址就可以 缺点:付费,Plus用户才能使用

在设置中启动 Web browing 功能即可。

3. PDF

PDF 格式的文件,和网址类似,我们可以通过官方活着第三方的插件来实现访问。

官方开通Plus会员使用ChatGPT 4来读取PDF文件。或者通过第三方插件来实现, 如AskYourPDF、ChatWithPDF。

如果你是Plus会员,也可以通过ChatPDF这款工具:https://www.chatpdf.com

4. Excel

对于 Excel 表格的数据投喂比较简单上手,直接用自然语言对 Excel 表格中的数据描述清晰, 把想要实现的需求表达清楚就好。例如下面这张 Excel 表格:

如果我们想要找出这些网页在不同指标中,表现较好的情况,我们直接对 ChatGPT 用这样的 提示词即可:

可以看出ChatGPT可以理解我们的意思,我们直接将公式复制,粘贴到 E1 单元格中:

回车即可看到一下结果:

当然这张表格是虚构的,通过这样的描述举一反三,可以解决大部分的 Excel 难题,甚至不用进行拖动和复制 单元格的操作。

5. 图片、视频、音频

ChatGPT 4 已经支持图片输入,视频和音频暂不支持。

图片中的文本识别目前也仅支持英文,中文不支持。

五、如何输出想要的结果/提问和设定

1. 提出一个好问题

相信我们都有一个共识,ChatGPT 最难的就是:如何提出一个好问题。​ 一个好问题就意味着一个高分的答案,人和人的能力区分也正是由于提问能力的差异。​ 在我看来,掌握如何提问分为两种:​

  1. 知道在哪里找到好的提示词,为自己所用;​
  2. 自己掌握了提问的底层逻辑,本身就可以问出一个好问题。

今天我们不谈底层逻辑,跟大家分享一些“抄作业”的提问模版。​ AI 爆炸的时期,我们自己就算不动脑子,厉害的大神们也已经把饭喂到了我们嘴边。​ 例如,我需要分析一篇公众号到底讲了什么,我需要怎么做?​

  1. 联网,让 GPT 可以访问这个地址​
  2. 提出一个好问题,让 GPT 根据这个格式来为我分析。

以这篇文章为例:​ https://mp.weixin.qq.com/s/guBFNFtwR9WdmYlFDKtJNg

对 ChatGPT 输入了提示词后得到的结果:

提示词:

2. 找学霸抄作业

在我们没有熟练掌握“调教”技能之前,我们当然可以抄作业,例如这个网站( https://www.aishort.top ):

这个网站已经内置了200多套提示词模板,你根据需求直接复制粘贴就可以使用。