使用自动化脚本从网站收集数据的过程称为网页抓取。ChatGPT 是 OpenAI 开发的一种强大的语言模型,具有生成网页抓取代码的能力。让我们探讨一下这是如何工作的……
IMDb 是有关电影、电视节目和各种娱乐形式的信息的首选来源。它有一张收视率最高的电影排行榜,其中排名前 250 的电影列在https://www.imdb.com/chart/top/?ref_=nv_mv_250上。此图表包括每部电影的标题、演员、导演和 IMDb 评级等详细信息。
让我们想使用网络抓取来从这个网站上用 python 和漂亮的汤库提取电影信息。我们会建议 Chatgpt是帮助我们创建所需代码的强大工具,让我们按照请求使用 Chatgpt 来实现此任务。
“网络抓取https://www.imdb.com/chart/top/?ref_=nv_mv_250使用 Python 和 BeautifulSoup”
chatgpt是response的具体实现步骤,下面是python中的源码
那么,这已经是一个很好的结果,可以帮助我们充分理解代码源是如何完成任务的,但是,我们需要在一个文件中执行,所以我们只需要复制和粘贴,我们再去问 Chatgpt在一个文件中提供 python web 脚本:
请在一个文件中提供代码。
Good ChatGPT 正在回复完整的源代码,如下所示:
您可以看到由 ChatGPT 生成的完整 Python 源代码:
让我们测试源代码是否按我们预期的那样工作。因此,首先,我们需要创建一个新文件:
然后我们需要将代码复制并粘贴到 webscrape.py 中:
让我们通过在终端行上编写以下命令来启动 python
该脚本正在运行,几秒钟后,您可以看到一个新文件 imdb_top_movies.cvs 已创建,其中包含提取的 CSV 格式的电影信息。
ChatGPT 生成了一个开箱即用的网络抓取。无需手动调整代码。这是一个很好的结果。
在我们最初向 ChatGPT 提出的请求中,我们并没有具体说明需要从网站中提取哪些电影信息。ChatGPT 决定提取电影名称和出版年份。假设我们还想包括评级。将以下内容写入 ChatGPT:
Also retrieve the IMDb rating for each film
ChatGPT 为您提供了详细的说明和代码片段,用于更改现有代码以包含和提取评级信息:
我们现在可以再次请求 ChatGPT 将这些更改合并到脚本中:
Please give me the full code in one with, with the try-except block
然后 Chatgpt 将再次生成完整的 Python 脚本,包括从网站提取附加信息的更改:
结论
该教程演示了 ChatGPT 是一种有效的工具,可以生成用于网络抓取的脚本。通过简单地向 ChatGPT 提供我们的基本要求,我们收到了一个随时可以运行的 Python 脚本,使网络抓取的过程变得更加容易,并使我们能够快速启动而无需任何修改。
本站资源部分来自网友投稿,如有侵犯你的权益请联系管理员或给邮箱发送邮件PubwinSoft@foxmail.com 我们会第一时间进行审核删除。
站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!
如果遇到评论可下载的文章,评论后刷新页面点击“对应的蓝字按钮”即可跳转到下载页面!
本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR。
温馨提示:本站部分付费下载资源收取的费用为资源收集整理费用,并非资源费用,不对下载的资源提供任何技术支持及售后服务。