全部标签

Tag

爬虫

这个标签下有 5 篇文章。

使用open-interpreter 0基础创建爬虫采集数据

之前写了一篇关于node.js爬虫的文章。想通过几个网站案例教大家用node.js写爬虫,但是一直没抽出时间来写,之后用了下openinterpreter感觉挺好用,而且用来写爬虫的话也不错,挺适合0基础的,于是准备拿之前准备的网站教大家用openinterpreter写爬虫采集数据。 俗话说得好,工欲善其事必先利其器。 所以我们要先做好前期准备: 一台电脑

1168 字 | 3 分钟
celery使用有感

最近在搞任务下发系统,调用接口传入关键参数,进行爬虫爬取。 初始化 一开始是通过threading+subprocess+fastapi来实现的任务下发。 但是遇到很多的问题,虽然都解决了,但是感觉效果并不理想。 目前是通过sqlite3来存储下发任务的记录,然后利用fastapi搭建接口服务。通过接口接收关键词以及爬虫路径然后将任务存放到fastapi提供

1505 字 | 4 分钟
亚马逊采集调研

调研记录 亚马逊同样的请求用requests发现无法获取到数据,通过测试发现可能是因为TLS指纹的问题,通过使用curlcffi库进行请求发现可以正常获取数据

60 字 | 1 分钟
linux requests content乱码

问题记录 在跑matters的热榜数据的时候,发现返回的数据有点点问题,解析不出来。 这里试了很多方法,最后找到了 删除AcceptEncoding="gzip, deflate, br"中的br 具体文章是https://blog.csdn.net/wp7xtj98/article/details/112765324

67 字 | 1 分钟
验证码每次请求都会变解决方法

问题记录 如果利用模拟浏览器等方式通过验证码会遇到验证码每次请求都会变,那么这样就不能直接请求获取到验证码数据了。 所以这里其实直接通过js下载图片就行了。 这里的base64String就是当前验证码的base64地址了

88 字 | 1 分钟