问题记录 pip无法使用,通过conda安装python环境后,使用pip的时候发现报错了。 示例内容 这里通过以下几个方法可以解决,我这里通过重新安装pip来解决的。 1. 重新安装 pip: 如果 pip 损坏,您可能需要重新安装它。您可以通过 Python 来重新安装 pip: 如果您使用的是 Anaconda,也可以通过 Conda 来管理 pip:
Tag
python
这个标签下有 35 篇文章。
问题记录 通过anaconda安装python后使用pip报错。 这里通过python m ensurepip 来重新安装pip即可
时隔近一个月终于将酷安板块关键词监控系统做好了! 系统文档:SpringBoot+Python实现酷安关键词监控系统 1. 项目概述 目的 本项目是在学习Spring Boot的过程中启动的实践项目,旨在通过构建一个实际的系统来深入理解Spring Boot技术栈。 该系统主要聚焦于实时数据采集、处理,并对特定关键词和产品进行监控。系统的核心功能包括任务下发
问题记录 直接通过pip安装会报错 会报错,解决了好久都没解决成功 后来发现直接下载whl安装即可 查询自己的python版本以及系统支持即可 https://pypi.org/project/opencvpythonheadless/4.5.1.48/files dless/4.5.1.48/files
找了一台旧的服务器,想要用来跑python的playwright脚本,然而发现环境太旧了,所以记录一下更新环境的记录。 首先是安装python,这里没有选择使用anaconda安装,而是直接通过官网https://www.python.org/下载源码编译安装的。 之后利用pip安装playwright 会出现类似下面的错误 这里又要去安装GLIBC2.18
问题记录 通过flask开启后端服务,发现在浏览器上无法正常访问。 我开放的端口是6667,在谷歌浏览器上显示的是网址为 http://:6667/ 的网页可能暂时无法连接,或者它已永久性地移动到了新网址。 然后切换到火狐浏览器,提示此网址使用了一个通常用于网络浏览以外目的的端口。出于安全原因,Firefox 取消了该请求。所以看起来是因为端口不安全的问题导
最近在搞任务下发系统,调用接口传入关键参数,进行爬虫爬取。 初始化 一开始是通过threading+subprocess+fastapi来实现的任务下发。 但是遇到很多的问题,虽然都解决了,但是感觉效果并不理想。 目前是通过sqlite3来存储下发任务的记录,然后利用fastapi搭建接口服务。通过接口接收关键词以及爬虫路径然后将任务存放到fastapi提供
配置说明 国内环境使用https://github.com/KillianLucas/openinterpreter 发现只是修改openai库的api.openai.com为api.openaisb.com不行,还需要修改litellm库中的main文件,将其中的 api.openai.com改为api.openaisb.com。 其次,在使用的时候会遇到
调研记录 亚马逊同样的请求用requests发现无法获取到数据,通过测试发现可能是因为TLS指纹的问题,通过使用curlcffi库进行请求发现可以正常获取数据
问题记录 通过lcudriver查询战绩一直报错 后通过查询发现原来是python 3.8后 asyncio默认事件循环出现了问题。 通过修改源码中的connector,在第16行加入下方代码
操作步骤 安装cmake以及Visual Studio 2022 之后pip install dlib以及facerecognition 就可以 可能还需要安装boosthttps://sourceforge.net/projects/boost/
操作步骤 希望可以处理一下旧的文本内容,之前文章的数据全都变成了一行,希望可以根据语义进行分段。 这里找到的是spaCy这个库。 https://spacy.io/usage 通过这个网站获取需要使用的命令进行安装即可 设置power shell的代理
问题记录 常规链接远程ssh发现无法调试程序 出现错误 这里其实是因为在创建环境的时候,没有选择对路径 一定要修改,这个sync folders到文件路径才可以进行同步
首先安装环境 之后在虚拟环境中安装ipykernel 然后安装到jupyter中 之后启动jupyter就可以了
最近因为工作需求,需要采集一批公众号的发文数据。 遇到需求,先谷歌。 在谷歌搜了一下公众号的采集 然后在GitHub上找到了一个库,微信公众号文章爬虫https://github.com/wnma3mz/wechatarticlesspider,看了一下Readme,有两种思路: 一种是从微信公众号平台获取,这种最简单只需要有一个公众号就可以获取数据, 另一
推荐使用anaconda管理python版本,或者别的虚拟环境对python进行管理。 首先新建一个python版本 然后进入环境安装jupyter 如果报错的话,应该是因为pip的版本低 可以更新一下pip的版本 然后设置一下密码 之后执行命令启动即可
操作步骤 想用ddddocr识别一下验证码,但是准确率不是非常的高,正好作者提供了dddd\trainer可以进行训练,于是在我的电脑上下载了源码准备训练,然后就发现没有环境。 百度搜索发现可以通过官网安装pytorchhttps://pytorch.org/首先需要看一下自己的CUDA版本,安装的话可以低但是不能高。 使用win+r打开运行输入cmd打开命
问题记录 在YouTube上看到一些比较好看的视频,想要把一个系列都下载下来。 简单分析了一下网站,感觉还可以,但是需要费时间,然后就想到了可以用现成的库,之后就想到了以前用过的一个库pytube。 pytube的文档:https://pytube.io/en/latest/ pytube安装:pip install pytube 首先就是需要可以翻墙,这点
实现思路 不得不佩服一下老美。 pyscript顾名思义,就是在web上写python script,当然JavaScript这个冒牌货是不能和pyscript相比的。 示例内容 首先需要在网页上导入这两个文件,应该一个是加载格式,一个是调用python引擎。 然后就是需要有两个标签,其实也就是类似于vue之类的,有自己专属的标签,在里面写的内容是通过专属j
1\. cookie获取 1.1 cookie 首先是cookie,这个想必大家都知道,我们登录一个网站后,再次访问如果不需要输入密码的话,那么就是cookie的帮助了.所以我们如果需要上传文件,那么就需要使用cookie. 1.2 获取 既然cookie这么重要,那么应该怎么获取呢?大多数的网站,都是通过客户端发送账号密码到服务器,然后服务器返回setco
操作步骤 本地环境弄得一团糟,懒得整理,所以借着学习Sanic的机会,在服务器上搭了一个python环境,使用的anaconda来管理不同版本不同需求的python环境. 首先就是需要一台服务器,我是用的虎年回馈在腾讯云买的,3年264还可以. 然后去anaconda官网下载bash文件执行安装. 我是参考的这个教程来做的,我把关键步骤摘出来了. 参考链接h
一、前提 工作需要用到代理爬一下境外的网站,但是自己找的哪些免费的都不是很好使,不是超时就是被封禁。 所以自己买了个美国的服务器,准备自己搭建一个代理,供自己使用。 工具 1. 一台服务器 2. 一台客户端 二、搭建 首先我是准备使用squid搭建服务器的,但是发现现在国内貌似单单搭建squid的话,只能访问国内的网站,国外的访问不了,并且如果是境外的服务器
前请提要 逛52论坛的时候,看到有人问为啥谷歌翻译会返回400 自己试了一下发现是因为传值格式才会返回400,下面简单讲一下自己的流程 简单测试 首先先去谷歌翻译的网站,看一下请求的流程 发现上面这个请求就是发送要翻译的内容,然后再获取返回值的请求 然后再看一下参数 之后简单写一个请求 发现返回值是400,很迷 解决 我当时其实以为的是会有什么检测,但是仔细
操作步骤 本来其实我是很懒很懒的,所以好久都没有更新网站了,没想到今天白天更新了一下,晚上又发现了一个很好的东西来进行更新,那就是题目。 目前抖音已经上线了网页版,那么我们想要爬取他的视频就不需要钻研安卓了,我们只需要通过 Python,来进行爬取就可以了。 https://www.douyin.com/https://www.douyin.com/ 这个是
实现思路 之前一直用的一个关于百度 API 提交的工具貌似不好用了,所以准备自己写一个。 其实感觉不好用可能是因为我的站点信息里看提交都是0。但大概率是百度自己出了问题,既然如此,那么还是重新写一个工具吧。 我们可以看百度自己的教程和示例: post 推送示例 POST /urls site=www.58.com&token=edk7ychrEZP9pDQD
操作步骤 今天闲的无聊,所以准备看看漫画,但是发现大多数的漫画一页一页翻,可能会来不及加载,但是确实是很想看接下来的内容,慢慢等的话确实有点难受。 所以准备用Python写一个爬虫,来爬取相关的资源,下载到本地,之后用键盘的左右键翻看就好了。大不了在爬取漫画的过程中干点别的。 因为那个网站有点不可描述,所以我就简单说下过程,不贴图了。 首先是分析一下这个漫画
操作步骤 今天发一下我之前写了一会的关于爬取传智播客习题的爬虫。目前来说,其实是因为最近期末,然后想要爬取一下题库里的题,然后做一个题库出来,之所以这样,是因为老师并没有公布答案! 不过没想到传智播客居然是用 JavaScript 渲染的页面,而非普通的 HTML,难度很大对于初学者。 目前找到了想要的内容但是并不知道该如何爬取。 首先在这里右键查看一下源代
操作步骤 其实如果是一直关注本站的读者会知道,其实这里最早只是一个做我的世界服务器的官网,虽然说我现在服务器也在开着,但是当时不知道哪根经抽了,就把这个当成博客了,不过其实还是关注着我的世界的。 先说一下任务,目前呢在网络上搜索我的世界 ID 的话,会发现 ne 那个搜到的大多都是好多年以前的内容了,比如说那张我记的好久好久好久以前就存在的 ID 对照图。
实现思路 没想到进阶版来的这么快,在发布了python爬取知乎盐选文章内容后,没想到居然这么快就要更新新的内容了。 在下午思考第一篇python爬取知乎盐选文章内容的时候,其实就把自动爬取目录内的其他内容的方法想出来了,但是本来没想这么快更新的,哈哈。 不过思来想去还是发出来吧,毕竟要不哪天就忘了。 代码示例 直接上一手代码,讲一下思路,首先先是获取文本内容
实现思路 今天我想分享一些关于SEO优化的基础知识,这些知识几乎每位SEO专业人员都会明白。一种SEO策略是在其他论坛上发布文章,首先发布一些具有技术性的文章,然后再发布自己网站的链接。最近,我在oschina论坛上发布了一些文章,但今天我没有太多新的内容要发布,所以我决定分享一段小代码,用于爬取我的oschina论坛内的链接和标题。这个过程非常简单,非常容
问题记录 以下是您提供的内容的格式化版本: 在看《python3网络爬虫开发实战》的时候,安装开发环境时,遇到了一个小问题,但是呢百度上面的回答大多不怎么样,不过没想到自己随便一试就把解决办法试出来了。 安装 Docker Desktop 时,出现了以下报错: 具体原因是因为 Windows 系统下的 Linux 内核的版本有点低,我们只需要前往更新地址,下
操作步骤 其实本来应该早一点发的,但是我用织梦后台编辑文章的时候,不小心点了网页的x号,于是乎,内容白写了,然后我又开始重新写了。 requests库,是一个第三方的Python库,用来模拟发送HTTP请求。它通常用于爬虫或接口的测试。与urllib等其他的系统库相比,虽然他们的功能相似,但是requests相对来说更简单、方便和高效。 首先我们先把这个re
问题复盘 差不多用了三天的空闲时间,把这个案例看完了一遍,并且实际操作了一下,其实难度确实不高,很适合我们这样的新人去操作。不过其实遇到了许多的问题,但大多都是我的问题,做的我是心态崩了。 今天最后做play按钮的时候,怎么也不出效果,把 gameactive 改为 False 就显示黑屏,而换成 True 显示内容但是没啥卵用,因为不是静态的。当时是真的不
实现记录 本来这篇文章我已经有思路了,并且其实已经写了一些了,但是因为有一些事情要去做,然后忘记这边还写得文章了,没保存直接关闭了。所以现在是我重新写的了! 最近我是在看《Python从入门到实践》,看的比较快,已经到项目部分了,开始做飞船大战外星人这个基本上入门必学的案例了,但是还是遇到了许多的问题,不过幸好基本上全部解决了了。其实对编程最大的挑战,就是仔
问题排查 今天遇到的小问题!便对着书边敲代码,发现出现错误。python 外星人大战,飞船不移动。这个问题我首先是发去了吾爱,不过后期我自己解决了。如题,边看书边敲的代码,发现飞船不移动。求大佬帮忙看一下!主文件本来发现问题的时候是很慌的,我一开始是以为可能跟书上的内容不太一样,但是后来下了源代码发现确实应该那样。 处理方法 最后还是把书上的内容都复制下来,