main()中文本处理线程代码的位置问题

修改前：

修改后：

老师您好，我把文本处理线程开启的代码调到页码线程释放代码之后运行，最终爬取到的结果会少很多，为什么呢？（我没用代理，修改前的代码数据都能爬到）

收起

1回答

好帮手慕燕燕回答被采纳获得+3积分 2021-02-07 14:44:57

同学，你好！老师这边测试了同学说的问题，爬取数据是正常的，可能原因是同一ip重复爬取数据，网站的反爬策略限制了数据的抓取，可等待一段时间之后再次尝试

祝：学习愉快！

努力学习啊啊提问者 #1

老师，正常每页50条记录，如果按照图一代码放置，我爬10页就是500条，100页5000条记录，没问题。但是按照图二代码放置，最多爬三页150条记录，是稳定的，再多爬几页数据就不稳定了，反正就在150左右波动，这是为什么啊？

2021-02-08 22:33:21
努力学习啊啊提问者 #2

代码位置会影响对方网站的反爬措施吗？既然图一代码位置没引起反爬措施，图二也不会引起吧0.0

2021-02-08 22:34:41
好帮手慕燕燕回复提问者努力学习啊啊 #3

同学，你好！调整位置后，获取1页、2页数据没有问题，当获取较多页数据时，的确会出现同学所说的问题。代码调整之后，处理页码的线程先停止、释放，然后处理文本的线程启动，参数data_queue来自页码线程的处理结果；多线程使用队列的时候，当数据较多时，如果处理页码的线程先停止释放了，处理文本的线程获取队列中残存的数据会受到影响，因此最终得到的数据量比较少。
祝：学习愉快！

2021-02-09 12:19:35