全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: 度百

【暂停】有偿求爬虫大佬们爬个数据,不知道多少费用

[复制链接]
发表于 2022-8-14 11:53:49 来自手机 | 显示全部楼层
度百 发表于 2022-8-14 10:51
我去,这也不能搞了啊


灰色地带,按规定不能主动打电话推销。回访之类的可以
发表于 2022-8-14 12:07:25 来自手机 | 显示全部楼层
云南下面136个市,十六个大分类。最多只能显示500条,用小分类爬才能爬全全。
发表于 2022-8-14 12:11:40 来自手机 | 显示全部楼层
加点钱上地推团队
发表于 2022-8-14 12:12:52 来自手机 | 显示全部楼层
136 * 16 * 20 * 500 数据规模估计在几万,理论最大采集200多万页面,当然很多老数据都没用了,还要去重很多,疫情不知道倒闭多少。估计应对反爬虫机制得消耗掉好多大众点评账号。。
发表于 2022-8-14 12:23:36 来自手机 | 显示全部楼层
前脚采集,后脚缝机
发表于 2022-8-14 13:36:29 | 显示全部楼层
小日子刑啊
 楼主| 发表于 2022-8-15 00:05:00 | 显示全部楼层
yangken 发表于 2022-8-14 12:12
136 * 16 * 20 * 500 数据规模估计在几万,理论最大采集200多万页面,当然很多老数据都没用了,还要去重很 ...

应该不止这么多,光昆明似乎就40w
 楼主| 发表于 2022-8-15 00:06:10 | 显示全部楼层

大佬我就打电话推销下,别吓我
发表于 2022-8-15 00:12:04 | 显示全部楼层
好像有防采集啊 这种最难搞了 你一个人跟他们公司的团队对抗
发表于 2022-8-15 00:17:44 | 显示全部楼层
我公司的数据还不是从政府高校/官网爬过来的,作为项目的卖点,一个数据点卖几万
之前爬虫那屌毛说html标签不能过滤,玛德,最后还不是乖乖重新跑
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-26 10:42 , Processed in 0.062159 second(s), 7 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表