2000字范文，分享全网优秀范文，学习好帮手！

2000字范文 XML 网站地图

全站

首页 50字 100字 200字 300字 400字 500字 600字 700字 800字 900字 1000字 1500字 2000字

推荐专题：

2000字范文 > 猫眼网基础爬虫-小白的第一次爬虫经历

猫眼网基础爬虫-小白的第一次爬虫经历

时间：2023-09-23 23:13:13

相关推荐

猫眼网基础爬虫-小白的第一次爬虫经历

以下为最近爬取猫眼TOP100榜单的代码：

import requestsimport reimport jsonimport datetimeimport timedef get_one_page(url):#获取网页headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}response = requests.get(url,headers=headers,)#此处一定要加一个headers=headers来模拟浏览器发送请求if response.status_code==200:return response.textreturn None# main()def parse_one_page(html):#使用正则表达式抓取网页信息pattern = pile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?}">''(.*?)</a>.*?">(.*?)</p>.*?">(.*?)</p>.*?integer">(.*?)</i>.*?">(.*?)</i>',re.S)items = re.findall(pattern,html)for item in items:yield {'index':item[0],'img':item[1],'title':item[2],'actor':item[3].strip()[3:] if len(item[3])>3 else '','time':item[4].strip()[5:] if len(item[4])>5 else '','score':item[5].strip()+item[6].strip()}#迭代生成器,相当于依次生成了一个列表# dict = {#'index':item[0],#'img':item[1],#'title':item[2],#'actor':item[3].strip()[3:] if len(item[3])>3 else '',#'time':item[4].strip()[5:] if len(item[4])>5 else '',#'score':item[5].strip()+item[6].strip()# }# print(dict)# print(item)def write_to_file(context):with open('result.txt','a',encoding='utf-8') as f:#以附加模式打开文件result.txtf.write(json.dumps(context,ensure_ascii=False)+'\n'+str(datetime.datetime.now()))'''json.dumps，将文件装换为json格式写入，ensure_ascii=False保证输出的结果是中文形式而不是Unicode编码,末尾添加爬取时系统时间 '''def main(offset):#设置形参offseturl = '/board/4?offset='+str(offset)html = get_one_page(url)# print(html)for item in parse_one_page(html):print(item)write_to_file(item)if __name__ == '__main__':for i in range(10):#传入offset参数main(offset = i*10)time.sleep(1)

代码参考至网络爬虫开发实战--崔庆才

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

python爬虫基础案例——爬取猫眼电影并保存数据到excel

2019-01-10

python爬虫基础案例（面向对象）——爬取猫眼电影并保存数据到excel

2022-10-31

python爬虫接单经历_一个Python小白5个小时爬虫经历

2019-08-06

一个Python小白5个小时爬虫经历

2024-06-01

扩展阅读

: 零基础小白学甜品成长学习经历甜点吧

: （亲身经历）爬虫的诡异档案

: 真实经历之23：禁忌猫眼

: 一次即兴的爬虫经历：A站B站数据分析实战

: CFRM基础一般如何进行备考？零基础小白适用

: Python基础教程之小白入门篇

最近发布

国庆65周年：热烈祝贺并纪念

2024-08-23

春到桃花坞作文2000字高三写景作文

2024-08-23

歌星应该得到高报酬吗-Do Pop Stars DeserveHigh Rewa.2000字英语作文

2024-08-23

暑期社会实践报告论文：2000字完整体验与收获

2024-08-23

选择性遗忘2000字作文素材大全

2024-08-23

宠物美容职业规划2000字

2024-08-23

推荐专题

西游记读书笔记 2000字我和我的祖国 2000字环境污染论文 2000字职业规划书 2000字科技创新论文 2000字围城读后感 2000字左右 2000字故事 2000字征文入党申请书范文 2000字实训报告 2000字检讨书 2000字关于犯错职业素养提升计划书 2000字倾城之恋读后感 2000字圆明园观后感 2000字山海经读后感 2000字

猜你喜欢：

检讨 2000字范文大学论文范文 2000字西厢记读后感 2000字我的大学我做主 2000字易经读后感 2000字军训征文 2000字汽车文化论文 2000字红楼梦读书心得 2000字 2000年1月10日生辰八字团日活动心得 2000字论持久战读后感 2000字互换性与技术测量论文 2000字水浒传读后感 2000字大学生 2000字检讨书大二学年总结 2000字长征心得体会 2000字许三观卖血记读后感 2000字 2000字文章史记读后感 2000字创业基础创业计划书 2000字较量无声观后感 2000字读我们仨有感 2000字长征观后感 2000字读百年孤独有感 2000字雷锋精神征文 2000字老人与海读书笔记 2000字职业生涯规划书 2000字纳税实训报告 2000字军训心得体会 2000字左右 2000年8月1日生辰八字

展开

2000字范文免责声明© 2024 All Rights Reserved.

湘ICP备2024057051号网站地图XML

© 2024 All Rights Reserved.

2000字范文免责声明