2000字范文，分享全网优秀范文，学习好帮手！

2000字范文 XML 网站地图

全站

首页 50字 100字 200字 300字 400字 500字 600字 700字 800字 900字 1000字 1500字 2000字

推荐专题：

2000字范文 > 【入门-R爬虫抓取数据】文本挖掘之数据爬虫

【入门-R爬虫抓取数据】文本挖掘之数据爬虫

时间：2022-02-21 03:43:05

相关推荐

【入门-R爬虫抓取数据】文本挖掘之数据爬虫

今天主要介绍一下，文本挖掘的数据获取方式，上一篇很多人在问数据如何获取，今天给大家介绍下数据获取的方式，主要利用爬虫抓取数据。基于，之前对python爬虫没接触过，尝试过用R爬虫，今天就来介绍下，如何用R爬取股吧的评论数据，关于R爬虫网上也有很多参考资料，在参考了网上大神的思路方法后，自己尝试了对股吧数据进行爬取，结果爬取下来的数据还是比较规范，能够满足我的分析需求的。

R进行爬虫，经常用的包有RCurl和rvest两个包，这里我主要介绍rvest包爬虫，大致的思路其实是一样的，爬虫之前需要对网页有个基本的了解，会查看网页相应的审核元素，找到相应的节点所在的位置，找到节点的类型class，这些了解了，后面爬虫就会得心应手很多。不多说了，先上代码吧。

library(rvest)

library(xml2)

library(sqldf)

library(gsubfn)

library(proto)

library(RSQLite)

library(DBI)

library(data.table)

library(stringr)

extradata<-function(i,non_pn_url){

url<-paste0(non_pn_url,i)##先给一个没有页码的网页#

web<-html(url)#通过html解析网页##

title<-web %>% html_nodes("div.articleh span.l3 a")%>%html_text()%>% .[c(seq(1,86,1))] %>% as.character()##找到评论数据对应的节点类型，匹配获取节点##

paperlink<-gsub("\\?source\\=search","",web %>% html_nodes("div.articleh") %>% html_attr("href"))%>% .[c(seq(2,20,2))]##获取网页跳转连接##

paperlink<-paste0("/",paperlink) %>% as.character()###输入无页码链接 ##

author<-web %>% html_nodes("div.articleh span.l4") %>% html_text()##匹配获取作者的class节点

posttime<-web %>% html_nodes("div.articleh span.l6") %>% html_text()

update_time<-web %>% html_nodes("div.articleh span.l5") %>% html_text()

count_of_comment<-web %>% html_nodes("div.articleh span.l2") %>% html_text()

count_of_read<-web %>% html_nodes("div.articleh span.l1") %>% html_text()

data.frame(title,author,posttime,update_time,count_of_comment,count_of_read)##构造一个数据框##

}

finaldata<-data.frame()

url<-'/list,002373.html?from=BaiduAladdin'##获取有页码的第一页的链接

for(i in 1:25){

extradata(i,url)

finaldata<-rbind(finaldata,extradata(i,url))

}##这里是抓取了25页的数据#

finaldata1<-as.data.frame(finaldata)

names(finaldata)

dim(finaldata1)

head(finaldata)

最后来看看爬虫抓取的数据效果

爬虫内容今天就介绍到这里，后续有新的发现在跟进，希望小伙伴们多提提意见，这里也感谢参考的牛人大神们的分享。

文章改编自《文本挖掘之数据爬虫》

原文链接：/community/subjectDetails/175

欢迎加入京东金融量化官方交流群：456448095，有任何问题和建议均可讨论交流。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

爬虫入门（五）抓取网页数据

2019-02-07

R语言爬虫系列（1）XML抓取表格数据

2022-07-08

【R语言爬虫】R语言提交post请求抓取盈盈理财数据

2019-01-24

python爬虫数据挖掘_Python网页爬虫文本处理科学计算机器学习数据挖掘兵器谱...

2022-10-07

扩展阅读

: 数据从业者必读：抓取了一千亿个网页后我才明白爬虫一点都不简单

: R文本挖掘：情感分析

: R文本挖掘：情感分析「2」

: 想用R和Python文本挖掘又不知如何下手？方法来了！

: 数据说话！文本挖掘林夕黄伟文的43万字歌词

: 知识图谱——用Python代码从文本中挖掘信息的强大数据科学技术

最近发布

汪曾祺的笔下画卷：一场文字与艺术的对话

2024-07-28

三年生活回顾：我们的散文之旅

2024-07-28

西游记精彩片段摘抄2000字作文素材大全

2024-07-28

真挚友谊：朋友是永远的感动

2024-07-28

精选飘的读后感2000字作文

2024-07-28

平安夜作文2000字

2024-07-28

推荐专题

实习总结 2000字爱的艺术读后感 2000字大学生心理论文 2000字工匠精神 2000字论文国防教育论文 2000字测量实训总结 2000字我的人生观 2000字论文国学经典读后感 2000字调研报告范文 2000字退社团申请书 2000字夜不归宿 2000字检讨军训征文 2000字钢铁是怎样炼成的读后感 2000字我的自传 2000字大学生庄子读后感 2000字

猜你喜欢：

实践心得体会 2000字地理论文 2000字大学生安全教育 2000字考研计划书范文 2000字 2000字有多少页活着读后感 2000字大学逃课检讨书 2000字打屁股作文 2000字墨菲定律读后感 2000字幼儿园实习总结 2000字玩手机检讨 2000字瓦尔登湖读后感 2000字青春之歌读后感 2000字感动中国观后感 2000字英雄儿女观后感 2000字演讲稿 2000字钢铁是怎样炼成的 2000字概括助学筑梦铸人征文范文 2000字三下乡个人总结 2000字民族团结征文 2000字志愿者心得体会 2000字大学生职业生涯规划论文 2000字 2000字作文大全历史论文 2000字爱的艺术读后感 2000字发展对象培训心得体会 2000字新教师培训总结 2000字文献综述范文 2000字社团退社申请书 2000字酒驾检讨书 2000字

展开

2000字范文免责声明© 2024 All Rights Reserved.

湘ICP备2024057051号网站地图XML

© 2024 All Rights Reserved.

2000字范文免责声明