top

【天沐云·SaaS平台】“天沐蜘蛛”-文旅行业互联网爬虫工具

2021-08-31
网络爬虫 (Web Crawler) , 又称为网络蜘蛛 (Web Spider) 或Web信息采集器, 是一个自动下载网页的计算机程序或自动化脚本, 是搜索引擎的重要组成部分。网络爬虫通常从一个称为种子集的URL集合开始运行, 它首先将这些URL全部放入到一个有序的待爬行队列里, 按照一定的顺序从中取出URL并下载所指向的页面, 分析页面内容, 提取新的URL并存入待爬行URL队列中, 如此重复上面的过程, 直到URL队列为空或满足某个爬行终止条件, 从而遍历Web。 

简单意义上讲,就通过编写能够识别目标网站的数据程序,再对数据进行截取,保存并分析。

基于PYTHON的爬虫实现

Python是及其强大的语言,其最有魅力之处也在于他有很多很棒的库,熟练的运用这些库能够提高工作效率,缩减时间。就拿本次所讲的爬虫来说,主要有几个常用库:请求库、解析库、分析库和数据库。

请求库:Requests,selenium,urllib,ChomeDrive,pantonJS等

解析库:Lxml, Beautiful Soup, Pyquery等

分析库:Pandas,Pyecharts等

数据库:MySQL,MongoDB等

这些库都会帮你处理各种各样的问题。

比如“天沐蜘蛛”爬虫功能,就用到了RequestsParsel两个库,前者是请求库,后者是分析库,他们能帮助我们获取温泉项目的信息。

Figure 1 天沐蜘蛛

 Figure 2 结果
也可以通过天沐蜘蛛爬取的评论信息:


再通过“天沐云”可视化系统,进行分析:

Figure 3 南昌天沐词云图

Figure 4 明月山天沐词云图

未来“天沐蜘蛛”将会研发更多关于文旅项目的功能,从而建立起完善的数据获取渠道,支持”天沐云”大数据中心的建设,推动文旅行业标准化发展。


Copyright © 2019 广东天沐文旅建设有限公司 All Rights Reserved 粤ICP备19067588号

粤公安备:44049102496332