去哪儿网python爬虫 爬取去哪儿官网
闲来无事,所以爬下去哪儿网站的旅游景点信息,爬取网页之前,最重要的是分析网页的架构。
1. 选择要爬取的网页及定位自己要爬取的信息
url=http:/// 爬取全国热门城市的境内门票

首先要得到全国热门城市的城市名及它们背后的链接

2. 根据获得的链接进入对应的页面

进一步分析页面,将我们要的数据一个个找出来

3. 得到页面的下一页


这里我为什么要把后面这张图片拿出来是因为我要根据最大页数来遍历每一页,倒数第二个a标签中的数据是页数信息
到这里我们就将我们的思路屡清楚了:
1.首先根据初始给的url,解析该url得到城市的城市名及背后的链接
2.再根据得到的链接解析出其中包含很多页的每一页链接
3.根据得到的每一个的链接,再来对每一页的信息解析
4.将解析后的数据存入到MySQL数据库中
4. 设计数据库

5. 直接上代码
运行程序

然后再来看我们的MySQL数据库

看到景点名这个字段空了这么多我就知道我表设计错了,这个字段给大了,总而言之还算是爬下来了





