用Python提取合并由集搜客爬取的多个xml文件中的数据

    为了爬点小数据同时试用了八爪鱼和集搜客。两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分。不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件。本着能省则省的原则,用Python折腾了一个将多个xml文件中的内容进行提取并合并到一个txt文件中的小工具。八爪鱼和集搜客的简单试用对比:对能直接从页面提取的元素都有很好的支持,但如果是从...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:gooseeker, python, xml, 八爪鱼, 抓数据, 爬虫

    Python 3.2初体验 – 抓取保存空气质量日报

    最近成都的气温终于有所回升。春姑娘来了,我的棉裤也脱了。。。 貌似已经连着两天都出太阳,但这天让人蛋疼,似乎永远是灰蒙蒙的。不知道蓝天和白云是不是也躲进了美领馆。没想到成都天气质量竟如此的差,实在没有办法不怀念印象中的蓝天白云。在成都长大的孩子,会不会不知道有蓝天白云这种东西? 每天都刷一遍中央气象台的空气质量日报,成都已成功的连续几天破百。这还只是PM10的数据,...阅读全文
    作者:Matt Sun | 分类:我是唐僧 | 阅读: | 标签:beautiful soup, python, 成都空气质量, 空气质量报告