用Python提取合并由集搜客爬取的多个xml文件中的数据

    为了爬点小数据同时试用了八爪鱼和集搜客。两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分。不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件。本着能省则省的原则,用Python折腾了一个将多个xml文件中的内容进行提取并合并到一个txt文件中的小工具。八爪鱼和集搜客的简单试用对比:对能直接从页面提取的元素都有很好的支持,但如果是从...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:gooseeker, python, xml, 八爪鱼, 抓数据, 爬虫