用Python提取合并由集搜客爬取的多个xml文件中的数据

    为了爬点小数据同时试用了八爪鱼和集搜客。两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分。不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件。本着能省则省的原则,用Python折腾了一个将多个xml文件中的内容进行提取并合并到一个txt文件中的小工具。八爪鱼和集搜客的简单试用对比:对能直接从页面提取的元素都有很好的支持,但如果是从...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:gooseeker, python, xml, 八爪鱼, 抓数据, 爬虫

    O2O——全渠道整合运营

    自从O2O被热炒、一个做微信广告的都大谈O2O时,我就开始尽量避免用这个词。不论最初提出时是强调线上导入线下还是线下导入线上,现在看来都不完整。把to换成and更合适,offline and online,线上线下一体化。   一直在想其本质是什么,有说个性化的,有说关系/联系的,都不太认同。今天讨论博览会策略案时,突然想到“全渠道整合运营”这样一个描述,觉得这是目前为止最让我满意的一个释...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:O2O

    Debian下给Magento安装Mcrypt

    Magento真TM是个高级货。本地调试过程中就各种小问题不断,从本地环境传到VPS又出新问题了。后台进行各种配置都一路绿灯,配置paypal等支付模块时提示错误500。查看apache日志,然后又Google一下,发现是缺少mcrypt的原因。 好吧,我装还不行吗。。。又是一番Google。 apt-get install php5-mcrypt vi /etc/php5/apache2/php.ini,在其中加上一行 extension = mcrypt.so /etc/init.d/apache...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:debian, magento, mcrypt

    独立网站上对产品评论的一次测试

    产品评论的重要性不言而喻。你怎么处理差评呢?隐藏还是删掉?本文通过一次小测试的结论,不要小视差评的力量。合理利用很重要。 上周有个主要关键词爬到首页,但是不稳定。于是号召大家一起通过产品review,网站news和blog来保持更新增加收录。现在看来关键词稳定了不少。在更新review的过程中还做了个小测试,有点意思。 产品评论的结构是这样的:reviews页面(/reviews.html)–>各产...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:用户评论, 网站运营

    如何建立高质量的网站–来自Google管理员中心博客

    今日凌晨Google管理员中心博客(Google Webmaster Central Blog)有更新,强调几个月内都会特别致力于帮助用户寻找高质量的网站。前段时间代号为Panda的算法升级只是今年大概500项改动的其中一项。博文一如继往的建议网站主focus on到给用户提供尽可能好的体验,而不是猜测揣度Google的算法。其中还透露说,在Panda后,其实又已经对ranking的算法做了十多项小调整。 博客中包含了一些问题,...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:Google算法, seo

    MySQL错误之1062-duplicated entry

    每天除了一些协调性的工作,大部分时间还是放在网站的微调,不断的寻找着需要优化的细节并改之。有时候会想,是不是该尝试走技术流。。。 今天正在修改购物车显示,把总金额也调出来时,突然想到postcode还没有添加完全,以前只是在测试各模块功能时加了几个。于是赶紧进MyPHPAdmin把现有的down下来,然后在excel里按之前的格式添加。还好excel能够拖,要不然300条记录估计一下午就全耗上面...阅读全文
    作者:Matt Sun | 分类:工作札记 | 阅读: | 标签:1062, duplicated entry, mysql