HelloBoy

Go with the wind, like a dandelion.


  • Home

  • Archives

scrapy编码问题

Posted on 2019-06-18 | Comments: | Views:

最近在用scrapy时遇到了两个问题:
1、使用BeautifulSoup找ul下的li发现数据不全
2、抓取下来的数据乱码

在查找问题的过程中,发现response.body并不是网上说的str类型,而是bytes类型,于是可以修改为BeautifulSoup(str(response.body), 'lxml')解决第一个问题。
而第二个问题则是由于爬取的网页编码不一致,无法统一,而scrapy.response自带了response.encoding用于检测body的具体编码,所以可以很方便的使用BeautifulSoup(str(response.body, response.encoding), 'lxml')来解决乱码问题

最后由于scrapy本身是基于Unicode的,我们自身服务器要求使用UTF-8,所以在scrapy项目的settings.py文件增加了一行:

1
FEED_EXPORT_ENCODING = 'utf-8'

技术与生意

Posted on 2019-05-24 | Comments: | Views:

生意:商品低买高卖,少中间消耗
商品:线上&线下、服务&实体

书中自有黄金屋

Posted on 2019-05-20 | Edited on 2019-05-21 | Comments: | Views:

我在书里看见了星辰大海

《朋友圈的尖子生》

  1. 脱不花
    1) 敢想敢做:时时可死,步步求生,纵横四海,心无挂碍
    2) 好奇好学好问
  2. 马占凯
    习惯:日读、俯卧撑从1到100
  3. 刘丹尼
    1) 最小可行性产品(MVP):早期的创意只需要用最原始的手段(人工)进行验证
    2) 相信书中所讲,在实践中验证
    3) 好奇
  4. 冯鑫-北航演讲稿
    1) 折腾:体现自我
    2) 创造:找到、做到
  5. 猫
    积累、改变、行动、合作、努力
  6. 痞子
    自我认知、不安分(折腾)、倒逼
  7. 李楠
    高考移民(降维)、跳出迷雾、信息差、个人局限性

一千零一夜

Posted on 2019-05-17 | Edited on 2019-05-27 | Comments: | Views:

汇总(2019-05-16至今):

1
2
3
训练累计:俯卧撑50个
阅读累计:《朋友圈的尖子生》
爱好累计:双截棍(掌握绕两指收棍、掌握螺旋式换手)

流水:

2019-05-26:
    俯卧撑:25
2019-05-24:
    俯卧撑:25
2019-05-23:
    俯卧撑:25
2019-05-21:
    俯卧撑:20
2019-05-21:
    俯卧撑:20
    双截棍:练习基本盘棍、换手、收棍
2019-05-20:
    俯卧撑:15
    《朋友圈的尖子生》:猫、痞子和李楠
    双截棍:练习基本盘棍、换手、收棍
2019-05-19:
    俯卧撑:15
    《朋友圈的尖子生》:冯鑫
    双截棍:绕两指收棍、螺旋式换手
2019-05-17:
    俯卧撑:10
    《朋友圈的尖子生》:叶梓颐、刘丹尼
    双截棍:初步掌握绕两指收棍
2019-05-16:
    俯卧撑:10
    《朋友圈的尖子生》:马占凯
    双截棍:了解绕两指收棍
    创业:注册公司(注册地、记账)

工作那些事(一)

Posted on 2019-04-28 | Edited on 2019-05-27 | Comments: | Views:

谦虚、耐心、积极推动

如果你不能保全他人的自尊,那你永远不可能赢得他的心。

起风了

Posted on 2019-04-26 | Comments: | Views:

Chenglin Zhang

6 posts
4 tags
© 2019 Chenglin Zhang