SeverChan_Nyedu
Crawl the infomation about competitons, when new infos comes, remind people on Wechat by ServerChan:
😍该程序通过爬取南邮教务处,将当前时间与最新时间进行匹配,如果是当日则通过ServerChan发送到本人的微信,提醒有新的竞赛.
完成笔记:
1.关于lxml
中etree.xpath()
对于tbody
的处理
该网页通过
table
对页面进行分布设置,其中table
标签会自动生成tbody
标签,如图…此时用xpath
进行匹配的时候就不需要将tbody
加上,否则匹配不到
布局<Table>
表格<table>
可以看到的是在Chrome调试助手里面,<table>
下面都是会自动生成<tbody>
标签的(一般tbody
是浏览器自动产生的,一般情况要去掉),而我们再通过网页源码看看…==>可以发现的是:
<table>
布局是没有<tbody>
的,只有表格才有,所以这也是为什么用xpath()表格里必须加上tbody
才能匹配,而table
布局中不能加tbody
的原因
1 | #布局获得内容 |
2.requests.get()
获得的response的编码问题
1 | html = requests.get('http://jwc.njupt.edu.cn/1594/list.htm',headers = headers) |
Github地址:Freedomisgood/SeverChan_Nyedu
Author: Mrli
Link: https://nymrli.top/2018/11/07/ServerChan-南邮教务处/
Copyright: All articles in this blog are licensed under CC BY-NC-SA 3.0 unless stating additionally.