2020 Python 计算生态三月推荐榜
20年3月10日 · Python123 6630 人阅读
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
HTML英文全称Hypertext Marked Language,即超文本标记语言。HTML是由Web发明者Tim Berners-Lee和同事Daniel W. Connolly于1990年创立的一种标记语言。用HTML编写的超文本文档称为HTML文档,它能独立于各种操作系统平台,通过专用浏览器以网页形式展示需要表达的信息。
2020年3月,随着全国疫情发展,各大网站采用HTML更新实时数据,好事者有些手痒,尝试用爬虫获取页面并进一步处理,在此特别推荐10款优秀的Python计算生态,用于处理HTML和XML文件,帮助程序员们更高效的理解网络信息。
Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。
项目地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
html5lib
html5lib是用于解析HTML的纯Python库。它的设计符合WHATWG HTML规范,所有主要的Web浏览器均已实现。
项目地址:https://github.com/html5lib/html5lib-python
lxml
lxml是功能最丰富且易于使用的库,用于处理Python语言中的XML和HTML。
项目地址:https://lxml.de/
pyquery
pyquery允许您对xml文档进行jquery查询。该API尽可能类似于jquery。pyquery使用lxml进行快速的xml和html操作。
项目地址:https://github.com/gawel/pyquery
untangle
将XML转换为Python对象。
项目地址:https://github.com/stchris/untangle
WeasyPrint
WeasyPrint是一种智能解决方案,可帮助Web开发人员创建PDF文档。它将简单的HTML页面变成华丽的统计报告,发票,票据...
项目地址:https://pypi.org/project/WeasyPrint/
xmldataset
一个Python库,可简化从XML内容提取数据集的过程。
项目地址:https://xmldataset.readthedocs.io/en/latest/
xmltodict
xmltodict是一个Python模块,使用XML的感觉就像使用JSON一样。
项目地址:https://github.com/martinblech/xmltodict
cssutils
一个用于解析和构建CSS级联样式表的Python包。仅DOM,没有任何渲染功能!
项目地址:https://pypi.org/project/cssutils/
MarkupSafe
MarkupSafe实现了一个转义字符的文本对象,因此可以在HTML和XML中安全使用。具有特殊含义的字符将被替换,以便它们显示为实际字符。这减轻了注入攻击,这意味着可以在页面上安全地显示不受信任的用户输入。
Python3Turtle