2021 Python 计算生态七月推荐榜

21年7月10日 · Python123 3156 人阅读
![]() |
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
数据科学中,数据验证即数据确认(data validation)是一个流程,确保数据清洗后的数据是健壮的、一致的,这种流程称为“确认规则”、“确认约束”、“检查流程”。主要包括对数据类别和数据类型的确认,如Excel数据表中的某列是由24个数字组成的序列号,不应该被Excel软件自动识别为数值,这会导致表示精度问题,或者和检查输入值在最小/最大的阈值之间,或与正则表达式定义的规格一致。
2021年7月,随着我们编写的项目越来越规范,验证数据的正确性就是一件很有必要的工作,好事者特别推荐10款优秀的Python计算生态,用于了解Python中用于数据验证的库。
pydantic
pydantic库是一种常用的用于数据接口schema定义与检查的库,通过pydantic库,我们可以更为规范地定义和使用数据接口,这对于大型项目的开发将会更为友好。
https://github.com/samuelcolvin/pydantic
jsonschema
Jsonschema 是 Python JSON Schema 的实现,特点是小而可扩展,以编程方式查询哪些属性或项目未通过验证。
https://github.com/Julian/jsonschema
Cerberus
Cerberus 是一个用于 Python 的轻量级且可扩展的数据验证库,Cerberus 提供开箱即用的类型检查和其他基本功能,其设计为非阻塞且易于扩展,允许进行自定义验证。
![]() |
https://github.com/pyeve/cerberus
schema
Schema 是一个用于验证 Python 数据结构的库,例如从配置文件、表单、外部服务或命令行解析获得的数据结构,从 JSON/YAML(或其他数据类型)转换为 Python 数据类型。
https://github.com/keleshev/schema
schematics
Schematics
是一个 Python 库,用于将类型组合成结构、验证它们并根据简单的描述转换数据的形状,内部结构类似于 ORM 类型系统,但 Schematics 中没有数据库层。
https://github.com/schematics/schematics
voluptuous
Voluptuous 尽管名称如此,但它是一个 Python 数据验证库,它主要用于验证以 JSON、YAML 等形式传入 Python 的数据。
https://github.com/alecthomas/voluptuous
pandera
一个轻量级、灵活且富有表现力的 Pandas 数据验证库。
https://github.com/pandera-dev/pandera
pydantic-sqlalchemy
将 SQLAlchemy 模型转换为 Pydantic 模型的工具。
https://github.com/tiangolo/pydantic-sqlalchemy
colander
Colander 可用作验证和反序列化通过 XML、JSON、HTML 表单发布或任何其他同样简单的数据序列化获得的数据的系统。
https://github.com/Pylons/colander
valideer
Valider
是一个用于 Python 的轻量级数据验证和适配库。
Python3Turtle