2022 Python 计算生态八月推荐榜 第54期

22年8月10日 · Python123 3222 人阅读
![]() |
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
在深度学习领域,训练数据对训练结果有种至关重要的影响,除了公开的数据集之外,对很多应用场景都需要专门的数据集做迁移学习或者端到端的训练,这种情况需要大量的训练数据,取得这些数据方法有以下几种:人工标注、自动标注、外包标注,人工标注的好处是标注结果比较可靠,自动标注一般都需要二次复核,避免程序错误,外包标注很多时候会面临数据泄密与流失风险。人工数据标注特别是图像数据标注常用的标注工具,从工具的软件属性上分类可以分为客户端与web端标注工具。
2022年08月,在深度学习领域中有这样一句话,“深度学习有多智能、背后就有多少人工”,毕竟模型的好坏数据占着很大的因素,好事者特别推荐10款优秀的Python计算生态,帮助您了解Python的数据标注工具。
labelImg
LabelImg 是一个图形图像标注工具,它是用 Python 编写的,并使用
Qt 作为其图形界面。
https://github.com/heartexlabs/labelImg
labelme
Labelme 是一个受http://labelme.csail.mit.edu启发的图形图像标注工具,它是用 Python 编写的,并使用
Qt 作为其图形界面。
https://github.com/wkentaro/labelme
label-studio
Label Studio 是一个开源数据标注工具。它允许您使用简单明了的 UI 标记音频、文本、图像、视频和时间序列等数据类型,并导出为各种模型格式。它可用于准备原始数据或改进现有训练数据以获得更准确的 ML 模型。
https://github.com/heartexlabs/label-studio
doccano
doccano 是一个供人类使用的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。因此,您可以为情感分析、命名实体识别、文本摘要等创建标记数据。只需创建一个项目,上传数据并开始注释。您可以在数小时内构建数据集。
https://github.com/doccano/doccano
CVAT
高效的计算机视觉标注工具,支持图像分类、对象检测框、图像语义分割、实例分割数据标注在线标注工具。支持图像与视频数据标注,最重要的是支持本地部署,无需担心数据外泄!
https://github.com/openvinotoolkit/cvat
VIA-VGG Image Annotator
VGG发布的图像标准工具,支持对象检测、图像语义分割与实例分割数据标注,基于WEB方式的标注工具,可以下载运行部署在本地,特别之处,对人脸数据标注提供了各种方便的操作,人脸数据标注首选工具。
http://www.robots.ox.ac.uk/~vgg/software/via/
brat
快速注释工具,满足您所有的文本注释需求。
https://github.com/nlplab/brat
PaddleVideo
很棒的基于 PaddlePaddle 的视频理解工具包。它支持视频数据标注
工具、轻量级RGB…
https://github.com/PaddlePaddle/PaddleVideo
YEDDA
轻量级协作文本跨度注释工具。
https://github.com/jiesutd/YEDDA
labelCloud
用于在点云中标记 3D 边界框的轻量级工具。
https://github.com/ch-sa/labelCloud
Python3Turtle