2023 Python 计算生态二月推荐榜 第60期

23年2月10日 · Python123 2481 人阅读
![]() |
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
语音识别(speech recognition)技术,也被称为自动语音识别,其目标是以电脑自动将人类的语音内容转换为相应的文字。计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字,其识别方法是跟踪语音中的共振峰,该系统得到了98%的正确率。到1950年代末,伦敦学院的Denes已经将语法概率加入语音识别中。1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码,及动态时间规整技术。 语音识别技术的最重大突破是隐含马尔科夫模型的应用。卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。
2023年2月,随着OpenAi开源whisper自动语音识别 (ASR) 系统,好事者特别推荐10款优秀的Python计算生态,帮助您了解语音识别。
whisper
Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。
https://github.com/openai/whisper
SpeechRecognition
用于执行语音识别的库,支持多个在线和离线引擎和 API。
https://pypi.org/project/SpeechRecognition/
ASRT_SpeechRecognition
基于深度学习的中文语音识别系统。
https://github.com/nl8590687/ASRT_SpeechRecognition
Vosk
Vosk 是一个离线开源语音识别工具包。它支持 20 多种语言和方言的语音识别
- 英语、印度英语、德语、法语、西班牙语、葡萄牙语、中文、俄语、土耳其语、越南语、意大利语、荷兰语、加泰罗尼亚语、阿拉伯语、希腊语、波斯语、菲律宾语、乌克兰语、哈萨克语、瑞典语、日语、世界语、印地语、捷克语、波兰语。
https://github.com/alphacep/vosk-api
deepspeech.pytorch
使用 DeepSpeech2 的语音识别。
https://github.com/SeanNaren/deepspeech.pytorch
tensorflow-speech-recognition
使用tensorflow深度学习框架的语音识别,sequence-to-sequence神经网络。
https://github.com/pannous/tensorflow-speech-recognition
Automatic_Speech_Recognition
在 TensorFlow 中实现的端到端自动语音识别系统。
https://github.com/zzw922cn/Automatic_Speech_Recognition
whisperX
带有词级时间戳的自动语音识别。
https://github.com/m-bain/whisperX
espresso
一种快速的端到端神经语音识别工具包。
https://github.com/freewym/espresso
TensorFlowASR
集成了当前业界最新的语音识别结构,包括CTC、RNN-Transducer、Listen Attention and Spell。
https://github.com/TensorSpeech/TensorFlowASR
Python3Turtle