Achievements
语音识别在嵌入式芯片上实现的主要矛盾是算法实现的性能精度与芯片功耗、速度之间的矛盾,一个性能较好的800条典型汉语普通话语音识别算法以纯粹软件嵌入方案实现通常需要200MIPS以上ARM(Advanced Risc Machine) MCU处理速度,因此我们提出语音识别集成电路IP与协处理器来克服以上的问题,通过关键运算的硬件化映射来大幅提高语音识别计算的功耗和处理速度。该设计可作为语音识别集成电路IP放入客户的SoC芯片中,也可作为协处理器放在片外。
关键性能指标如下:
l 工艺:苏州HJTC 0.18um 1P6M标准CMOS工艺
l 管芯面积:1.5mm x 2mm
l 逻辑规模:3万等效门(标准二输入与非门,不含SRAM)
l I/O数:52 封装: CQFP64
l 存储规模:片上集成1片单口SRAM,共4K×16比特
l 供电电压:核心部分->1.8V,IO部分->3.3V
l 正常工作频率:20MHz(最高工作频率100MHz)
l 功耗:80uW/MHz
l 速度:4us/帧(特征维数取27,时钟频率取20MHz)
芯片 |
功耗 |
1倍实时主频 |
价格 |
Samsung S3C2440 |
0.92mW/MHz |
200MHz |
$20 |
TI TMS320VC5502 |
0.96mW/MHz |
120MHz |
$30 |
Infineon UniSpeech |
1.3mW/MHz |
110MHz |
$15 |
MSAC Coprocessor |
0.08mW/MHz |
20MHz |
面积(3mm2) |
语音识别IP或协处理器基于对高斯混合模型计算的优化,适合于各种HMM模型的模式识别计算,在语音识别、说话人识别、说话人确认、语音合成等方面均可以广泛应用。
语音识别IP或协处理器以加速ASIC的模式工作,相同时钟主频下计算性能是TI C54x系列16bit DSP的5.5倍以上,对主系统计算性能提升可以达到4~8倍。
语音识别IP或协处理器对于性能要求型场合和功耗限制型场合都十分适合,芯片支持16bit并行总线接口,适合于各种32位/16位MCU系统,迅速为系统集成高性能语音处理能力。
(1)车载导航,GPS手机,支持大规模识别词表(例如万条以上的地名)支持模糊语音检索;
(2)中低端手机平台,支持语音拨号、语音控制,支持用户身份确认、声纹密码。
语音识别IP或协处理器芯片可应用拓展到个人移动信息终端的全市场空间,以GPS产品为例,细分的预装GPS、个人导航设备(Portable Navigation Device,PND),GPS手机三种产品,根据CCID(Consulting China Research Center)咨询公司预测2008年这三者分别约占到全球市场总量的15%、35%和50%。快速增长的GPS市场,对语音识别功能有着非常迫切而又实际的需求,GPS应用提出的超大规模词表、高混淆度和高环境复杂度这一系列语音识别的技术难题,也只能由语音识别芯片解决。语音识别加快了人机交互与地名等信息的检索,可提高驾驶期间操作GPS的行车安全性,同时可以反过来进一步促进GPS产品的销售增长。
语音识别技术通过芯片在性能得到大幅提升后,将摆脱传统的人名拨号功能,可用于菜单控制、地名、信息、多媒体内容的检索等等。而语音识别芯片使得低功耗和低成本的要求得以满足,有望成为手机人机交互界面(Man-Machine Interface,MMI)发展的新技术增长点,移动通信领域的市场潜力特别巨大。
投、融资或技术许可。