_

基本信息

姓名:欧智坚
院系:电子工程系
职称:副研究员
办公地址:清华大学罗姆楼6-104
办公电话:010-62796193
电子邮箱:ozj@tsinghua.edu.cn
教育经历

1998/9 – 2003/7 清华大学电子工程系,博士
1994/9 – 1998/7 上海交通大学,学士

研究方向

语音处理(语音识别与理解,说话人识别,自然语言处理);
机器智能(特别是概率图模型理论及应用)。

获得荣誉

2012年,清华大学第五届青年教师教学大赛一等奖。
2010年,清华大学优秀班(级)主任一等奖。
2005年,全国人机语音通信会议优秀论文。
2004年,特定内容音频识别系统(集成语音关键词识别、说话人识别、音频指纹)通过国家计算机网络与信息安全管理中心的评测。
2003年,赢得2003年度国家863语音识别评测-音节识别任务。
2002年,获清华大学电子系博士生学术论坛最佳论文奖。

代表性论文

1. Bin Wang, Zhijian Ou and Zhiqiang Tan. Trans-dimensional Random Fields for Language Modeling. Annual Meeting of the Association for Computational Linguistics (Long Paper), Beijing, China, 2015,7.
2. Zhijian Ou, Yang Zhang. Probabilistic Acoustic Tube: A Probabilistic Generative Model of Speech for Speech Analysis/Synthesis. International Conference on Artificial Intelligence and Statistics (AISTATS), La Palma, Spain, 2012,4.
3. Nan Ding, Zhijian Ou. Variational nonparametric Bayesian hidden Markov model. ICASSP, Dallas, USA, 2010,3.
4. Xianyu Zhao, Zhijian Ou. Closely Coupled Array Processing and Model-Based Compensation for Microphone Array Speech Recognition. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(3): 1114~1122.
5. Hui Lin, Zhijian Ou, Xi Xiao. Generalized Time-series Active Search with Kullback-Leibler Distance for Audio Fingerprinting. IEEE Signal Processing Letters, 2006, 13(8): 464~468.

承担项目情况

作为负责人先后承担了
NSFC“基于概率声管模型的单通道语音分离研究”(2015—2018);
NSFC“联合贝叶斯人声模型和自适应噪声补偿的稳健语音识别研究”(2011—2013);
NSFC “基于贝叶斯网络的语音识别精细结构声学建模的研究”(2005—2007);
863 “基于内容的高性能语音搜索技术探索研究”(2006—2008);
多个国家部委项目;
Intel、IBM、Panasonic、Toshiba国际合作项目等。

研究项目介绍

1. 概率声管模型:语音的基本物理模型——声管模型,告诉我们语音的三个基本物理参量——声管激励形式、激励能量和声道响应,及它们之间关系。但语音研究一直缺乏一个真正能体现声管模型的概率模型,来刻划语音随机性。我们提出并一直发展概率声管模型,相继发表于AI&STATS 2012(人工智能和统计学跨学科顶级会议)、ICASSP 2014(信号处理顶级会议)、WASPAA2015(音频和声学处理顶级会议),实现了对语音更为完整的概率建模,有望提升语音识别、声源分离、说话人识别等各种语音应用的性能。
2. 随机场语言模型:语言模型本质是语言符号的序列建模问题。序列建模的绝大多数做法是利用马氏性,建模成一个有向图模型。几乎没有使用无向图建模,又称为随机场建模,很大程度上是因为随机场序列建模存在模型学习上的难度。随机场序列建模的重要意义在于,它能兼具hebbian learning和anti-hebbian learning,以及无监督和有监督学习。结合随机近似理论和蒙特卡洛理论,我们对跨维随机场的模型学习,取得了突破,成果发表于Association of Computational Linguistics 2015(ACL长文)。该研究将随机场应用从定维情况拓展到跨维情形,为语言模型乃至一般的序列建模打开一条崭新的思路。
3. 类脑机器听觉研究:我们希望深入研究的类脑听觉计算体系是——贝叶斯心智/贝叶斯机和符合这种计算模型的神经形态电路/模拟计算架构。


• 2017年2月19日编辑

<< 返回首页