咳咳-严肃点-讨论学术呢-色情视频的音频辅助识别

这是北京邮电大学(北邮)一位学生的硕士毕业论文,专业是信号与信息处理。完成时间是2010年2月。

下载地址在此  文件是知网格式,需要CAJview。

众所周知,硕士论文是很长很长的,所以我们就稍微研究下喜闻乐见的内容吧,其余的如果感兴趣的话下载研究。

摘要:

首先,从视频文件中提取出音频信息并转化为WMV格式(16bit,22kHz,单声道)的待测音频。待测音频通过汉明窗加窗处理后被分成0.02秒的短时音频处理帧。接下来对每个短时音频处理帧中提取出26维MFCC系数、1维过零率、1维短时能量、4维子带能量和4维子带能量比等特征,形成36维的特征向量。在色情音频识别过程中,首先利用短时能量将音频处理帧分静音帧和非静音帧,再利用GMM模型将非静音帧进一步分成音乐、语音、音乐语音混合声和环境声四类。最后再利用HMM模型从剩余的语音和音乐语音混合帧中识别出可能包含色情的音频帧。整个算法在VC6.0平台下实现。测试结果表明,整个系统可以有效工作,起到了良好的辅助识别作用

关键词 高斯模型 隐马尔可夫模型

 

下面是一大堆理论和时间过程,下面这个是采样的来源…

我们直接来看结果.

好了…从识别结果来看效果不是很理想,集合内只有50%的识别率,集合外更是只有34%..不过总比没有强..

Mmd说说自己的看法,首先采样来源太窄了,现在广大宅男们哪有看国产片的,绝大多数都是岛国片么,采样里么有岛国片怎么行,建议以后相同方向的作者多多卧底各大色情网站…广泛采集素材..

然后是样本处理,我认为对于色情音频这种特殊的音频(人声少,重复率大),不应该也没必要剔除所有无声片段,首先通过滤波过滤出人声波段,然后调查高低音出现频率和间隔即可,毕竟作为一种动物,我们的叫声还是很有规律可循的。

下面是处理软件,Vc并不是最佳选项。数学软件应该有更好的表现。

当然,对于算法我并不在行,扔出这篇文章来一部分是娱乐,另一部分也是抛砖引玉,

好了,大家有什么要讨论的呢?

本文遵守署名-非营利性使用-相同方式共享协议,转载请保留本段:冰丝带雨 » 咳咳-严肃点-讨论学术呢-色情视频的音频辅助识别

赞 (0)