听说吴佳俊最近很火,去cvpr找了找,还真有他的文章,还真行,看了一下。
基于中层视觉特征的互联网图像检索
他用中层特征来表达图像,然后聚类automatically,
分章节:
1介绍
2.相关工作
3.2 显著性区域检测
将图像分为64X64或者192X192的区域,检测显著性区域(saliency),具体方法貌似没说(又看了一下,貌似是基于模板匹配?找了一堆关键词的模板图像,低端了吧?。。还是我没理解?)。取前5类显著区域窗口,合并作为显著性区域。每一个关键词算一类用一个颜色表示。
举了个beach的特例,beach包括范围太广,不能直接检测beach。每个图像构建a bag of patches including salient and non-salient。
3.3构想
基于简单的最大间隔思想,多类SVM。
结合关键词,直接把salient patches置1,non-salient置0。(关键还是求salient的方法啊?!)
完事儿直接聚类,未完待续,具体细节待看。。。
4实验,自然是nb的结果。