今天同学发来一道题,是关于信息检索方向的。仔细一问是他师兄参加搜狐网站的远程笔试题的一道大题。题目如下:

1. 背景:搜索引擎会根据用户搜索的关键字提供对应的广告,一般是通过统计学习实现(不限方法)。
2. 要求:附件中的文本文件已经分好类了,请从每个类别中随机挑选90%文件做为训练集,然后将剩余文件分类并输出分类的正确率。

附件里给的是许多文件夹。每个文件夹表示一个类别。文件夹里是编号的txt文件。文件里存的是一些文章或者段落、句子。

其实分类比较成熟的就是SVM了,所以看到题后的第一反应就是构造多类别的SVM分类器。思路大题如下:

1.构造词典。用现成的词典也行,不过我觉得还是用所有给定文本里的词构造比较好。因为有些词可能词典里没有,比如计算机专业词汇。另外就是自己构造的词典词的数目少,这样用SVM训练的时候特征向量的维数就少。

2.根据词典构造每个txt文件的特征向量。对应词典里的词。出现记为1,不出现记为0。当然如果能引入tf、idf就更好了。

3.根据构造出的特征向量和已知的类别标签,使用svm进行学习。这里从每个类别里均等选90%作为训练集。不要只从某些里选,否则训练出的模型泛化性不好。

4.利用学习得到的模型,对剩下的10%的样本作为测试集。然后根据结果给出准确率。

基本思路就这样。当然分类器可以选用别的,比如神经网络,Boosting等。另外没有实际操作,特征向量是不是需要降维视实际情而定。就这些了。

相关日志

One Response to “一道搜狐网站的笔试题——广告匹配问题”

  1. 嗯 用朴素的学习方法可以做做,再针对出现的具体问题,例如过拟合、特征描述能力差等,修改model或者评价函数

Leave a Reply

(required)

(required)

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Protected by WP Anti Spam
© 2009 - 2024 冰河的博客