基於機器學習的網頁抽取

利用聚类的方法无监督学习在第一类算法中也起到重要作用。

很多算法利用聚类的方法，将网页的正文和非正文自动分为2类。

例如在《CETR - Content Extraction via Tag Ratios》算法中，网页被切分为多行文本，算法为每行文本计算2个特征，分别是下图中的横轴和纵轴，红色椭圆中的单元（行），大多数是网页正文，而绿色椭圆中包含的单元（行），大多数是非正文，使用k-means等聚类方法，就可以很好地将正文和非正文分为两类，然后再设计一些启发式算法，即可区分两类中哪一类是正文，哪一类是非正文。

基于机器学习的网页抽取

相关推荐