html特征 提取,基于多特征的HTML网页内容提取的研究

news/2024/7/3 6:39:12

摘要:

网页内往往包含丰富而不同的内容,可以分为主题相关内容和主题不相关内容,识别出主题相关内容应用于网页检索,分类等,可以很大程度上节约空间以及提高这些应用的性能.此方面的研究已经有很多,也取得了很大的成果,其中研究较多和应用较广的是利用分块思想:首先将网页看作是由多个分离的聚集块组成,然后识别并取得需要的主题相关内容,即主题信息块.识别并提取网页主题相关内容的这一过程称为网页内容提取.网页内容提取对Web中的Hub型网页和主题型网页有不同的含义,对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接.本文的研究主要着眼于以下几个方面: 首先,本文研究介绍了网页的类型划分以及分析了几种较为有效的划分网页类型的算法,并在此基础上提出了一种改进的网页类型划分的方法.这种改进的算法分为两个阶段.首先利用VIPS算法将网页划分为一个个的信息块,然后分别判断每一块的类型,并根据这些信息块中是否存在一个满足要求的主题型信息块来判断网页的类型.实验结果表明该方法能准确的划分出网页的类型,正确率达到98.6%. 其次,本文总结了以往网页内容提取的各种方法,在此基础上,提出了一种新的网页内容提取算法,该算法在网页分块的基础上,分析每一块的特征,得到了主题信息块的多个特征.并利用概率论对这些特征进行量化,得到每个特征与信息块为主题内容的一个对应的概率关系,最后综合信息块的所有特征计算得到这个信息块是主题内容的总的概率,通过将这个概率与阈值的比较来判断信息块的性质.通过实验可以明显地看到新算法有效地提取了网页的主题内容,并优于其它同类算法. 最后,本文给出了两个具体的网页内容提取的应用:Hidden Web分类和Web检索.在Hidden Web分类中,通过应用本文提出的新的网页内容提取算法得到Hidden Web的文本描述信息,并将其作为一个分类影响因素,从而明显的提高了分类的效果.在Web检索中,本文用新的网页内容提取算法提取网页主题内容,对实验集建立索引,进行检索,并与同类方法进行比较,实验结果证明新方法很大程度的提高了检索的准确率,查全率等指标,而且明显优于同类算法. 由于网页分块的应用和推广,本文详细介绍了两种有效的网页分块方法,并在实验中进行了比较,本文提出的新算法依赖于网页分块的效果,因此进一步提高网页分块的准确性,合理性,以及分块后得到信息块的更多属性,都是提高算法性能的有效途径.

展开


http://www.niftyadmin.cn/n/3743482.html

相关文章

学习OpenGL ES之基本光照

获取示例代码 本文主要介绍如何使用Shader实现平行光的效果。什么是平行光呢?我们可以拿激光做比喻,平行光的方向不会随着离光源的距离而改变。所以我们在模拟平行光的时候仅仅需要使用一个光照方向即可。 我们有了光照方向,接下来还需要一个…

tensorflow笔记:流程,概念和简单代码注释

1.tensorflow的运行流程 tensorflow的运行流程主要有2步,分别是构造模型和训练。 在构造模型阶段,我们需要构建一个图(Graph)来描述我们的模型。所谓图,也可以理解为流程图,就是将数据的输入->中间处理->输出的过程表示出来…

计算机应用基础1000,计算机应用基础-在线作业_B 最终成绩1000.doc

计算机应用基础-在线作业_B 最终成绩1000计算机应用基础-在线作业_B最终成绩:100.0一 单项选择题1.______。计算机辅助教学(CAI)计算机支持协同工作视频会议系统娱乐和游戏本题分值: 5.0用户得分: 5.0用户解答: 计算机支持协同工作…

采用select2框架重置功能解决方案

2019独角兽企业重金招聘Python工程师标准>>> 前端采用select2框架后,好多select的方法都不起作用了 我的select2生成的源码如下 需求:每个jsp页面查询条件有多个select元素,点击重置(清空条件内容)select元…

计算机管理员用户被禁用,Windows 10 账户没有了管理员权限或唯一的管理员账户被禁用了,怎么办!...

技术级别 : 基本摘要由于某些原因,导致当前用户账户被设置为非管理员账户。或者在运行程序时提示要输入管理员密码,,但却没地方能够输入。这类情况下,需要进入安全模式重新设定用户账户权限。适用于: Windows 10详细信息第一步点击…

html怎么让input透明,html如何让input隐藏

隐藏方法:1、设置input标签 type属性的值为“hidden”;2、利用input标签的style属性,添加“display:none”样式;3、利用input标签的style属性,添加“visibility:hidden”样式。本教程操作环境:windows7系统…

MS复制学习笔记(新数据库)

MS复制 环境:master原来没有旧数据 1.master和slave都关闭防火墙#systemctl stop firewalld#setenforce 0 master Mysql 修改配置文件 #vim /etc/my.cnf[ ]log-binmylogserver-id1 创建账户 mysq> grant replication slave,reload,super on *.* to slave% identi…

我的未来作文计算机行业,我的未来职业畅想作文

我的未来职业畅想作文畅想是无拘无束地尽情想象。小编为大家搜集整理的我的未来职业畅想为题的作文,欢迎大家阅读与借鉴,希望能够给你带来帮助。我的未来职业畅想作文【1】梦想,是全国人民共同拥有的东西。黑暗中,一盏照亮前进的灯…