电子商务圈 >> 圈里圈外▼ >> 技术与安全 >> 亨者电子商务搜索引擎数据挖掘技术解析

标题:亨者电子商务搜索引擎数据挖掘技术解析

tangliangt 庶民
头衔 --
tangliangt 积分 97
威望 8
帖子 5
来自
亨者电子商务搜索引擎()http://www.hengzhe.com系统由智能搜索系统和智能信息采集系统两部分构成。

   智能搜索系统采用XML和Agent技术的WEB智能元搜索(metadata search)引擎系统。采用元搜索引擎的结构,以Agent作为架构系统的基本组件,利用Agent的自治性和协作性来完成用户个性化信息的搜索;利用XML和XSL分别在结构化信息表达方面,在信息显示、转换方面的优点,来实现元搜索引擎的扩展性以及基于XML和XSL在查询请求和搜索结果转换上实现XML的Agent通信。

特有的优势:

 ①提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都很高。

 ②智能检索(Intelligent Search) 智能检索的含义就是检索系统能够自动地分析检索结果,为用户提供最精准的信息。

 ③数据量大 实时更新 个性化和智能化

 ④进行词条切分时,先根据标点进行粗切分,然后再分别使用正向和逆向最大匹配法进行细切分。在进行词频统计时,考虑到自然语言的多样性,系统建立并使用相应的同义词典、相关词词典等辅助词典,以提高信息匹配的准确度。

 智能信息采集系统也叫智能网络蜘蛛(Spider),在基于WEB数据挖掘基础上采用大量训练样本,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,运用人工智能中的粒子群算法(PSO)和神经网络算法(GA)进行爬虫路径的优化以及数据挖掘中的分类、聚类和关联算法进行数据的多维分析,采用分布式体系结构提高系统性能:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度。
58.20.100.* 楼主
标题
使用表情识别
使用UBB代码
使用个人签名
现在回帖双倍积分!