01垂直搜索引擎应用陈建平.docx
《01垂直搜索引擎应用陈建平.docx》由会员分享,可在线阅读,更多相关《01垂直搜索引擎应用陈建平.docx(31页珍藏版)》请在课桌文档上搜索。
1、试论垂直搜寻引擎在工商行政网监工作中的应用北京市工商行政管理局特殊交易监管处处长国家电子商务示范城市专家询问委员会成员陈建平二O一二年八月试论垂直搜寻引擎在工商行政网监工作中的应用不是万能与万万不能绪言:依据国家工商总局市场司的支配,我受北京市局领导的指派,在北京局近年来学习、探讨和实践的基础上,从应用前提、应用方式、应用发展和应用挑战四个角度,就垂直搜寻引擎在工商行政网监工作中的应用进行探讨和沟通。第一部分:我们原委需求什么?千里同行始于不同足下国家工商总局确定在全国建设工商行政网监垂直搜寻引擎以来,很多地方局的领导越来越关切这样一个问题:面对网络市场相关信息的超海量级、非均衡性、高改变率等
2、特殊属性,如何选择适合不同时期、不同地区网监工作须要的垂直搜寻引擎?这也是北京局多年来持续攻坚的课题之一。鉴于工商行政管理系统涉足垂直搜寻引擎领域的时间还不长,在本文的起先部分,实行专业性和通俗性相结合的原则,先虚拟性地描绘一个技术发展的参考坐标系以形成分析基础。此外,出于众所周知的缘由,本文未将国(境)外搜寻引擎列入分析范围。一、需求内容的选择只有节点、没有终点依据通常理解,垂直搜寻是指用户利用搜寻引擎获得互联网特定目标信息的详细行为或行为方式,垂直搜寻引擎则是支持特定用户大量、持续地获得互联网特定目标信息的专用搜寻引擎。由于不同用户对特定目标信息的类型、广度和深度存在不同的须要,相应地也会
3、对垂直搜寻引擎产生不同的需求。(一)垂直搜寻目标的选择范围从特定目标信息的搜寻广度分析,可将工商行政网监垂直搜寻引擎分为单一目标和组合目标两类。1 .单一目标垂直搜寻引擎:支持特定用户大量、持续地获得互联网某一类特定目标信息的专用搜寻引擎。从特定目标信息的搜寻深度分析,依据北京局的理解,可将适用于工商行政网监工作的单一目标垂直搜寻引擎分为三个亚类。(1)网上经营主体垂直搜寻引擎:支持特定用户大量、持续地发觉和确认经营主体开展网上经营活动的组织形式(独立网站、信息平台、交易平台、网店、其它)的专用搜寻引擎。(2)网上经营客体垂直搜寻引擎:支持特定用户大量、持续地获知与确认经营主体开展网上经营活动
4、的详细内容(商品和服务)的专用搜寻引擎。其中重点关注的是法律、法规禁止或限制生产、销售、供应的商品和服务。(3)网上经营行为垂直搜寻引擎:支持特定用户大量、持续地驾驭和确认经营主体网上经营行为方式的专用搜寻引擎。其中重点关注的是违反禁止性和限制性规定的行为方式。2 .组合目标垂直搜寻引擎:支持特定用户大量、持续地获得互联网某些类特定目标信息组合的专用搜寻引擎。从特定目标信息的搜寻维度分析,依据北京局的理解,可将适用于工商行政网监工作的组合目标垂直搜寻引擎分为“主体+客体”、“主体+行为”、“主体+客体+行为”三种组合。由于未知主体的客体和行为缺乏实际监管意义,本文未将“客体+行为的组合列入分析
5、范围。特殊说明:从特定目标信息的搜寻类型分析,还可将工商行政网监垂直搜寻引擎分为文字、图片、音频和视频等不同类别。鉴于图片、音频和视频的搜寻技术仍处于发展阶段,而且运行成本昂扬,短期内恐难大范围地应用于工商行政管理网监工作,因而本文以下内容均以中文文字搜寻为分析基础。(一)垂直搜寻引擎的研发难点垂直搜寻引擎被公认为互联网领域最困难的前沿技术之一。借鉴“更多、更快、更准的通用评价指标,北京局认知的主体垂直搜寻引擎研发难点:一是对于待搜寻目标表现形式及改变模式的认知程度,即能否高精确率地持续发觉有哪些不同形式的商务网站。二是搜寻结果与登记信息的自动匹配水平,即能否高精确率地自动识别它们是谁办的网站
6、。三是搜寻结果与监管辖区的自动匹配水平,即能否高精确率地自动区分它们是谁管的网站。北京局认知的客体垂直搜寻引擎研发难点:一是对于待搜寻目标靶向性的认知程度,即待搜寻目标是否为商事活动所指向的商品和服务。二是高覆盖率、高精确率搜寻结果(召回率与查准率)的可持续性技术实现水平,即搜寻结果能否是尽可能大且准的商品、服务集合,且其中包括违禁、违限的商品和服务子集。北京局认知的行为垂直搜寻引擎研发难点:一是对于待搜寻目标系统性的认知程度,即能否驾驭不同性质的网上违禁、违限经营行为困难多样的表现方式及其变异模式。二是高覆盖率、高精确率搜寻结果的可持续性技术实现水平,即搜寻结果能否与可知网上违法经营行为的类
7、型与量级相吻合。(三)垂直搜寻目标的选择参考北京局通过学习、探讨和实践相识到,无论对于领域专家团队还是对于技术专家团队而言,主体、客体、行为三类垂直搜寻引擎的研发难度均依次递增,且存在几何级数的难度差。如将将来一个周期的网监工作分为三个阶段,主体垂直搜寻意味着基础,因其待搜寻目标多属于结构化数据,且综合建设成本相对较低,通过“主体搜寻+人工网巡”也能开展监管工作,可将其作为第一阶段的建设重点;客体垂直搜寻意味着发展,因其待搜寻目标存在大量半结构化数据,且综合建设成本相对较高,可将其作为其次阶段的建设重点;行为垂直搜寻意味着跃迁,因其待搜寻目标多属于非结构化数据,且研发和建设成本会直线上升,可待
8、监管业务需求更加迫切、相关前沿技术更加稳定、领域专家团队更加成熟之时,将其作为第三阶段的建设重点。二、基础架构的选择只有选择、没有对错从垂直搜寻引擎技术基础与网监工作发展阶段之间的关联角度分析,依据北京局的理解,可将工商行政网监垂直搜寻引擎的基础架构分为试验级、雏形级、成型级和定型级。(一)试验级垂直搜寻引擎的基础架构目前国内尚无中文搜寻引擎规模的权威定义。从中文网页搜寻数量角度分析,国内大规模搜寻引擎一般达到百亿级,其中闻名的搜寻引擎(如百度、搜狗)已达到千亿级;国内中规模搜寻引擎(如人民搜寻)一般达到十亿级;国内小规模搜寻引擎(如部分企业和政府自建的搜寻引擎)一般在亿级或以下。元搜寻引擎是
9、通过统一的用户界面、帮助用户在多个搜寻引擎中选择和利用合适的(或多个)搜寻引擎以实现检索操作,属于对多种检索工具的全局限制机制。元搜寻引擎虽无网页搜寻机制,亦无独立的索引数据库,但在检索恳求提交、检索接口代理和检索结果排序方面都有独特的技术支持。试验级垂直搜寻引擎的基础架构:是基于中、小规模搜寻引擎或元搜寻引擎的定向数据挖掘。主要优势:技术门槛低,研发周期短,资金投入少。主要代价:承载实力弱、应用限制强、扩展空间小。假如不设定较高的工作标准,而且忽视通用搜寻引擎对元搜寻引擎运用者的限制因素,在地方局网监工作的初始阶段,这一级别的架构应能体现出较高的性价比。(二)雏形级垂直搜寻引擎的基础架构雏形
10、级垂直搜寻引擎的基础架构:是基于大规模通用搜寻引擎的、面对对象的数据挖掘。主要优势:一是借助大规模通用搜寻引擎的搜寻实力和数据资源,可显著提高搜寻结果的召回率和时新性。假如忽视部分交易平台对搜寻引擎的限制因素,它可使网监工作视野接近全网级水平。二是融合了领域专家的专业学问和面对对象的数据挖掘技术,可较好地满意特征相对稳定、规律相对清晰、样本相对充分的垂直搜寻需求,能够显著提高合法主体商务网站的查准率,以及初步解决非法主体商务网站和经营客体的垂直搜寻。三是承载实力较强,应用限制较小,扩展空间较大。主要代价:一是对领域专家需求探讨水平的依靠度较高。二是技术门槛较高,资金投入较多,研发周期较长。三是
11、受通用搜寻引擎网络爬虫抓取策略的限制,搜寻召回率的提升空间有限。四是难以有效解决违法经营行为的垂直搜寻。在地方局网监工作的初步成型阶段,这一级别的架构应能体现出较高的性价比。(三)成型级垂直搜寻引擎的基础架构成型级垂直搜寻引擎的基础架构:是基于大规模通用搜寻引擎的、“定向抓取+面对对象”的数据挖掘。在确定意义上可将其视为雏形级的升级版。主要优势:增加了针对专业需求的网页定向抓取功能,可突破通用搜寻引擎网络爬虫抓取策略的局限,进一步提高搜寻结果的召回率,以及非法主体搜寻和客体搜寻的查准率。假如忽视部分交易平台对搜寻引擎的限制因素,它可使网监工作视野初步达到全网级水平。主要代价:一是搜寻引擎的运营
12、成本明显增大,从而导致系统建设资金的增加。二是仍难以有效解决特征相对不稳定、规律相对不清晰、样本相对不充分(如网上违法经营行为)的垂直搜寻难题。在地方局网监工作的成型阶段,这一级别的架构应能体现出较高的性价比,只是目前在国内政府网监工作领域还缺少胜利范例。(四)定型级垂直搜寻引擎的基础架构定型级垂直搜寻引擎的基础架构:是基于大规模通用搜寻引擎的、“定向抓取+面对用户”的数据挖掘。主要优势:引入了“面对用户“这一正在快速发展的数据挖掘技术,可逐步解决网上违法经营行为的垂直搜寻难题。假如忽视部分交易平台对搜寻引擎的限制因素,它可使网监工作视野达到全网级水平。主要代价:一是因面对用户的数据挖掘技术尚
13、未成熟,简洁影响系统的稳定性。二是对领域专家团队的需求探讨水平依靠度很高。三是技术门槛、研发周期、资金投入和运行成本均高于其它级别。在地方局网监工作的定型阶段,这一级别的架构应能体现出较高的性价比,只是目前在国内政府网监工作领域尚未出现。小结:整体还是局部,这是一个问题。求同还是存异,这也是一个问题。渐进还是冷越,这还是一个问题。令人激昂的是,发展垂直搜寻引擎的千里之行,已正式始于全国工商行政管理系统领导和干部的足下。或许技术架构只有选择、没有对错,业务需求只有节点、没有终点。或许初期探究以借助公共为宜,目标选择以适合阶段为好,架构设计以预留空间为佳,技术突破以地方尝试为先,总体规划以全国统筹
14、为上。其次部分:它能帮助我们什么?定位是一项累人的差事网络市场的虚拟性和多变性极易造成“互联网迷雾”,对于管理部门因时、因地进行工作定位造成了较大困难,从而可能干脆影响网监工作的效能。垂直搜寻引擎或能帮助我们识得庐山面目、摆脱工作迷航。北京局目前运用的第一代商务网站垂直搜寻引擎始建于2006年,属于雏形级、单一目标垂直搜寻引擎,初步实现了北京合法主体独立商务网站的自动搜寻。受限于现有技术和监管实践的水平,对于垂直搜寻引擎在工商行政网监工作领域的应用,本文只能进行特别有限的分析。一、帮助我们有策略地开展行政执法没有比较就没有鉴别犹如于工商行政管理其他监管工作一样,“管什么?”、谁来管?”和“怎样
15、管?”也是网监工作的基础性问题。不同于工商行政管理其他监管工作的是,由于“互联网迷雾”的作用,网络市场的广域性与行政管理的地域性之间存在着广泛的冲突。垂直搜寻引擎或许能够帮助我们找寻解决之道。(一)帮助我们了解“管什么?”尽可能刚好、精确、全面地驾驭经营主体从事网上经营活动的组织形式,或许是实施工商行政网监工作的第一前提。对此,我们可能有五种解决途径。第一种途径:通过经营者自主公示以驾驭网上经营主体。这已是一条有规可依的途径,只是须要留意三个潜在的限制因素:一是如不建立统一的公示系统,信息归集将遇到较大困难;二是如建立统一的公示系统,可能受到行政许可法的约束;三是如不能校验公示主体的覆盖率,整
16、体市场掌控实力将受到限制。其次种途径:通过建立监管部门协作机制以驾驭网上经营主体。这的确是一条捷径,仍旧须要留意两个潜在的限制因素:一是在现行管理体制和政治文化范畴内,协作机制能否具备全局性和稳定性;二是在相关部门缺乏法定审查职能的状况下,能否保障获得信息的精确性和整体性。第三种途径:通过建立“政-企合作机制”以驾驭网上经营主体(如C2C交易平台)。这也是一条捷径,亦需留意两个潜在的限制因素:一是由于客观存在的角色冲突,获得信息的真实性、全面性和时效性能否得到保障;二是由于网络市场的多样化特征,此类合作机制的适用范围存在较大的局限性。第四种途径:通过建立垂直搜寻引擎驾驭网上经营主体。这确定不是
17、一条捷径,然而是一条工商行政管理机关自主、自强之路,当然也须要进行“成本一收益”分析。第五种途径:通过以上随意两种或全部途径的综合,以有效提高网上经营主体的驾驭程度。这明显是一条宽敞的道路,只是须要铺设在充分、坚实的基础之上。经过探讨和试验,北京局于2000年开拓了第一种途径,从2006年又增加了第四种途径。借助第一代商务网站垂直搜寻引2011年下半年,北京局其次代商务网站垂直搜寻引擎探讨取得了突破,可获知的北京独立商务网站有望超过30万个,从而使网监工作视野将得到进一步扩张。当然,驾驭网上经营主体只是解决“管什么?”的第一步。北京局将接着探讨客体和行为垂直搜寻引擎,努力获得网上违禁、违限客体
18、和行为的发觉实力,以逐步解决“管什么?”这一网监工作的基本问题。(二)帮助我们分清“谁来管?”明确网上经营主体的管辖原则,或许是实施工商行政网监工作的其次前提。依据国家工商总局网络商品交易及有关服务行为管理暂行方法的相关规定,且鉴于北京市已没有大型C2C网上交易平台,北京局将独立商务网站作为日常监管重点,将网店和黄页作为监管工作参考,实行了“以网站全部者属地管辖为主、以违法行为发生地管辖为辅”的管辖原贝限在全市层面,市局将获得的合法主体商务网站(含网店、黄页)及更新数据,通过全市统一的电子商务监控平台,依据网站全部者的地域属性自动安排给各分局。图2:全市网站管辖原则示意图itmft城城XMT*
19、亶|云庆Mr-c大八(JlmHy*H.0三D=三三三=三X具ItMItMItMItMES046s.a5“失沟一1172132%171$1.7.一大兴*w-y74S5“又UlJXJ7%fr1S796529.91%州S9J4Mdi2960126,!Ml1724r4254ad1912g%M4KWV。32,在区县层面,各分局依据本辖区的实际状况,或通过电子商务监控平台将辖区商务网站按地域自动安排给属地工商所,或确定由分局业务科集中管理。图3:分局网站管辖原则示意图(三)帮助我们摸索“怎样管?”找到行之有效的监管工作方法,或许是实施工商行政网监工作的第三前提。2006年末一2011年末,全市工商行政管理
20、系统通过“自动搜寻网站+人工网上巡查”的工作方式,共发觉违法工商法规的网上违法经营线索近40,000个,实施涉网行政指导(含单处责改)30,000多次,办结涉网案件6,000多起,罚没款超过1亿元人民币。北京局的探讨和实践初步说明,垂直搜寻引擎可为探究网监工作供应三个方面的支持。第一个方面:帮助我们探究网监日常工作方法一是帮助制定网巡制度。各分局和工商所获得垂直搜寻引擎供应的数据后,依据本辖区商务网站的总体数量、经营内容、更新速率和风险程度等因素,针对性地制定了本单位的网上巡查制度,包括职责分工、校验周期、巡查频次和巡查重点等相关内容,从而避开了全市管理制度“大而全”和一刀切”问题。二是帮助确
21、定监管重点。分局业务科及工商所对本地区风险度较高的网站进行重点监控,发觉并查处了一批或在现实世界难以发觉、或依传统方法难以突破的涉网大要案。2011年,在全市系统办结罚没款10万元以上的案件中,涉网案件超过了20%;在罚没款100万元以上的案件中,涉网案件达到了50%。案例一:非法从事房地产酒店式公寓经营案。FraserSuites:CBDBeijingWelcometoFraserSuitesBeijing没葩完善、坳理位要优越的北京客会IS国标公JS,:S住宿酒店之外的理授住屋也15August200:Uppmgtheswankfactorreadmxe.15August2008:鼾加恭马
22、我力北京肉眼海田舐公寓开辟readmore.苜页楼幽公向企业文化峰庚特色公司根况我系我们aSffSH/IATAftR报收mi的最新动态提交儿童曲CBD,BeijingFraswSUIteSBeijing住宿及待包机讯息及(8销设施与服务项目B成人数:BB入住日明:离店日用:最新讯息:特别促销:案例二:加盟连锁欺诈案咬H介熠公司BF日介邠电/:0l6-637lft8传X:606”1”88M三:9nc3Pn.co三自NC项目介的世用卫生场做研究寰明.全世界15%的人擀处于疾统被卷U75%的人群处于亚健康伏森.健康产业是一个迅遣崛起的领袋.尤其是中医足络养生.份调查表明30岁以上人群中约285%的人
23、40岁以上人群中.为412%9A.注重日常养生21%的入省试过足底按*.经络调理制即、Mt医调理方忒经珞是气血运行的通道蛭络由蛭脉和括脉组成足脉自12爵分利与Iff做伯诬.并与无数结肺相连.在人体内外形成了一张大咫结.上面分布360多个穴位.中国占代的利O.会&Mo足疗、“灸、推武技事和气功的调球基础期小脚苻的殛络.外W始络可以通口推奉,拧摩$+灸等手感来短诵,内在厩脚的好珞必须通仃复方的天区治窈茶本悔付来沼理.转络网通体表和内摩,能噩早反应人仲浜历的色瓢,经结通标,人则健.经培不场,百居丛生BNCttftt名存,触络、性器素、扑我弁、W.内外界效祟有伊妊格舞生.前JK尢曜.、哦R好插件中国弘
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 01 垂直 搜索引擎 应用 建平

链接地址:https://www.desk33.com/p-1442266.html