欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > PPT文档下载  

    第七章互联网应用技术概论.ppt

    • 资源ID:758908       资源大小:6.84MB        全文页数:59页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第七章互联网应用技术概论.ppt

    ,1,第七章 互联网应用技术概述,2,自我介绍,主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。北大软件学院兼职教师。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生20余名。计算机学会高级会员,ACM、IEEE、中文信息学会会员,中文信息学会信息检索专委会委员,中文信息学报编委。http:/办公电话:62601350,3,提纲,互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,4,提纲,互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,5,搜索引擎,搜索,推荐,推荐,6,更多的搜索引擎,7,Google Killer?,2009-05-18推出,2008-07-28推出,8,Email,搜索,分类,9,Email,分类,搜索,推荐,10,分类目录,搜索,分类,11,电子商务,推荐,12,BBS,推荐,搜索,13,社区网站-豆瓣网,推荐,推荐,搜索,14,社区网站-校内网,15,博客,推荐,16,以上应用的共同特征,基于内容的应用内容是互联网应用的生命线包括几个主要共同的技术搜索分类/聚类过滤/推荐,17,提纲,互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,18,搜索(Search),搜索:从大量文档(Document)集合(Collection)中根据用户的需求(User Information Need)返回相关(Relevant)文档集合并排序(Ranking)的应用。主要特点:用户的需求动态变化,文档集合相对静态事先下载,事先组织,在线搜索应用例子:搜索引擎站内搜索,19,搜索技术,信息的获取技术信息的组织和整理技术相关度计算和排序技术结果呈现技术相关反馈、查询扩展技术搜索的评估,20,搜索系统的组成框架,文档集合,管理器,索引,文档表示,查询处理,查找,排序,排序文档,用户反馈,文本处理,用户界面,结果文档,查询,文本,查询表示,爬虫,Internet,21,信息分类(Classification),信息分类:根据已有的类别体系(如:体育、经济、军事)和训练文档(每个类别对应若干文档),对一篇新的文档判断其所属类别。属于有监督的机器学习主要特点:类别体系静态,但是需要分类的文档动态变化事先训练,在线分类需要大量训练文档集合应用例子:垃圾邮件/网页分类,22,23,信息聚类(Clustering),聚类:从大量文档集合中自动聚团的过程,属于无监督的机器学习主要特点:事先无类别体系需要事后进行解释应用例子:检索结果聚类话题发现,24,25,文本分类系统的组成框架,文本表示,训练过程,分类过程,训练文本,统计,统计量,特征表示,学习,分类器,新文本,特征表示,类别,26,信息过滤,信息过滤:从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。主要特点:用户兴趣静态,数据动态对用户兴趣建模应用例子:广告推荐/商品推荐,27,信息过滤系统的组成框架,(d)学习器,用户,信息提供者,(b)过滤器,(a)数据分析器,(c)用户建模,更新,反馈,相关数据项,数据表示项,数据项,个人信息,用户模型,28,提纲,互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,29,考核方法,技术专题讨论(20%)学生分小组,选定一技术专题,共同读资料学习技术,并在课上交流。阅读(30%)阅读1篇论文SIGIR2008/2009,针对每篇文章写出至少阅读报告(含评论)评论要有自己的见解,不要简单翻译原文的摘要和结论评论主要着眼于文章的主要创新点和对自己启发最大的地方,以及可能的下一步研究工作课程项目(50%)2到3名同学一组完成可以演示的具有一定创新的课堂项目可从建议的项目列表中选项目,也可自己拟定项目(但需要与任课教师协商,取得任课教师的认可)。,30,论文阅读,ACM SIGIR Conference,31,课程项目,(一)、检索型:(1)垂直搜索:选择2个或以上的餐馆网站进行爬行(餐馆记录不少于5000条),实现基于关键词的餐馆搜索,爬虫能够及时更新。(2)论文搜索:下载全部SIGIR论文,实现对论文的标题、摘要及全文的搜索,并实现论文之间的关系链接图,分析作者的共现关系并以图的方式显示。(3)桌面搜索:能够实现本机PPT文件的抽取及搜索,不少于1000篇PPT文件。能够自动抽取PPT的标题、目录等信息。,32,课程项目(续),(二)、文本分类型:(1)文本分类:分类体系为:财经、科技、汽车、房产、体育、娱乐、其它类,利用网站的新闻主页,训练一个分类器(训练集合不能少于2000篇文档)。能够实现新的网页的分类。(2)文本倾向性分析:下载餐馆的评论信息进行训练,最后对餐馆的评论进行文本倾向性分析,分析对餐馆的评价(包括总评和细评,细评包括价格、味道、环境三个方面)是褒还是贬。(3)层次分类:Pascal Challenge on Large Scale Hierarchical Text Classification,http:/lshtc.iit.demokritos.gr/node/1。提交Short Paper。时间表:Start of testing:July 10,2009.End of testing,submission of executables:November 16,2009.End of scalability test and announcement of results:December 14,2009.Submission of short papers:December 21,2009.,33,课程项目(续),(三)、其他型:(1)、问答系统:实现奥运知识的问答系统。奥运知识不少于1万条语句或记录。(2)、歌曲检索:通过哼曲调的方法实现mp3歌曲的检索。mp3歌曲不少于200个。(3)广告搜索:搜集不少于1000个广告,实现对它们的搜索,搜索时不止是关键词匹配。(四)、自选型:学生可以自行设计和选择本课程相关的其他题目,但是需要经过任课老师同意。,34,为什么要开这门课?,互联网内容应用的核心技术是信息检索技术,35,市场发展的需求,用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、数字图书馆工程等都需要信息检索技术人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置?,36,几个应用需求,手机搜索产品搜索专利搜索广告推荐消费行为分析网络评论分析SEO营销,37,对相关专业研究生的基本要求,信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在信息检索将会成为一门计算机专业的基础学科搜索(狭义的信息检索)的三个层次(个人观点),38,应用层次:搜索是一项非常重要的应用!,39,中间层次:搜索是极其重要的API,40,www.G,41,介绍一本有趣的书!,42,核心层次:搜索是未来操作系统的重要组成部分!,43,相关研究人物和资源,44,国际著名研究机构和代表人物,美国康奈尔大学 Salton(1927-1995)现代信息检索的奠基人SMART的完成人第一任Salton奖得主,ACM Fellow英国剑桥大学 Sparck Jones(1935-2007)概率检索模型的提出者之一NLP和IR中的先辈曾获ACL终身成就奖和Salton奖,45,国际著名研究机构和代表人物,美国 UMass CIIR W.B.Croft,ACM Fellow基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具Salton奖得主英国Glasgow大学 Rijsbergen,ACM Fellow信息检索逻辑推理学派的提出者和倡导者现在试图用量子物理的方法解决IR问题Salton奖得主英国微软剑桥研究院、伦敦城市大学 Robertson概率检索模型的倡导者开发了OKAPISalton奖得主,46,47,48,国际著名研究机构和代表人物,美国CMU美国UIUC微软研究院IBM研究院Google研究院Yahoo研究院,49,一些活跃的华裔学者,加拿大蒙特利尔大学聂建云教授跨语言检索IR模型美国UIUC Chengxiang Zhai博士IR模型美国CMU Yiming Yang教授文本分类,50,一些活跃的华裔学者,台湾中研院 简立峰号称“中文搜索”第一人加入Google研究院,51,国内一些相关研究机构,北京大学复旦大学清华大学哈尔滨工业大学上海交通大学中科院计算所中科院软件所中科院自动化所,52,重要会议,国际会议(COLING2010、SIGIR2011将在北京举行):SIGIR、ACL、WWW、SIGKDD、WSDM、ICMLCIKM、EMNLP、COLINGTRECAIRS、ECIR国内会议:全国信息检索学术会议(1年一届,下半年今年11月在上海交大举行)全国计算语言学联合会议(2年一届)搜索引擎和WEB挖掘学术会议(1年一届,上半年),53,ACM SIGIR,ACM:美国计算机学会SIGIR:special interest group on information retrieval,特定兴趣组ACM SIGIR Conference:IR领域的最重要会议,起始于1971年,2009年是第31届。,54,IR及相关研究领域重要会议,ACM SIGIR,VLDB,PODS,ICDE,ASIS,Learning/Mining,NLP,Applications,Statistics,Software/systems,COLING,EMNLP,ANLP,HLT,NIPS,UAI,RECOMB,PSB,JCDL,Info.Science,Info Retrieval,ACM CIKM,Databases,ACM SIGMOD,ACL,ICML,AAAI,ACM SIGKDD,ISMB,WWW,SOSP,OSDI,TREC,55,重要期刊,国际:ACM Transactions on Information Systems(TOIS)ACM Transactions on Asian Language Information Processing(TALIP)Information Processing&Management(IP&M)Information Retrieval国内中文信息学报情报学报,56,重要工具,Lemur:包含各种IR模型的实验平台,C+SMART:向量空间模型工具,C编写Weka:分类工具,Java编写Lucene:开源检索工具,各种语言编写的版本Larbin:采集工具,C+Firtex:检索平台,C+,计算所开发,57,参考书籍及文献,Christopher D.Manning,Prabhakar Raghavan&Hinrich Schtze,Introduction to Information Retrieval,Cambridge University Press 2008 Electronic version(draft)can be downloaded from http:/www-csli.stanford.edu/hinrich/information-retrieval-book.html Baeza-Yates,R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press,1999(国内有机械工业出版社出版的影印版和中文翻译版)Witten,Ian et al.Managing Gigabytes.Orlando,FL:Morgan Kaufmann Publishers Incorporated,1999William Frakes&Ricardo Baeza-Yates,Information Retrieval Data Structures and Algorithms.PrenticeHall,1992Karen Sparck Jones&Peter Willet eds.Readings in Information Retrieval,Morgan Kaufmann,1997 李晓明,闫宏飞,王继民著,搜索引擎-原理、技术与系统,北京:科学出版社,2005李国辉等著,信息的组织与检索,科学出版社,2003年刘挺等著,信息检索系统导论,机械工业出版社,2008SIGIR/WWW/SIKDD/TREC/CIKM/Proceedings,58,Manning的书介绍,内容比较新例子多有关NLP和分类聚类的内容较丰富有相关最新算法的介绍有实现相关的内容,59,对不同专业学生的期望,计算机类:学完了以后知道原理,能够构建系统非计算机类:学完了以后知道原理,能够指挥构建系统,

    注意事项

    本文(第七章互联网应用技术概论.ppt)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开