欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    《数据采集技术(初级)》实验手册项目4:抽取网页数据.docx

    • 资源ID:1216698       资源大小:208.13KB        全文页数:8页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据采集技术(初级)》实验手册项目4:抽取网页数据.docx

    任务1使用XPath提取网页数据任务描述在数据采集过程中,需要熟悉网页的数据提取和拆分。本任务是使用GoOgIeChrome浏览器辅助构造XPath提取浪潮官网中轮播图下面的列表信息。使用XPath提取网页数据的思路如下:(1)打开浏览器,找到对应的网站地址。(2)使用“检查”的方式查看网页源码。(3)使用GoogleChrome浏览器实现XPath路径的保存。(4)构造截取信息的XPatho(5)编写代码,使用python中的Ixml截取所需信息。任务步骤第一步百度搜索浪潮大数据,打开浪潮官网。C https /Www inspurxQm Iva 存"U动Mr 400&0YTOe w mw>Mf 4ooaoo 曰考RamE 8oyo7<6S7重点产品第二步在网页上单击右键,在弹出的快捷菜单中选择“检查”命令,如图5-2所示。C A hnpt WWW CjOR第三步打开开发者工具,界面如下图所示。打开开发者工具后,使鼠标指针在开发者窗口中的HTML代码中移动,可以看到页面上不同的地方会高亮,说明当前鼠标指针指向的这个标签,就对应了网页中高亮的这一部分的代码。除了根据代码找网页位置,还可以根据网页位置找代码。第四步单击上图方框框住的按钮,并将鼠标指针在网页上移动,可以看到开发者工具窗口中的代码随之滚动。三崛J三lgifmo.13.9¼/通用里芬器人工智能服务器存储关做应用主机挎续创新,引翎T*QN及展,号汪于宫户骞米,以匠人精神力X户提供专业.优化,腐或的产品体产品畿SM从立机4卡到64卡群的不同人工«6计,平台.广泛JSi用于BAL浪网人工看晚赧务市)mn>m*u,o>n1<iM"1MM”25WI“WxdnX-ISO%.*当业、专注的自主切新理念,提供安全霆X.智畸I台的存他产品及解决方家,充捌工做企业或应用Ia云、大效据、«.充分网09业务原统陶霹茕动,A住舐,搔俊程性堤、可用.效率的IT费号.ScuEvMHtsNetworkTnrwraA*nfUwuc*Scw*tAWdQConaotoW,.Sgr.gk“23B4Rr"3¾3八八<W*4tr><tr>>lr-【:门”titu>U$vMHb则彳:6电良或ulfWPTbUIS人“加TE%多Ib优化gfll户&t»t«zv»Y-<t*<ttoy><tMl>“stl-'*tyl-MgKC""gt81"Hw0r<c<ilbeTk邙"R3k:.,:,.:_,:,一.-,UI!3*IlMMt.tyl«>4XZ8WClwlR'IWtTa)M.Sl(U>:2M;U<.。£丫,3,11,*1.,243.M,S,4p.(<style>-<styU>><T,-'rnn*Pr*r*f-O-第五步选定要提取的位置以后,开发者工具窗口的代码如卜.图所示。口出删关S应用主机承.审业、专注的自主IM淅现念,安全盛次、哲髭融台的存何产区及解决方案,充分海定传貌企业俄应阴粕云、大数Jt修充分副g三N翼埼IE5动.Afi皿L.E用、效率的ITj三3.91M*.tylIAidsWliiud.t«bXMCMrotfM:»E”G<4lv*<M*>41vCUss-POrtltt-1。“XWXTXgH447")XCt3l"09加"1"2卷”7497窗3小$«4.Olv<41vcl*ssportlet'io11B1O71M4M<M<2<2½MCO9*<m2i299<n470M5W)l<)e<*l)小y3/VCUifportU-Mdr>t>U>>0ilpXy:p;-dlv-16.5Z<i-<dC:1M).SW*(*Uat:l*t;wit*:27;acfift.right:11;Mjdwco*H<o*jw3E5l>力Sd*2OMa5W4d叱56、第六步在上面单击右键,选择“Copy”一“CopyXPath”命令,如下图所示。寻找一个可以输入文字的地方,把结果粘贴下来,可以看到如卜的XPath语句:/*Qid=nIl151f3a715d42088f88f2f2a5934cfa"ciiv2div1/table1这种写法是可以被IXml解析的。方括号中的数字,表示这是第几个该标签。例如/*(5)id=,11151f3a715d42088f88f2f2a5934cfa"div2,表示在id为“11151f3a715d42088f88f2f2a5934cfa”的标签下面的第2个标签。注意,这里的数字是从1开始的,这和编程语言中普遍的从0开始不一样。在开发者工具窗口中,每个标签的左边有个小箭头。通过单击小箭头可以展开或者关闭这个标签,通过这个小箭头,可以协助分析页面的HTML结构。请注意下图方框中的每一个VtabIe>标签。这些方框中的Vtabie标签就对应了每一条信息。通用服务器人工智能服务器存储持续创新,引领ITE础设向发展,专汪于客户需求,以匠人精神为客产都送滇就从单机4十到64卡一群 的不同人工智能计H平台,广泛应篥承”专业、专 念,提供安全谶GSoixcesElementsNetworlTunelineProfilesResourcesSecuntyAuditsConsole divclsportlefid-42dee>flet)71421594cl4M5fS5t>57o<e*×!uleldM6276f5<ft>424cc82e>4<e2br95-Zdlv*O divcl«s-portlet-idUS462clt><<4o4M185el4477¼-t>fewduleidlb9SMdlf2466e9749722e/41cSe4.div>-divclss-portlt-id-lllSH¼71Sd42MSfMU2S9Uc<oge三oduleidb<e29tll47d4MS94931<00)ec61t>S*divlignlHfcXss-'portlet-hed<rstyle-disply:oo<-/div、dlv>«ftyK>-<stylt)<<iv><v>vhtmbodydrvconUP*v*nndv11151f715088Sf259Md¾9<T*ctg*.jcpIr?Tymtboytrt4>mcp_Rm.t>tW3-S第七步定位目标,获取想要的HTML代码,代码如下所示,#coding:utf-8importrequestsimporturllib3fromIxmlimportetreeurllib3.disable_warnings()url=,https:/dom=etree.HTML(r.content.decode(utf-8n)block=dom.xpath(*0class=,inzd_tabl,)#打印提取到的结果t=etree.tostring(blockO,encoding=,utf-8,pretty_print=True)print(t.decode(',utf-8)说明:代码中第二行importrequests为引入Python的一个常用的第三方库,用于数据采集过程中的URL资源处理。在使用过程中需要先进行安装,安装命令为pipinstallrequests.效果如下图所示。KEbIAKI:C:UsersAdmnstratorDesktoptest.pySqueezedtext(5786lines).<tableclass-*inzd_tab1CeIISPaCinL"0"CelIPadding="0"border三*0>><tbody><tr>< tdclass»*incp_iBg*Xahref三*https:/www.inspur,colcjtww2315499/2315503/2316859/index,htmlwXimgsrc三*lcjtwwresource/cms/2019/06/img_pcsite/2019060517323853273.jpg*border="。"><a><td><tr><tr>< tdClaSS="incpjtittitle2tyfw*,><ahref三https:/www.inspur,com/lcjtww/2315499/2315503/2316859/index,html*onclick三j,recordLinkArticleHits(,2314784,)*target-*.blankvtitle="遹角服莠各“15乜七16'"6">通用服务器</><八(1><tr><tr>< tdclass-*incpsumtitle3tssum"持续创新,弓I领IT基箍设随发展,奇注于客户需求,以II人精神为您户提供专业、优化、高效的产品体蛉。<td><tr><tr>< tdClaSS="incpatsck*><aCIaSS="title4"href三https:/www.inspur,colcjtww/2315499/2315503/2316859/index.html>查看更多<a><td><tr><tbody><table>第八步构造IXmI,提取table里面的内容。代码如下,tl=block0.xpath(,tbodytrtdatext()',)#打印结果print(tl)效果如下图所示。»>三三=三三三三三三三三三三三RESTART:C:UsersAdministratorDesktoptest.py'通用“务器,查看更多,人工智能服务器,查看更多,存猛,查看更多健应用主机,查看更多,?近平总书记勉励浪朝再接再厉,维查看详情,Y技战“疫”,浪淳1为各行各业隹下.,查看详情,献礼70年奋进新时代】浪疑唱查看详情任务2使用正则表达式提取网页数据任务描述在爬虫的开发中,需要把有用的信息从一大段文本中提取出来。正则表达式是提取信息的方法之一。本任务是使用python正则表达式拆分浪潮官网的数据。使用python正则表达式半自动爬取拆分浪潮官网的数据思路如下:(1)打开编辑器,引入使用正则表达式所需要的包。(2)模拟浏览器请求,请求浪潮官网的数据。(3)使用巾ndall方法匹配所有的vh3标题。(4)使用正则表达式提取所有的链接。任务步骤第一步导入模块re模块:PythOn内置的正则表达式模块。requests模块:http请求模块。urllib.request:主要用到里面的headers模拟浏览器请求。importcsvimportre#导入python自带的http请求库urllib库的request请求模块importrequestsimporturllib.request第二步使用requests爬取整个网站,代码如下。#html存入了整个网页内容html=requests.get(,https:/html=html.text第三步使用正则表达式匹配网页标题(title)通过对源代码的观察我们发现,需要的网页标题title是放置在vMte>vtitle>之间的文本内容,那这个时候就需要用到正则表达式来匹配其中的内容了。,<title>(.*7)<title>>o代码如下°title_re=,<title>(.*?)<title>,第四步使用findall方法匹配所有的vh3>标题article_re=,<h3>.*<h3>,article_titles=re.findall(article_rezhtml)forart_titleinarticle_titles:print(art_title)输出效果如下图所示oI-o=RESTART:C:/UsersZAdininistrator/DesktopZzhengze.py=< h3><strong>三R*三eaao<sup>New<sup><strong><h3>< h3><aclass=*title2*href=*http:/*target=*blank*a-ee-a,ja0<a><h3>< h3><aclass=*title2whref三*lcjtw2317452/2367100/2367103/index,html*target="_blank"a三aj<a><h3>< h3><aclass=*title2whref=*< h3><aclass=*title2*href三*lcjtw2315499/2335775/2335819/index.html*target=*blank4,>ao三aja.a5<a><h3><h3><h3>< h3>aj三az<h3>< h3>三e>>.三>>-<h3>< h3>价¢2Eag<h3><h3>三-三a,三ai<h3><h3>h<("XH<h3>»>Iv1.n:4686Col:46j。第五步使用正则表达式提取所有的链接。url_re=,<ahref=n(.*?),>.*7<a>,article_url=re.findall(url_re,html)forart_urlinarticle_url:print(art_url)效果如下图所示。J,JJ,WW,FPJUJ/aaFKI,"SKJLJJ23_Jlcjtw2426043index.htmlwCIaSS="s_a/1CjtWW/247833"index.htmllcjtw24783312477733index.html"class=*s_ahttp:/218.57.146.157:8080/Web1800/Service/Index.aspx?GpId=&ClientType=iscompact&Version»&.id»8080205&bgColor»&ud»&SBTIDB0&TaxNumber»*target-*blank*ClaSS="sa/lcjtw/2315417/2316944/2327201/2327623/index.htmlA,class=*salcjtw231549923155032316859index,html*class=*s_alcjtw231549923155032315607index,html*class-*s_alcjtw2315499/2315503/2378047/index.html*class=*s_alcjtw/2315499/2450369/index.html"ClaSS="s_ahttps:/cloud,inspur,coj*target=",Iank"ClaSSH"s_ahttps:/clouderp.inspur,conarketindex,html/home*target=*-blank*class=*s_ahttps:/ww.inspur,com/eportal/ui?pageld=2317460*class=*s-alcjtw2435828index.html"class=*s_alcjtw2317452/2367100/2367103/index,html*class=*s_alcjtw/2312126/2432763/index,html“ClaSS="s_ahttp:/partner,inspur,cowtarget三*-blaxk*class三*s-ahttp:/scs.inspur,coj7v=20180903*CiaSS="s_aeportalui7pageld=2381142*ClaSS="s_alcjtw23149152374590index.html“class=*s_alcjtw/2412095/index.html*class=*s_a,title=*#:title=二title=*style=*border:noneimportant:http:/WW*target=*_blanklcjtw2427679index,html*style=*color:#fff;font-size:14px;tel:/400-860-6708tel:/400-018-7700tel:/400-607-6657tel:/400-691-1766http:/218.57.146.157:8080/web1800ServiceCheck800ID.aspx?ID-8080205*target-*.blankhttp:/218.57.146.157:8080/web1800ServiceCheck800ID.aspx7ID三8080200*target=*.blkhttp:/218.57.146.157:8080/web1800ServiceCheck800ID.aspx?ID=8080201*target=",blankhttp:/218.57.146.157:8080/web1800servicecheck800id.aspx7id三8080204fetarget三supPorterfeClientType=VebEjnbedded*target=*blanklcjtw/2315417/2316944/2327201/2327623/index.html"target三blank*ClaSSlSflailto:webmaster"class=*sf1»>

    注意事项

    本文(《数据采集技术(初级)》实验手册项目4:抽取网页数据.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开