欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    Python爬取网站资料.docx

    • 资源ID:1418001       资源大小:30.78KB        全文页数:5页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    Python爬取网站资料.docx

    行业动态®1绿资产评估协会维权委员会专家提示201帽:1凉注册会计师协会专家委员会专家提示第6号W凉注册会计师协会专家委员会专家提示第9号®集注册会计师协会专家委员会专家提示201.®加注册会计师协会专家委员会专家提示201.北京注册会计师协会专家委员会专家提示第7号归北京注册会计师协会专家委员会专家提示201.幢北京注册会计师协会专家委员会专家提示201.悄北京注册会计师协会专业技术委员会专家提示北京注册会计师协会专家委员会专家提示第8号北京注册会计师协会专家委员会专家提示201.北京注册会计师协会专家委员会专家提示201.01原注册会计师协会专家委员会专家提示201区凉注册会计师协会专家委员会专家提示2。®j加注册会计师协会专家委员会专家提示201.®原注册会计师协会专家委员会专家提示201.北京注册会计师协会专业技术委员会专家提示显I北京注册会计师协会专烹蕃吊会专瘵提示幡W集注册会计师协会关于发布专家委员会专家.但1绿注册会计师协会专家委员会专家提示201幡1绿资产评估协会中小评盾机构技术援助专家隹1凉注册会计师协会专家委员会专家提示(20.®1集注册会计师协会专家委员会专家提示201.梢1集注册会计师协会专家委员会专家提示(20.SW凉资产评估协会中小评估机构技术援助专家西11绿注册会计师协会专家委员会专家提示201.僮1凉注册会计师协会专家委员会专家提示201槟1苏注册会计师协会专家委员会专家提示第4号西1凉注册会计师协会专家委员会专家提示201.1集注册会计师协会专家委员会专家提示第2号与1绿注册会计师协会专家委员会专家提示201.®1绿注册会计师协会专业技术委员会专家提示隹14注册会计师协会专家委员会专家提示201.隹1凉注册会计师协会专家委员会专家提示第3号®1凉注册会计师协会专家委员会专家提示201.油北京注册会计师饰会专友夺吊会专瘵摞示1201Python爬取网站资料爬取数据来源:http:/www.bicpa.org.en/dtzj/zxgg/B15435553852066.html第箱登录IOA登录北京资产评估协会BijingAppraiMlSocwty<,北京注册会计师协会G、工B<ijicgInstituteofCnifidPublicAccountants服务监督管理协调首页协会介S深改委会员服务考试培训执业监管媒体关注30周年专栏T晾地E会WW务所202碑出J1.t市公司202弄度审计2024-03-117晾中企华资产iH5fllWHI公司.,蹿天他兴业资产怦估2024-03-04T绰资产评估协会与资产处监IKtS开2024年第T度费2024-02-29T6注册会i懵物会人才工作委员会召开202侔第一次全2024-02-27T晾地区会Hg务所202好出|上市公司202弄度审计2024-02-21文件开始插入设计布局引用由附亩间视图帮助特色功能Q告诉我"共享I北京注册会计师协会专业技术委员会专家提示2020第2号一采川远程审计方式的特别考虑2020-02-1216:53:53http:/WaVdtzjzxggB15814976145963.htnl为有效应对新型冠状病毒肺炎疫情带来的不利影响,做好2019年年报审计工作,克服部分现场审计程序无法按准则规定和慎定审计计划实施等困难,部分会计师事务所结合工作实际,力争既有效防控凌情,又枳极配合客户和监管部门的要求执行2019年年报由计工作,紧急制定了远程亩计工作相关措施。鉴于目前在亩计准则及指南中均没有就远程亩计工作方式提供相关规定和行业执业意见,并且绝大部分会计师事务所穗乏大规模实施远程亩计工作的经短,因此,在实施远程由计工作的过程中,可能存在因管控措施不当导致亩计风险提升的情形。本提示仅供事务所及相关从业人员在执业时参考,不能普代相关法律法规、注册会计师执业准则以及注册会计师职业判断。提示中所涉及亩计程序的时间、范围和程度等,事务所及相关从业人员在执业中需结合项目实际情况、风睑导向原则以及注册会计师的职业判断确定,不能直接照搬照抄。为积极推进2019年年报宙计工作,防范远程亩计工作相关风险,北京注协财务报表亩计和非鉴证业务服务专业技术委员会针对疫情防控期间远程亩计工作提出如下执业建议:一、对远程宙计工作方式的定义和条件的理解远程审计,是指注册会计师受特殊情况和不可抗力(例如突发公共卫生等全国性或区域性壬*八±t市仕、鼠gT注坤照叩辛舌讣4+川林源击;4的tt±三E;+IA格5比兰幽寻格丽第1页,共7页6634个字CB英语(美国)雷昌同代码说明:Print("开始爬取文章.”)importrequestsimportosimportjsonheader='User-Agent':'Mozilla5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/68.0.3440.75Safari537.36,fonn_data=,-q,:,Article.list,siteld,:,7e0b3b27-2622-4aa7-b6f8-abfe5c5df922,catalogld,:,34f92da3-d6d0-4e96-899f-d7f58lc18162;,pub,:,true,limit':5000,start':1#这是异步加载,请求方法是POSTurl="http:WWWarticle-data=res.text.split(nsuccess:true,datas:H)l#去掉字符串前面的无用信息success:true,datas:“article_data=article-data.split(11,total:")0#去掉字符串后面的无用信息,totak4946,obj=json.loads(article-data)#获取标题含有“委员会专家提示”的文章的标题,发布时间和链接path=r"httpz11articles=forinfoinobj:if"委员会专家提示"ininfo,title,:article=“标题”:infol,title,.strip(),#StriP()去除首尾空格”发布时间":info,publishDate,”链接”:path+info'ur+infol,primaryKey,+,.htmlu)articles.append(cirticle)#获取想要的文章并批量写入word文件importrequestsfrombs4importBeautifulSoupimportdocxfromdocx.sharedimportPt#用于设定字体大小(磅值)fromdocx.oxml.nsimportqn#用于应用中文字体importrandomimporttimedefGet_article_to_word(url,date):user_agent_list=,Mozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/68.0.3440.106Safari537.36u,nMozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/67.0.3396.99Safari537.36n,nMozilla5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/64.0.3282.186Safari537.36u,nMozilla5.0(XI1;1.inuxx86_64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/62.0.3202.62Safari537.3611,nMozilla5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTM1.,likeGecko)Chrome/45.0.2454.101Safari537.36n,nMozilla4.0(compatible;MSIE7.0;WindowsNT6.0)”,nMozilla5.0(Macintosh;U;PPCMacOSX10.5;en-US;rv:1.9.2.15)Gecko/20110303Firefox/3.6.15"header='User-Agent':user_agent_list)header'User-Agent'=random.choice(user_agent_list)#每篇文章随机选择浏览器,避免单个浏览器请求太快被服务器切曲连接wb_data=requests.get(url,headers=header)soup=BeautifulSoupCwb_data.content)title=SoUP.select('.headword')0.text.strip。#获得标题contentl=soup.select(11.MsoNormaln)#针对正文布局为class=uMsoNormalncontent2=soup.select("#art_content")#针对正文布局为id=nart_contentndoc=docx.Document()#新建空白Word文档# 设定全局字体doc.styles'Norma门.font.name=u'宋体'doc.styles,Norma.-element.rPr.rFonts.set(qn('weastAsia,),Ir宋体)# 写入标题行,并设置字体格式p=doc.add-paragraph()r=p.add_run(title)r.bold=Truer.font.size=Pt(18)doc.add_paragraph(date)#写入日期doc.add_paragraph(url)#写入文章链接dirs=os.getcwd()+”文章"ifnotos.path.exists(dirs):os.makedirs(dirs)# 写入正文foriincontent2:doc.add_paragraph(i.text)foriincontent1:doc.add_paragraph(i.text)doc.save(f,dirstitle.docx")#遍历所有文章的链接,调用以上函数执行forartinarticles:GejartiCIJto_word(art"链接",art”发布时间”)print(11下载完成。".format(art标题1)ifarticles.index(art)%30=29:#每获取30篇文章,暂停5秒,避免频繁请求被服务器切断连接time.sleep(5)Print(f,共下载len(articles)篇文章。”)Print("程序运行完成,关闭窗口退出.”)input()代码解释说明:这段代码是一个Python脚本,用于爬取指定网站上的文章并保存为Word文档。它包括以下主要步骤:1 .使用requests库向指定的UR1.发送POST请求,获取文章数据。2 .对获取到的JSc)N格式数据进行处理,提取标题含有“委员会专家提示”的文章的标题、发布时间和链接。3 .使用BeaUtifUISouP库解析每篇文章的内容,并将内容写入WOrd文档。4 .程序通过循环遍历文章列表,依次爬取每篇文章并保存为WOrd文档。5 .在下载完30篇文章后,程序暂停5秒,以避免频繁请求被服务器切断连接。这段代码首先发送POST请求获取文章数据,然后解析JSON格式数据提取指定标题的文章信息。接着使用BeaUtifUlSOUP解析每篇文章的内容,并将内容写入WOrd文档。程序通过循环遍历文章列表,逐篇爬取文章并保存为WOrd文件,同时在下载完30篇文章后暂停5秒以防止频繁请求被服务器中断连接。在实际运行过程中,可能会遇到网站反爬虫机制导致请求被拦截的问题。为了解决这个问题,我采取以下方法:1 .添加随机USer-Agent:在请求头中使用随机生成的USer-Agent,模拟不同浏览器的请求,降低被识别为爬虫的概率。2 .设置请求频率:控制请求的频率,避免短时间内发送过多请求,可以通过设置请求间隔时间来规避被服务器屏蔽的风险。3 .使用代理IP:切换代理IP地址,以改变请求的来源IP,降低被封锁的可能性。4 .处理验证码:如果网站出现验证码验证,可考虑使用第三方工具或手动处理验证码,确保程序能够正常继续执行。5 .分布式爬虫:考虑使用分布式爬虫架构,将请求分散到多个节点上,降低单一IP被封禁的风险。

    注意事项

    本文(Python爬取网站资料.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开