大数据技术应用职业技能竞赛理论复习资料.docx
《大数据技术应用职业技能竞赛理论复习资料.docx》由会员分享,可在线阅读,更多相关《大数据技术应用职业技能竞赛理论复习资料.docx(116页珍藏版)》请在课桌文档上搜索。
1、2022年深圳技能大赛一大数据技术应用职业技能竞赛理论复习资料注意本文提供的理论复习资料包含Python编程基础、PythOn数据分析、PythOll可视化、PythOll数据采集和Hadoop大数据基础等大部分相关知识。1PythOIl编程基础1、认识PythonPython是一种结合解释性、编译性、互动性和面向对象的高层次计算机程序语言,也是一种功能强大而完善的通用型语言,已经具有二十多年的发展历史,成熟且稳定。PythOn具有非常简洁而清晰的语法特点,因为它的设计指导思想是,对于一个特定的问题,应该用最好的方法来解决。Python具备垃圾回收功能,能够自动管理内存的使用,常被当作脚本语言
2、,用于处理系统管理任务和网络程序编写;同时支持命令式程序设计、面向对象程序设计、函数式编程、泛型编程多种编程范式,也非常适合完成各种高级任务。2、Python特性PythOn语言能广泛用于多种编程领域,无论对于初学者,还是对于在科学计算领域具备一定经验的工作者,它都极具吸引力。其关键特征包括简单、易学、免费、开源、广泛的标准库、互动模式、可移植、可扩展、可嵌入和具备数据库接口。3、输入与输出在Python语言中,实现数据输出的方式有两种:一种是使用Prim函数,其语法结构为Print(expressions);另一种是直接使用变量名来查看该变量的原始值。在PythOn语言中,可以通过input
3、函数从键盘输入数据,其语法结构为input(vprompt)。4、代码注释单行注释:以井号(#)开头,注释不会被机器编译。多行注释:在实际应用常会有多行注释的需求,同样也可以使用井号对多行代码进行注释,另一种简便方法是使用3个单引号或者是3个双引号将注释内容括起来。在使用引号进行多行注释时,需要保证前后使用的引号类型保持一致。5、多行语句多行语句可以有两种理解:一条语句多行;一行多条语句。一条语句多行的情况一般是语句太长,使用反斜杠()可以实现一条长语句的换行,也不会被机器识别成多条语句。但在口、()括号里面的多行语句在换行时是不需要使用反斜杠的。一行多条语句,通常在短语句中应用得比较广泛,使
4、用分号(;)可对多条短语句实现隔离。a= Apple Banana Orange, aApp1eBananaOrange,a=,Apple,Banana*,a=1:b=2;c=3,Orange*print(a,b,c)a123,Apple,,Banana*,,Oranget6、缩进Python最具有特色得就是以缩进得方式来标识代码块,不再需要使用大括号,代码看起来会更加简洁明朗。同一个代码块得语句必须保证相同得缩进空格数,否则将会出错,至于缩进得空格数,PythOn并没有硬性要求,只需保证空格数一致即可。7、命名标识符标识符在机器语言中是一个被允许作为名字得有效字符串。PythOn中的标识符主
5、要用在变量、函数、类、模块、对象等命名中。PythOn对标识符的规定如下。(1)标识符可以由字母、数字和下划线组成。(2)标识符不能以数字开头。以下划线开头的标识符具有特殊的意义,使用时需特别注意。以单下划线开头的标识符代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用“fromXXXimport*”导入。以双下划线开头的标识符代表类的私有成员。以双下划线开头和结尾的标识符是Python特殊方法专用的标识。(3)标识符字母区分大小写。(4)标识符禁止使用Python中的保留字。可使用iskeyword函数确认字符串是否为保留字,使用kwlist函数可以查看所有保留字。8、变量在Pyt
6、hOn中,变量不需要提前声明,创建时直接对其赋值即可,变量类型由赋给变量的值决定。创建一个变量时,在机器的内存中,系统会自动给该变量分配一块内容,用于存放变量值。当令变量y等于变量X时(y=x),其实是一种内存地址的传递,变量y获得的是存储变量X值的内存地址,所以当X变量改变时,变量y并不会发生改变。而且变量X的值改变时,系统会重新分配另一块内存空间存放新的变量值。9、变量值变量值是赋给变量的数据,Python中有6个标准的数据类型,分别是数字(Number)、字符串(String)、列表(List)、元组(Tuple)、字典(Dictionary)、集合(Set)o其中,列表、元组、字典、集
7、合属于复合数据类型。10、数值型数据PythOn3支持的数值型数据类型有int、float、bool,complex,int类型指整数数值,Python3中的整数类型int表示长整型;float类型指既有整数又有小数部分的数据类型;bool类型只有Tnle(真)和FalSe(假)两种取值,因为bool继承了ini类型,即在这两种类型中,Tnle可以等价于数值1,FaISe可以等价于数值0,并且可以直接使用bool值进行数学运算;COmPIeX类型由实数部分和虚数部分构成,PythOn中的结构类型,实数和虚数部分都是浮点数。在PythOn中可以实现数值型数据类型的转换,使用内置函数有int、fl
8、oat、boolcomplexo浮点数转成整数的过程中,只是简单地将小数部分剔除,保留整数部分,ini空的结果为0;布尔型转整数时,bool值True被转为整数1,FalSe被转为整数0;复数无法转成整型。11、字符型数据相对比数值型数据,字符型数据可以理解为一种文本,在语言领域的应用更加广泛,PythOn提供了几种方式去表达字符串,分别是使用单引号()、双引号()和三引号(“或者)。单引号标识字符串的方法是将字符串用单引号括起来,标准Python库允许字符串中包含字母、数字及各种符号。Python3的默认编号为UTF-8,意味着可以在字符串中任意使用中文。双引号在字符串中的使用于单引号的用法
9、完全相同,需要注意的是,单引号和双引号不能混用。三引号相比于单引号或双引号,自身有一个特殊的功能,它能够标识一个多行的字符串,如一段话的换行、缩进等格式都会原封不动地保留。三引号是格式化记录一段话的好帮手,但前后引号要保持一致,不能混用。12、字符转义反斜杠()不仅可以在字符串中担当特殊换行的角色,还可以是字符串的转义字符。单引号转义()是单引号只是纯粹的单引号,不具备其他作用,比较特殊的是,用双引号标识一个包含单引号的字符串时不需要转义符,但如果其中包含一个双引号,则需要转义()。另外,反斜杠可以用来转义它本身()。此外,Python中还可以通过给字符串加上一个前缀r或R来指定原始字符串,如
10、反斜杠开头的特征字符串(D:namepython),可用r指定原始字符串。13、字符串索引Python对于字符串的操作还是比较灵活的,包括字符提取、字符串切片、拼接等。字符串索引分为正索引和负索引,通常说的索引就是指正索引,在PythOn中,索引时从0开始的,也就是第一个字符的索引是0,第二个字符索引是I,以此类推。而负索引是从右到左去标记字符,然后加上一个负号,负索引的第一个值是-1,不是-0,如果负索引的第一个值是0,那么会导致。索引指向两个值,这种情况是不允许的。14、字符串基本操作字符提取PythOn中只需在变量后面使用方括号()将需要提取的字符索引括起来,就可以提取指定位置的字符。1
11、5、字符串基本操作一字符串切片通过截取字符串的片段,形成子字符串。字符串切片的方式如S代表字符串,i表示截取字符串的开始索引,j表结束索引。需要注意的是,在截取子字符串的适合将包含起始字符,但不包含结束字符,这是一个半开闭区间。Python在字符串切片的功能上有很好的默认值,省略第1个索引,默认为0;省略第2个索引默认为切片字符串的长度。注意,在Python中,字符串是不可以更改的,所以,如果给指定位置的字符重新赋值,则会报错。16、字符串基本操作一字符串拼接如果需修改其中的一小部分字符串,可以使用字符串拼接。字符拼接时,可以只有加号(+)将两个字符串拼接起来,使用星号(*)表示重复。另外,相
12、邻的两个字符串文本是会自动拼接在一起。运用这个思路则可对字符串部分字符进行修改。17、算术运算符算术运算符是对操作数进行运算的一系列特殊符号,能够满足一般的运算操作需求。运算符描述+相加两个对象-得到一个负数或是一个数减去另一个数*两数相乘或是返回一个被重复若干次的字符串/X除以y,做除法%取模,返回除法的余数累,返回X的y次方/取整除,返回商的整数部分18、比较运算符比较运算符一般用于数值的比较,也可以是字符的比较,当两个数值比较结果是正确时,返回TrUe,否则返回Falser在PythOn中,字符是符合ASCIl编码的,每个字符都有属于自己的编码,字符的比较本质是字符的ASCn编码的比较。
13、运算符描述=等于,比较对象是否相等I=不等于,比较两个对象是否不相等大于,返回X是否大于y=大于等于,返回X是否大于等于y=小于等于,返回X是否小于等于y19、赋值运算符赋值运算符用于对变量的赋值和更新,Python除了简单的赋值运算符外,还有一类特殊的赋值运算符,比如加法赋值运算符、减法赋值运算符等。除了简单的赋值运算符,其他都属于特殊赋值运算符。运算符描述=简单的赋值运算符+=加法赋值运算符,a+=b等效于a=a+b-=减法赋值运算符,a-=b等效于a=a-b=乘法赋值运算符,a*=b等效于a=a*b/=除法赋值运算符,a=b等效于a=ab%=取模赋值运算符,a%=b等效于a=a%b*=耗
14、赋值运算符,a*=b等效于a=a*b/=取整除赋值运算符,a=b等效于a=ab20、按位运算符通常,数字都是使用十进制,按位运算符会自动将输入的十进制数转化为二进制数,再进行相应的运算。运算符描述&按位与运算符:参与运算的两个值,如果相应位为1,则该位的结果为1,否则为0I按位或运算符:只有对应的两个二进位有一个为1,结果就为1按位异或运算符:当两对应的二进位相异时,结果为1按位取反运算符:对数据的每个二进制位取反,即把1变成0,把。变成1左移动运算符:运算数的各二进位全部左移若干位,由“”左边的运算数的各二进位全部右移若干位,“”右边的数指定移动的位数21、逻辑运算符运算符描述and布尔“与
15、,xandy,如果X为FaISe,返回FalSe;否则返回y的计算值or布尔“或“,xory,如果X为TrUe,它返回TrUe;否则返回y的计算值not布尔非,not(x),如果X为Ture,返回False;如果X为False,返回TrUe22、成员运算符成员运算符的作用时判断某指定值是否存在于某一序列中,包括字符串、列表或元组。运算符描述in如果在指定的序列中找到值,返回Tnle,否则返回FalSenotin如果在指定的序列中没有找到值,返回TrUe,否则返回FalSe23、身份运算符身份运算符用于比较两个对象的内存地址。运算符描述is用于判断两个标识符是不是引用自一个对象notis用于判断
16、两个标识符是不是引用自不同对象24、运算符优先级一个表达式往往不只包含一个运算符,当一个表达式存在多个运算符时,运算符会按照优先级运算,处于同一优先级的运算符则从左到右依次运算。运算符描述*指数,最高优先级一+按位翻转、一元加号和减号(最后两个的方法名为+和-)*/%/乘、除、取模和取整数+-加法减法右移、左移运算符&按位与运算符按位或运算符=比较运算符=!=等于运算符=%=/=/=-=+=*=*=赋值运算符isisnot身份运算符innotin成员运算符notorand逻辑运算符25、数据结构类型Python中数据结构是根据某种方式将数据元素组合起来形成的一个数据元素集合,其中包含序列(列表
17、和元组)、映射(字典)以及集合3种基本的数据结构类型。序列类型:序列是数据结构对象的有序排列,数据结构对象作为序列的元素都会被分配一个位置编号(也称为索引),序列就相当于数学中数列的概念。PythOn中的序列类型包括字符串、列表、元组、UniCode字符串、buffer对象、Xrange对象等数据结构,其中字符串、列表和元组最为常用。映射类型:映射类型就是存储了对象与对象之间的映射关系的数据结构类型,PythOn中唯一的映射类型数据结构是字典,字典中的每个元素都存在相应的名称(称为键)与之一一对应。字典相当于带有各自名称的元素组成的集合。与序列不同的是,字典中的元素没有排列顺序。集合类型:集合
18、当中的元素不能重复出现,即集合中的元素是相对唯一的,并且元素不存在排列顺序。由此可见,Python中的集合概念相当于数学中的集合概念。集合类型包括可变集合与不可变集合。26、可变数据类型通过可变数据类型,可以直接对数据结构对象的内容进行修改,即可以对数据结构对象进行元素的赋值修改、删除或增加等操作。由于可变数据类型对象能直接对自身进行修改,所以修改后的新结果仍与原对象引用同一个id地址值,即由始至终只对同一个对象进行了修改。Python中比较重要的可变数据类型包括列表、字典、可变集合等。27、不可变数据类型与可变数据类型不同,不可变数据类型不能对数据结构对象的内容进行修改操作,不可对对象中的元
19、素进行增加、删除和赋值修改。若需要对对象进行内容修改,则需对其变量名进行重新赋值,赋值操作会把变量名指向一个新对象,新旧对象两者引用两个不同的id地址值。常用的不可变数据类型包括数字、字符串、元组、不可变集合等。28、列表列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型,列表都可以进行的操作包括索引、切片、力口、乘、检查成员。常用的创建列表的方法有两种,一种是使用方括号()进行创建,另一种是使用IiSI函数进行创建。列表索引与字符串的索引一样,列表索引从0开始,第二个索引是1,依此类推。通过索引列表可以进行截取、组合等操作,具体的索引
20、格式为SeqUenceIameindex,具体的切片格式为SeqUenceIamesiart:end:siep,即序列对象起始元素:终止元素:步长值,注意切片操作的区间是左闭右开区间,因此不包含终止元素。使用列表方法叩Pend()、extend。和insert。可向列表对象中添加元素。append。方法可在列表尾部追加元素,该方法每次只能追加一个元素;extend。能够将另一个列表的元素添加至列表末尾,相当于两个列表进行拼接,也可以通过加号进行拼接;insert。能向列表中添加一个元素,不同的是,它可指定位置添加。使用delpop、remove语句可删除列表元素。在Python中,使用del语
21、句可以将列表中提取出来的元素删除;PoP语句是利用元素位置对元素进行删除操作;remove语句可以将指定元素进行删除,删除的元素是列表中第一次出现的元素。列表是可变的,修改元素最简单的方法是提取该元素并进行赋值操作。列表对+和*的操作符与字符串相似。十号用于组合列表,*号用于重复列表。Pytholl表达式结果描述len(l,2,3)3长度1,2,3+4,5,61,2,3,4,5,6组合Hi!*4Hi!,Hi!Hi!Hi!重复3in1,2,3True元素是否存在于列表中forXinI.2,3:print(x,end=)123迭代Python列表函数如下。函数描述Ien(Iist)列表元素个数ma
22、x(list)返回列表元素最大值min(list)返回列表元素最小值list(seq)将元组转换为列表Python列表方法如下。方法描述list.append(obj)在列表末尾添加新的对象list.count(obj)统计某个元素在列表中出现的次数list.exiend(seq)在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表)list.index(obj)从列表中找出某个值第一个匹配项的索引位置list.insert(index,Obj)将对象插入列表list.pop(index=-l)移除列表中的一个元素(默认最后一个元素),并且返回该元素的值list.remove(ob
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 应用 职业技能 竞赛 理论 复习资料
链接地址:https://www.desk33.com/p-156582.html