04 RDD编程练习

一、filter,map,flatmap练习:

1.读文本文件生成RDD lines

 

 

2.将一行一行的文本分割成单词 words

 

 

3.全部转换为小写

 

 

4.去掉长度小于3的单词

 

 

5.去掉停用词

 

1.准备停用词文本:

lines = sc.textFile('file:///home/hadoop/stopwords.txt')
stop = lines.flatMap(lambda line : line.split()).collect()

 

 

 

 

 去除停用词:

words=lines.flatMap(lambda line:line.lower().split()).filter(lambda word : word not in stopword.txt)
words.collect()

 

 

 

 

二、groupByKey练习

6.练习一的生成单词键值对

 

 

7.对单词进行分组

 

 

8.查看分组结果

 

 

 

 

学生科目成绩文件练习:

0.数据文件上传

1.读大学计算机系的成绩数据集生成RDD

2.按学生汇总全部科目的成绩

3.按科目汇总学生的成绩

 

原文链接:https://www.cnblogs.com/kayss/p/14594851.html

兔子先生 西安驾培

于灯火阑珊处,于暗香离别时,未曾放弃

相关推荐

抖音矩阵平台有哪些?

  抖音矩阵平台是指一系列用于在抖音平台上进行内容创作、运营和推广的工具和系统。其中,视界引擎短视频运营获客系统作为一款全面的抖音矩阵平台,具有许多优势。 抖音矩阵平台是当今数字营销领域的热门工 ...

怎么看待直播带货的营销形式?

随着电商行业的崛起,越来越多的商家开始使用直播的方式来进行产品推广,那么直播为什么可以推广产品带货呢?直播带货的本质是什么呢?今天,就来跟大家讲解一下。直播之所以可以推广产品,引导观众购买产品是因 ...

快抖矩阵多账号管理系统官方正版

账号源从哪里来?没有那么多抖音账号?怎么赚钱?有什么价值?       首先这是一套多开可招代理的矩阵账号管理系统,第一目的是让你拿来给有很多账号的品牌机构或达人当账号辅助管理工具打理账户 ...