普通会员
登录
题库
实习信息
校招公告
参访活动
题库
软件开发
题目列表
场景: 现有一个非常大的文本文件 page...
问答题
场景:
现有一个非常大的文本文件 page_views.log(远大于内存大小)存储在HDFS上,每行记录是一条网页访问日志,格式为:timestamp, user_id, page_id, action
需求:
统计每个页面的总访问次数(PV),并输出访问次数最高的Top 100页面。
要求:
任选一种大数据框架(如 Spark, Flink, MapReduce) 写出核心代码或伪代码。
简要解释你的实现步骤。
查看答案
上一题
[问答题] 表结构: users 表:user_id (用户ID), reg_date (注册日期) orders 表:order_id (订单ID), user_id (用户...
下一题
[单选题] 关于SSD(固态硬盘)中常见的优化技术和算法,说法错误的是()
纠错
题目信息
校招真题
-
正确率
0
评论
42
点击
收藏
已收藏
错题本
已加入错题本
我的笔记
登录添加笔记