首页
编程日记
工业车载电脑
嵌入式硬件
规范
剪枝
hive
2024/9/12 17:16:06
hive on spark 合并小文件
最近在做用户画像相关的数据开发,在hive中做行转列的过程中,每个标签即tag在写入hive表时,有大量的小文件生成,通过增加参数解决了小文件过多的问题,但是在完成特殊要求--(因后续需要同步ck,ck也…
阅读更多...
Hive笔记
HIVE介绍 Hive是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询…
阅读更多...
Hive SQL 练习
1、统计每天首次登录的人数 -- 统计每天首次登录的人数 -- 步骤:先找出第一次登录的时间,再按首次登录时间分组求人数-- 方法1: select first_login_time, count(user_id) as cnt from (select user_id, date_formate(min(login_ts), yyyy-…
阅读更多...
Flume进阶
目录 第1关:拦截器的使用 第2关:自定义拦截器 第1关:拦截器的使用 代码文件: # Define source, channel, sink #agent名称为a1# Define source #source类型配置为avro,监听8888端口,后台会自动发送数据到该端口 #拦截后…
阅读更多...
flink读取hive写入http接口
目录 0、创建hive数据 1、pom.xml 2、flink代码 3、sink 4、提交任务jar 5、flink-conf.yaml 6、数据接收 flink-1.17.2jdk1.8hive-3.1.3hadoop3.3.6passwordhttp0、创建hive数据 /cluster/hive/bin/beeline !connect jdbc:hive2://ip:10000 create database demo; d…
阅读更多...
计算机毕业设计hadoop+spark+hive知识图谱bilibili视频数据分析可视化大屏 视频推荐系统 预测系统 实时计算 离线计算 数据仓库
研究意义 随着互联网的快速发展,人们面临着海量的视频内容,如何从这些繁杂的视频中找到自己感兴趣的内容成为一个重要的问题[1]。推荐系统作为一种解决信息过载问题的重要工具,能够根据用户的历史行为和偏好,预测用户可能感兴趣的…
阅读更多...
hive表基本语法
hive表基本语法 青少年是一个美好而又是一去不可再得的时期 是将来一切光明和幸福的开端 目录 hive表基本语法 1.ROW FORMAT用法 2.LOCATION用法 3.EXTERNAL用法 (外部表) 4.STORED AS 用法:设置数据存储格式 5.TBLPROPERTIES 用法 6.P…
阅读更多...
hadoop学习---Hive分桶表的机制及其查询优化方案
什么是分桶表? 分桶是将数据集分解成更容易管理的若干部分的一个技术,是比分区更为细粒度的数据范围划分。 主要是用于分文件的,在建表的时候,指定按照那些字段执行分桶操作,并可以设置需要分多少个桶,当插…
阅读更多...
头歌:SparkSQL简单使用
第1关:SparkSQL初识 任务描述 本关任务:编写一个sparksql基础程序。 相关知识 为了完成本关任务,你需要掌握:1. 什么是SparkSQL 2. 什么是SparkSession。 什么是SparkSQL Spark SQL是用来操作结构化和半结构化数据的接口。…
阅读更多...
【精】hadoop、HIVE大数据从0到1部署及应用实战
目录 基本概念 Hadoop生态 HIVE hdfs(hadoop成员) yarn(hadoop成员) MapReduce(hadoop成员) spark flink storm HBase kafka ES 实战 安装并配置hadoop 环境准备 准备虚拟机 安装ssh并设置免密登录 安装jdk 安装、配置并启动hadoop 添加hadoop环境变量&…
阅读更多...
SQL进阶技巧:每年在校人数统计 | 区间重叠问题
目录 0 问题分析 1 数据准备 2 问题分析 3 小结 区间重叠问题 0 问题分析 有一个录取学生人数表 in_school_stu,记录的是每年录取学生的人数及录取学生的学制,计算每年在校学生人数。 1 数据准备 create table in_school_stu as ( select stack(5,1,2001,2,1200,2,2000…
阅读更多...
hive分区表操作
往分区表中插入数据 insert overwrite table partition_table partition(pt_d20240114) select field1, field2, .... from another table;这种方式只会将20240114分区中的数据删除,然后往20240114分区中插入数据,其他分区的数据不会受到影响。 参考 …
阅读更多...
Hive整合MySQL
目录 Hive整合MySQL 安装MySQL 1)上传MySQL安装包以及MySQL驱动jar包 2)解压MySQL安装包 3)卸载系统自带的mariadb 4)安装MySQL依赖 5)安装mysql-client 6)安装mysql-server 7)启动MySQ…
阅读更多...
实验14 MVC
二、实验项目内容(实验题目) 编写代码,掌握MVC的用法。【参考课本 例1 】 三、源代码以及执行结果截图: example7_1.jsp: <% page contentType"text/html" %> <% page pageEncoding "ut…
阅读更多...
Hive 安装
目录 Hive 安装 Hive 安装地址 Hive 安装部署 安装 Hive 启动并使用 Hive Hive 安装 Hive 安装地址 1)Hive 官网地址 Apache Hivehttp://hive.apache.org/ 2)文档查看地址 GettingStarted - Apache Hive - Apache Software Foundationhttps://cwik…
阅读更多...
SQL进阶技巧:每年在校人数统计 | 区间重叠问题
目录 0 问题分析 1 数据准备 2 问题分析 3 小结 区间重叠问题 0 问题分析 有一个录取学生人数表 in_school_stu,记录的是每年录取学生的人数及录取学生的学制,计算每年在校学生人数。 1 数据准备 create table in_school_stu as ( select stack(5,1,2001,2,1200,2,2000…
阅读更多...