您现在的位置是:亿华云 > IT科技
Hive 完美解析 Json 数组的函数
亿华云2025-10-03 22:18:48【IT科技】6人已围观
简介背景大数据的 ETL(Extract-Transfer-Load) 过程的 Transfer 阶段,需要对 json 串数据进行转换“拍平”处理。亲测!超好用 Hive 内置的 json 解析函数
大数据的完美 ETL(Extract-Transfer-Load) 过程的 Transfer 阶段,需要对 json 串数据进行转换“拍平”处理。解析
亲测!超好用 Hive 内置的数组数 json 解析函数 一文中详细介绍过 get_json_object 和 json_tuple 函数如何对 json 串进行有效解析,但美中不足的完美是这两个函数都无法解析 json 数组,只能解析单个 json 串。解析
这里将会介绍 Hive 中常用于 json 数组的数组数解析函数及详细使用方法。
json数组解析:需求1
数据准备例如:Hive中有一张 test_json 表,完美表中 json_data 字段的解析内容如下:
基于以上的 json_data 数据,现需要将以上 json 串数据解析为如下结构数据:
在进行解析之前,数组数先来了解下面两个函数的完美使用方法。
函数运用
1、解析explode函数
语法explode(Array|Map)
说明explode()函数接收一个 array 或者 map 类型的数组数数据作为输入,然后将 array 或 map 里面的完美元素按照每行的形式输出。
即将 Hive 一列中复杂的亿华云解析 array 或者 map 结构拆分成多行显示,也被称为列转行函数。数组数
举例array测试sql语句:
select explode(array(user_id,name,age));
执行结果:
map测试sql语句:
select explode(map(user_id,1,name,rocky,age,18));
执行结果:
2、regexp_replace函数
语法regexp_replace(str A, str B, str C)
说明语法含义:将字符串 A 中的符合正则表达式 B 的部分替换为 C。
注意:当字符串 A 中有一些特殊字符时,在正则表达式 B 中要使用转义字符。
举例sql语句:
select regexp_replace(hello world!, \\ |\\!, );
执行结果:
3、 具体函数运用
了解 explode 函数与 regexp_replace 函数的使用规则后,现在来完成上面数据准备中提出的解析需求。
第一步解析:json数组拆分成多行sql语句:
SELECT explode(split(
regexp_replace(
regexp_replace(
[
{ "user_id":"1","name":"小琳","age":16},
{ "user_id":"2","name":"小刘","age":18},
{ "user_id":"3","name":"小明","age":20}
],
\\[|\\] , ), 将json数组两边的中括号去掉
\\}\\,\\{ , \\}\\;\\{ ), 将json数组元素之间的逗号换成分号
\\;) 以分号作为分隔符(split函数以分号作为分隔)
);
执行结果:
sql语句:
select json_tuple(json, user_id, name, age)
from (select explode(split(
regexp_replace(
regexp_replace(
[
{ "user_id":"1","name":"小琳","age":16},
{ "user_id":"2","name":"小刘","age":18},
{ "user_id":"3","name":"小明","age":20}
],
\\[|\\] , ),
\\}\\,\\{ , \\}\\;\\{ ),
\\;)
)as json) tmp;
执行结果:
json数组解析:需求2
数据准备例如:
Hive中有一张 data_json 表,表中 goods_id 和 str_data 字段的内容如下:
基于以上的 goods_id 和 str_data 数据,现需要将以上 json 串数据解析为如下结构数据:
在进行解析之前,先来了解下面两个函数的使用方法。
函数运用
1、 lateral view函数
说明lateral view 用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,云南idc服务商在此基础上可以对拆分后的数据进行聚合。
lateral view 首先为原始表的每行调用 UDTF,UDTF 会把一行拆分成一行或者多行,lateral view 在把结果组合,产生一个支持别名表的虚拟表。
举例例如:Hive 中有一张 page_ads 表,表数据结构如下:
page_name 代表页面名称,ads_id 代表投放广告的所属 id,多个 id之间使用逗号分隔。
需求:统计所有广告 id 在所有页面中出现的次数。
第一步解析:拆分广告id拆分sql语句:
SELECT page_name, ads_id
FROM page_ads LATERAL VIEW explode(ads_id) adTable AS adid;
拆分结果:
聚合统计sql语句:
SELECT adid, count(1)
FROM page_ads LATERAL VIEW explode(ads_id) adTable AS adid
GROUP BY adid;
统计结果:
2、 具体函数运用
解析 data_json 表的sql语句如下:
select goods_id,get_json_object(sale_json,$.sold) as sold
from data_json
LATERAL VIEW explode(split(goods_id,,))goods as goods_id
LATERAL VIEW explode(split(
regexp_replace(
regexp_replace(json_str , \\[|\\],),\\}\\,\\{ ,\\}\\;\\{ ),\\;)) sales as sale_json;
注意:
上述语句是 3*3 笛卡尔积的结果,所以此方式适用于数据量不是很大的情况。
执行结果如下:
很赞哦!(14341)
相关文章
- 评估域名涉及的行业规模与发展状况成正比。
- HarmonyOS非侵入式事件分发设计
- Python中JSON结构数据的高效增删改操作
- Apple M1 上的 Linux 现可引导至 GNOME 桌面
- 记住那句话,域名向来不属于任何人,谁先买就归谁,购买期过后,域名又不再属于任何人。
- Nacos Client服务订阅之事件机制剖析
- 聊聊在 .Net 5.0 中自定义授权响应
- HarmonyOS列表组件-ListContainer
- 为了避免将来给我们的个人站长带来的麻烦,在选择域名后缀时,我们的站长最好省略不稳定的后缀域名,比如n,因为我们不知道策略什么时候会改变,更不用说我们将来是否还能控制这个域名了。因此,如果站长不是企业,或者有选择的话,如果不能选择域名的cn类,最好不要选择它。
- CSS 即将支持嵌套,SASS/LESS 等预处理器已无用武之地?
热门文章
站长推荐
当投资者经过第二阶段的认真学习之后又充满了信心,认为自己可以在市场上叱咤风云地大干一场了。但没想到“看花容易绣花难”,由于对理论知识不会灵活运用.从而失去灵活应变的本能,就经常会出现小赢大亏的局面,结果往往仍以失败告终。这使投资者很是困惑和痛苦,不知该如何办,甚至开始怀疑这个市场是不是不适合自己。在这种情况下,有的人选择了放弃,但有的意志坚定者则决定做最后的尝试。
快速学习Gulp并接入到项目中
双维度剖析Flink整体架构
如何阅读源码 —— 以 Vetur 为例
网站页面结构改版,仅是页面样式发生变化,不会对排名、收录有影响;只有涉及到页面URL改变,才会对网站排名、收录有影响。
使用Cypress需要避免的5个E2E测试错误
前端实战:从零到一实现H5拼图小游戏
Fn FnMut FnOnce 傻傻分不清