记录hive使用过程中用到的一些函数。
get_json_object
get_json_object
数据库中存放的json串,有时候需要对某个元素判断来查询结果,非常笨的一个方法就是直接把查询结果的字符串做模糊查询,即like '%str%',当一个json串非常长的时候,本来效率就很慢,况且是在hadoop海量数据里查找,其实我们并不需要那些其他的字符串,只是需要某个元素的值而已,这个时候就需要用到Hive的字符函数get_json_object()函数.
函数用法:
get_json_object(string json_string, string path)
具体看一个例子,数据库test定义如下:
id int 自增id
content string 内容
其中content是个json串,内容如下:
{
"status": {
"person": {
"name": false
}
}
}
查询一下看看结果:
select get_json_object(content,'$.status') from test limit 1;
OK
{"person":{"name":false}}
Time taken: 0.066 seconds, Fetched: 1 row(s)
select get_json_object(content,'$.status.person') from test limit 1;
OK
{"name":false}
Time taken: 0.081 seconds, Fetched: 1 row(s)
select get_json_object(content,'$.status.person.name') from test limit 1;
OK
false
Time taken: 0.077 seconds, Fetched: 1 row(s)
row number over
SELECT user_id, page_name, recent_click
FROM (
SELECT user_id,
page_name,
row_number() over (partition by session_id order by ts desc) as recent_click
from clicks_data
) T
WHERE recent_click = 1
