DBT Doris Adapter
DBT(Data Build Tool) 是专注于做 ELT(提取、加载、转换)中的 T(Transform)—— “转换数据”环节的组件
dbt-doris
adapter 是基于dbt-core
1.5.0 开发,依赖于mysql-connector-python
驱动对 doris 进行数据转换。
代码仓库:https://github.com/apache/doris/tree/master/extension/dbt-doris
版本支持
doris | python | dbt-core |
---|---|---|
>=1.2.5 | >=3.8,<=3.10 | >=1.5.0 |
dbt-doris adapter 使用
dbt-doris adapter 安装
使用 pip 安装:
pip install dbt-doris
安装行为会默认安装所有 dbt 运行的依赖,可以使用如下命令查看验证:
dbt --version
如果系统未识别 dbt 这个命令,可以创建一条软连接:
ln -s /usr/local/python3/bin/dbt /usr/bin/dbt
dbt-doris adapter 初始化
dbt init
会出现询问式命令行,输入相应配置如下即可初始化一个 dbt 项目:
名称 | 默认值 | 含义 |
---|---|---|
project | 项目名 | |
database | 输入对应编号选择适配器 | |
host | doris 的 host | |
port | 9030 | doris 的 MySQL Protocol Port |
schema | 在 dbt-doris 中,等同于 database,库名 | |
username | doris 的 username | |
password | doris 的 password | |
threads | 1 | dbt-doris 中并行度(设置与集群能力不匹配的并行度会增加 dbt 运行失败风险) |
dbt-doris adapter 运行
相关 dbt 运行文档,可参考此处。 进入到刚刚创建的项目目录下面,执行默认的 dbt 模型:
dbt run
可以看到运行了两个 model:my_first_dbt_model 和 my_second_dbt_model
他们分别是物化表 table 和视图 view。
可以登陆 doris,查看 my_first_dbt_model 和 my_second_dbt_model 的数据结果及建表语句。
dbt-doris adapter 物化方式
dbt-doris 的 物化方式(Materialization)支持以下三种:
-
view
-
table
-
incremental
View
使用view
作为物化模式,在 Models 每次运行时都会通过 create view as 语句重新构建为视图。(默认情况下,dbt 的物化方式为 view)
优点:没有存储额外的数据,源数据之上的视图将始终包含最新的记录。
缺点:执行较大转换或嵌套在其他view之上的view查询速度很慢。
建议:通常从模型的视图开始,只有当存在性能问题时才更改为另一个物化方式。view最适合不进行重大转换的模型,例如重命名,列变更。
配置项:
models:
<resource-path>:
+materialized: view
或者在 model 文件里面写
{{ config(materialized = "view") }}
Table
使用 table
物化模式时,您的模型在每次运行时都会通过 create table as select
语句重建为表。
对于 dbt 的 tablet 物化,dbt-doris 采用以下步骤保证数据更迭时候的原子性:
-
create table this_table_temp as {{ model sql}}
,首先创建临时表。 -
判断
this_table
是否不存在,即是首次创建,执行rename
,将临时表变更为最终表。 -
若已经存在,则
alter table this_table REPLACE WITH TABLE this_table_temp PROPERTIES('swap' = 'False')
,此操作可以交换表名并且删除this_table_temp
临时表,此过程通过 Doris 内核的事务机制保证本次操作原子性。
优点:table查询速度会比view快。
缺点:table需要较长时间才能构建或重建,会额外存储数据,而且不能够做增量数据同步。
建议:建议对 BI 工具查询的model或下游查询、转换等操作较慢的model使用table物化方式。
配置项:
models:
<resource-path>:
+materialized: table
+duplicate_key: [ <column-name>, ... ],
+replication_num: int,
+partition_by: [ <column-name>, ... ],
+partition_type: <engine-type>,
+partition_by_init: [<pertition-init>, ... ]
+distributed_by: [ <column-name>, ... ],
+buckets: int | 'auto',
+properties: {<key>:<value>,...}
或者在 model 文件里面写
{{ config(
materialized = "table",
duplicate_key = [ "<column-name>", ... ],
replication_num = "<int>"
partition_by = [ "<column-name>", ... ],
partition_type = "<engine-type>",
partition_by_init = ["<pertition-init>", ... ]
distributed_by = [ "<column-name>", ... ],
buckets = "<int>" | "auto",
properties = {"<key>":"<value>",...}
...
]
) }}
上述配置项详情如下:
配置项 | 描述 | Required? |
---|---|---|
materialized | 该表的物化形式(对应创建表模型为明细模型(Duplicate)) | Required |
duplicate_key | 明细模型的排序列 | Optional |
replication_num | 表副本数 | Optional |
partition_by | 表分区列 | Optional |
partition_type | 表分区类型,range 或 list .(default: RANGE ) | Optional |
partition_by_init | 初始化的表分区 | Optional |
distributed_by | 表桶区列 | Optional |
buckets | 分桶数量 | Optional |
properties | 建表的其他配置 | Optional |
Incremental
以上次运行 dbt 的 incremental model 结果为基准,增量的将记录插入或更新到表中。 doris 的增量实现有两种方式,此项设计两种增量(incremental_strategy 设置)的策略:
-
insert_overwrite
:依赖于 unique 模型,如果有增量需求,在初始化该模型的数据时就指定物化为 incremental,通过指定聚合列进行聚合,实现增量数据的覆盖。 -
append
:依赖于duplicate
模型,仅仅对增量数据做追加,不涉及修改任何历史数据。因此不需要指定 unique_key。
优点:只需转换新记录,可显著减少构建时间。
缺点:incremental模式需要额外的配置,是 dbt 的高级用法,需要复杂场景的支持和对应组件的适配。
建议:增量模型最适合基于事件相关的场景或 dbt 运行变得太慢时使用增量模型
配置项:
models:
<resource-path>:
+materialized: incremental
+incremental_strategy: <strategy>
+unique_key: [ <column-name>, ... ],
+replication_num: int,
+partition_by: [ <column-name>, ... ],
+partition_type: <engine-type>,
+partition_by_init: [<pertition-init>, ... ]
+distributed_by: [ <column-name>, ... ],
+buckets: int | 'auto',
+properties: {<key>:<value>,...}
或者在 model 文件里面写
{{ config(
materialized = "incremental",
incremental_strategy = "<strategy>"
unique_key = [ "<column-name>", ... ],
replication_num = "<int>"
partition_by = [ "<column-name>", ... ],
partition_type = "<engine-type>",
partition_by_init = ["<pertition-init>", ... ]
distributed_by = [ "<column-name>", ... ],
buckets = "<int>" | "auto",
properties = {"<key>":"<value>",...}
...
)
}}
上述配置项详情如下:
配置项 | 描述 | Required? |
---|---|---|
materialized | 该表的物化形式 | Required |
incremental_strategy | 增量策略 | Optional |
unique_key | unique 表的 key 列 | Optional |
replication_num | 表副本数 | Optional |
partition_by | 表分区列 | Optional |
partition_type | 表分区类型,range 或 list .(default: RANGE ) | Optional |
partition_by_init | 初始化的表分区 | Optional |
distributed_by | 表桶区列 | Optional |
buckets | 分桶数量 | Optional |
properties | 建表的其他配置 | Optional |
dbt-doris adapter seed
seed
是用于加载 csv 等数据文件时的功能模块,它是一种加载文件入库参与模型构建的一种方式,但有以下注意事项:
-
seed 不应用于加载原始数据(例如,从生产数据库导出大型 CSV 文件)。
-
由于 seed 是受版本控制的,因此它们最适合包含特定于业务的逻辑的文件,例如国家/地区代码列表或员工的用户 ID。
-
对于大文件,使用 dbt 的 seed 功能加载 CSV 的性能不佳。应该考虑使用 streamload 等方式将这些 CSV 加载到 doris 中。
用户可以在 dbt project 的目录下面看到 seeds 的目录,在里面上传 csv 文件和 seed 配置文件并运行
dbt seed --select seed_name
常见 seed 配置文件写法,支持对列类型的定义:
seeds:
seed_name: # 种子名称,在 seed 构建后,会作为表名
config:
schema: demo_seed # 在 seed 构建后,会作为 database 的一部分
full_refresh: true
replication_num: 1
column_types:
id: bigint
phone: varchar(32)
ip: varchar(15)
name: varchar(20)
cost: DecimalV3(19,10)
使用示例
视图模型样例参考
{{ config(materialized='view') }}
select
u.user_id,
max(o.create_time) as create_time,
sum (o.cost) as balance
from {{ ref('sell_order') }} as o
left join {{ ref('sell_user') }} as u
on u.account_id=o.account_id
group by u.user_id
order by u.user_id
表模型样例参考
{{ config(materialized='table') }}
select
u.user_id,
max(o.create_time) as create_time,
sum (o.cost) as balance
from {{ ref('sell_order') }} as o
left join {{ ref('sell_user') }} as u
on u.account_id=o.account_id
group by u.user_id
order by u.user_id
增量模型样例参考(duplicate 模式)
建表为 duplicate 模式,无数据聚合,不需要指定 unique_key
{{ config(
materialized='incremental',
replication_num=1
) }}
with source_data as (
select
*
from {{ ref('sell_order2') }}
)
select * from source_data
增量模型样例参考(unique 模式)
建表为 unique 模式,数据聚合,必须指定 unique_key
{{ config(
materialized='incremental',
unique_key=['account_id','create_time']
) }}
with source_data as (
select
*
from {{ ref('sell_order2') }}
)
select * from source_data
增量模型全量刷新样例参考
{{ config(
materialized='incremental',
full_refresh = true
)}}
select * from
{{ source('dbt_source', 'sell_user') }}
设置分桶规则样例参考
此处 buckets 可以填 auto 或者正整数,分别代表自动分桶和设置固定分桶数
{{ config(
materialized='incremental',
unique_key=['account_id',"create_time"],
distributed_by=['account_id'],
buckets='auto'
) }}
with source_data as (
select
*
from {{ ref('sell_order') }}
)
select
*
from source_data
{% if is_incremental() %}
where
create_time > (select max(create_time) from {{this}})
{% endif %}
设置副本数样例参考
{{ config(
materialized='table',
replication_num=1
)}}
with source_data as (
select
*
from {{ ref('sell_order2') }}
)
select * from source_data
动态分区样例参考
{{ config(
materialized='incremental',
partition_by = 'create_time',
partition_type = 'range',
-- 这里的 properties 是 create table 语句中的 properties,这里面写了动态分区的相关配置
properties = {
"dynamic_partition.time_unit":"DAY",
"dynamic_partition.end":"8",
"dynamic_partition.prefix":"p",
"dynamic_partition.buckets":"4",
"dynamic_partition.create_history_partition":"true",
"dynamic_partition.history_partition_num":"3"
}
) }}
with source_data as (
select
*
from {{ ref('sell_order2') }}
)
select
*
from source_data
{% if is_incremental() %}
where
create_time = DATE_SUB(CURDATE(), INTERVAL 1 DAY)
{% endif %}
常规分区样例参考
{{ config(
materialized='incremental',
partition_by = 'create_time',
partition_type = 'range',
-- 这里的 partition_by_init 是指的 创建分区表的历史分区,当前 doris 版本的历史分区需要手动指定
partition_by_init = [
"PARTITION `p20240601` VALUES [(\"2024-06-01\"), (\"2024-06-02\"))",
"PARTITION `p20240602` VALUES [(\"2024-06-02\"), (\"2024-06-03\"))"
]
)}}
with source_data as (
select
*
from {{ ref('sell_order2') }}
)
select
*
from source_data
{% if is_incremental() %}
where
-- 如果提供了my_date变量,则使用该通路(通过 dbt run --vars '{"my_date": "\"2024-06-03\""}' 命令) 如果没有提供 my_date 变量(直接 dbt run ),则使用当前日期的前一天 , 这里的增量选择建议直接使用 doris 的 CURDATE() 函数,这个通路也是生产环境经常走的。
create_time = {{ var('my_date' , 'DATE_SUB(CURDATE(), INTERVAL 1 DAY)') }}
{% endif %}
批处理日期设置参数样例参考
{{ config(
materialized='incremental',
partition_by = 'create_time',
partition_type = 'range',
...
)}}
with source_data as (
select
*
from {{ ref('sell_order2') }}
)
select
*
from source_data
{% if is_incremental() %}
where
-- 如果提供了my_date变量,则使用该通路(通过 dbt run --vars '{"my_date": "\"2024-06-03\""}' 命令) 如果没有提供 my_date 变量(直接 dbt run ),则使用当前日期的前一天 , 这里的增量选择建议直接使用 doris 的 CURDATE() 函数,这个通路也是生产环境经常走的。
create_time = {{ var('my_date' , 'DATE_SUB(CURDATE(), INTERVAL 1 DAY)') }}
{% endif %}