ud_bulkload

概述

ud_bulkload是一种用于UnvDB的高速数据加载工具，相比copy命令。最大的优势就是速度,我们可以跳过shared buffer,wal buffer。直接写文件。ud_bulkload的direct模式就是这种思路来实现的，它还包含了数据恢复功能，即导入失败的话，需要恢复。 ud_bulkload 旨在将大量数据加载到数据库中。您可以选择是否检查数据库约束以及在加载期间忽略多少错误。例如，当您将数据从另一个数据库复制到UnvDB时，您可以跳过性能完整性检查。另一方面，您可以在加载不干净的数据时启用约束检查。

验证安装

testdb=# create extension ud_bulkload;
CREATE EXTENSION

ud_bulkload 参数

下面介绍ud_bulkload主要的参数选项，主要有一下选项：

$ ud_bulkload --help

ud_bulkload is a bulk data loading tool for UNVDB

Usage:
  Dataload: ud_bulkload [dataload options] control_file_path
  Recovery: ud_bulkload -r [-D DATADIR]

Dataload options:
  -i, --input=INPUT         INPUT path or function
  -O, --output=OUTPUT       OUTPUT path or table
  -l, --logfile=LOGFILE     LOGFILE path
  -P, --parse-badfile=*     PARSE_BADFILE path
  -u, --duplicate-badfile=* DUPLICATE_BADFILE path
  -o, --option="key=val"    additional option

Recovery options:
  -r, --recovery            execute recovery
  -D, --uddata=DATADIR      database directory

Connection options:
  -d, --dbname=DBNAME       database to connect
  -h, --host=HOSTNAME       database server host or socket directory
  -p, --port=PORT           database server port
  -U, --username=USERNAME   user name to connect as
  -w, --no-password         never prompt for password
  -W, --password            force password prompt

Generic options:
  -e, --echo                echo queries
  -E, --elevel=LEVEL        set output message level
  --help                    show this help, then exit
  --version                 output version information, then exit

加载选项:

连接选项

上面这三个参数通常都可以从环境变量得到，建议设置环境变量，因为ud_bulkload命令内部使用libpq，libpq需要这些环境变量。

通用选项

|选项|功能| |—-|—-| |–help |显示帮助信息| |–version|显示版本号|

控制文件

使用方法

初始化数据

testdb=# create table tb_asher (id int,name text);
CREATE TABLE
testdb=# \d
         List of relations
 Schema |   Name   | Type  | Owner 
--------+----------+-------+-------
 public | tb_asher | table | unvdb
(1 row)

testdb=# create extension ud_bulkload; #如果连接指定到单个库时，需要创建扩展以生成 udbulkload.ud_bulkload() 函数
CREATE EXTENSION
testdb=# quit

模拟CSV 文件

$ seq 100000| awk '{print $0"|asher"}' > bulk_asher.txt 
$ more bulk_asher.txt
1|asher
2|asher
3|asher
4|asher
5|asher
...

加载到指定表

将bulk_asher.txt里的数据加载到testdb 库下的 tb_asher表中

$ ud_bulkload -i /home/lihaozhan/bulk/bulk_asher.txt -O tb_asher -l  /home/lihaozhan/bulk/tb_asher_output.log -P /home/lihaozhan/bulk/tb_asher_bad.txt -o "TYPE=CSV" -o "DELIMITER=|" -d testdb -U unvdb -h 127.0.0.1

NOTICE: BULK LOAD START
NOTICE: BULK LOAD END
	0 Rows skipped.
	100000 Rows successfully loaded.
	0 Rows not loaded due to parse errors.
	0 Rows not loaded due to duplicate errors.
	0 Rows replaced with new rows.

查看导入日志

$ cat /home/lihaozhan/bulk/tb_asher_output.log

ud_bulkload 3.1.20 on 2023-09-20 17:53:03.296287+08

INPUT = /home/lihaozhan/bulk/bulk_asher.txt
PARSE_BADFILE = /home/lihaozhan/bulk/tb_asher_bad.txt
LOGFILE = /home/lihaozhan/bulk/tb_asher_output.log
LIMIT = INFINITE
PARSE_ERRORS = 0
CHECK_CONSTRAINTS = NO
TYPE = CSV
SKIP = 0
DELIMITER = |
QUOTE = "\""
ESCAPE = "\""
NULL = 
OUTPUT = public.tb_asher
MULTI_PROCESS = NO
VERBOSE = NO
WRITER = DIRECT
DUPLICATE_BADFILE = /home/lihaozhan/data/soft/unvdb-data/ud_bulkload/20230920175303_testdb_public_tb_asher.dup.csv
DUPLICATE_ERRORS = 0
ON_DUPLICATE_KEEP = NEW
TRUNCATE = NO


  0 Rows skipped.
  100000 Rows successfully loaded.
  0 Rows not loaded due to parse errors.
  0 Rows not loaded due to duplicate errors.
  0 Rows replaced with new rows.

Run began on 2023-09-20 17:53:03.296287+08
Run ended on 2023-09-20 17:53:03.394545+08

CPU 0.02s/0.05u sec elapsed 0.10 sec

先清空在加载

增加了 -o “TRUNCATE=YES” 参数

$ ud_bulkload -i /home/lihaozhan/bulk/bulk_asher.txt -O tb_asher -l /home/lihaozhan/bulk/tb_asher_output.log -P /home/lihaozhan/bulk/tb_asher_bad.txt -o "TYPE=CSV" -o "DELIMITER=|" -o "TRUNCATE=YES" -d testdb -U unvdb -h 127.0.0.1

NOTICE: BULK LOAD START
NOTICE: BULK LOAD END
	0 Rows skipped.
	100000 Rows successfully loaded.
	0 Rows not loaded due to parse errors.
	0 Rows not loaded due to duplicate errors.
	0 Rows replaced with new rows.

数据查询

$ ud_sql -h 127.0.0.1 -d testdb -c "select count(1) from tb_asher;"

 count  
--------
 100000
(1 row)

使用控制文件

新建控制文件asher.ctl ，可以根据之前加载时，产生的日志文件tb_asher_output.log来更改，去掉里面没有值的参数 NULL=

vi asher.ctl 

INPUT = /home/lihaozhan/bulk/bulk_asher.txt
PARSE_BADFILE = /home/lihaozhan/bulk/tb_asher_bad.txt
LOGFILE = /home/lihaozhan/bulk/tb_asher_output.log
LIMIT = INFINITE
PARSE_ERRORS = 0
CHECK_CONSTRAINTS = NO
TYPE = CSV
SKIP = 0
DELIMITER = |
QUOTE = "\""
ESCAPE = "\""
OUTPUT = public.tb_asher
MULTI_PROCESS = NO
VERBOSE = NO
WRITER = DIRECT
DUPLICATE_BADFILE = /home/lihaozhan/data/soft/unvdb-data/ud_bulkload/20230921101752_testdb_public_tb_asher.dup.csv
DUPLICATE_ERRORS = 0
ON_DUPLICATE_KEEP = NEW
TRUNCATE = YES

使用控制文件来加载

$ ud_bulkload /home/lihaozhan/bulk/asher.ctl -d testdb -U unvdb -h 127.0.0.1

NOTICE: BULK LOAD START
NOTICE: BULK LOAD END
	0 Rows skipped.
	100000 Rows successfully loaded.
	0 Rows not loaded due to parse errors.
	0 Rows not loaded due to duplicate errors.
	0 Rows replaced with new rows.

数据查询

$ ud_sql -h 127.0.0.1 -d testdb -c "select count(1) from tb_asher;"

 count  
--------
 100000
(1 row)

强制写wal日志

ud_bulkload 默认是跳过buffer直接写文件，但时如果有复制，或者需要基本wal日志恢复时没有wal日志是不行的，这是我们可以强制让其写wal日志，只需要加载 -o “WRITER=BUFFERED” 参数就可以了

$ ud_bulkload -i /home/lihaozhan/bulk/bulk_asher.txt -O tb_asher -l /home/lihaozhan/bulk/tb_asher_output.log -P /home/lihaozhan/bulk/tb_asher_bad.txt -o "TYPE=CSV" -o "DELIMITER=|" -o "TRUNCATE=YES" -o "WRITER=BUFFERED" -d testdb -U unvdb -h 127.0.0.1

NOTICE: BULK LOAD START
NOTICE: BULK LOAD END
	0 Rows skipped.
	100000 Rows successfully loaded.
	0 Rows not loaded due to parse errors.
	0 Rows not loaded due to duplicate errors.
	0 Rows replaced with new rows.

其他

如果您使用直接加载模式（WRITER=DIRECT 或 PARALLEL），您必须注意以下事项：

PITR/Replication ：由于绕过了 WAL，PITR 的归档恢复不可用。这并不意味着它可以在没有加载表数据的情况下完成 PITR。如果您想使用 PITR，请在通过 ud_bulkload 加载后对数据库进行完整备份。如果您使用流式复制，则需要根据 ud_bulkload 之后的备份集重新创建备用数据库。
尽量不要使用 “ kill -9” 终止 ud_bulkload 命令。如果您这样做了，您必须调用 UnvDB 脚本来执行 ud_bulkload恢复并重新启动 UnvDB 以继续。
默认情况下，在数据加载期间仅强制执行唯一约束和非空约束。您可以设置“CHECK_CONSTRAINTS=YES”来检查 CHECK 约束。无法检查外键约束。用户有责任提供有效的数据集。
maintenance_work_mem会影响 ud_bulkload的性能。如果将此参数从 64 MB 更改为 1 GB，则持续时间将缩短近 15%。