Line data Source code
1 : /*
2 : ldb database library using mdb back end
3 :
4 : Copyright (C) Jakub Hrozek 2014
5 : Copyright (C) Catalyst.Net Ltd 2017
6 :
7 : ** NOTE! The following LGPL license applies to the ldb
8 : ** library. This does NOT imply that all of Samba is released
9 : ** under the LGPL
10 :
11 : This library is free software; you can redistribute it and/or
12 : modify it under the terms of the GNU Lesser General Public
13 : License as published by the Free Software Foundation; either
14 : version 3 of the License, or (at your option) any later version.
15 :
16 : This library is distributed in the hope that it will be useful,
17 : but WITHOUT ANY WARRANTY; without even the implied warranty of
18 : MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
19 : Lesser General Public License for more details.
20 :
21 : You should have received a copy of the GNU Lesser General Public
22 : License along with this library; if not, see <http://www.gnu.org/licenses/>.
23 : */
24 :
25 : #include "ldb_mdb.h"
26 : #include "../ldb_key_value/ldb_kv.h"
27 : #include "include/dlinklist.h"
28 :
29 : #define MDB_URL_PREFIX "mdb://"
30 : #define MDB_URL_PREFIX_SIZE (sizeof(MDB_URL_PREFIX)-1)
31 :
32 : #define LDB_MDB_MAX_KEY_LENGTH 511
33 :
34 : #define GIGABYTE (1024*1024*1024)
35 :
36 142107141 : int ldb_mdb_err_map(int lmdb_err)
37 : {
38 142107141 : switch (lmdb_err) {
39 136319105 : case MDB_SUCCESS:
40 136319105 : return LDB_SUCCESS;
41 0 : case EIO:
42 0 : return LDB_ERR_OPERATIONS_ERROR;
43 : #ifdef EBADE
44 62 : case EBADE:
45 : #endif
46 : case MDB_INCOMPATIBLE:
47 : case MDB_CORRUPTED:
48 : case MDB_INVALID:
49 62 : return LDB_ERR_UNAVAILABLE;
50 0 : case MDB_BAD_TXN:
51 : case MDB_BAD_VALSIZE:
52 : #ifdef MDB_BAD_DBI
53 : case MDB_BAD_DBI:
54 : #endif
55 : case MDB_PANIC:
56 : case EINVAL:
57 0 : return LDB_ERR_PROTOCOL_ERROR;
58 0 : case MDB_MAP_FULL:
59 : case MDB_DBS_FULL:
60 : case MDB_READERS_FULL:
61 : case MDB_TLS_FULL:
62 : case MDB_TXN_FULL:
63 : case EAGAIN:
64 0 : return LDB_ERR_BUSY;
65 738 : case MDB_KEYEXIST:
66 738 : return LDB_ERR_ENTRY_ALREADY_EXISTS;
67 67738 : case MDB_NOTFOUND:
68 : case ENOENT:
69 67738 : return LDB_ERR_NO_SUCH_OBJECT;
70 0 : case EACCES:
71 0 : return LDB_ERR_INSUFFICIENT_ACCESS_RIGHTS;
72 0 : default:
73 0 : break;
74 : }
75 0 : return LDB_ERR_OTHER;
76 : }
77 :
78 : #define ldb_mdb_error(ldb, ecode) lmdb_error_at(ldb, ecode, __FILE__, __LINE__)
79 34238 : static int lmdb_error_at(struct ldb_context *ldb,
80 : int ecode,
81 : const char *file,
82 : int line)
83 : {
84 34238 : int ldb_err = ldb_mdb_err_map(ecode);
85 34238 : char *reason = mdb_strerror(ecode);
86 34238 : ldb_asprintf_errstring(ldb,
87 : "(%d) - %s at %s:%d",
88 : ecode,
89 : reason,
90 : file,
91 : line);
92 34238 : return ldb_err;
93 : }
94 :
95 350664474 : static bool lmdb_transaction_active(struct ldb_kv_private *ldb_kv)
96 : {
97 350664474 : return ldb_kv->lmdb_private->txlist != NULL;
98 : }
99 :
100 254218029 : static MDB_txn *lmdb_trans_get_tx(struct lmdb_trans *ltx)
101 : {
102 254218029 : if (ltx == NULL) {
103 142235697 : return NULL;
104 : }
105 :
106 103752208 : return ltx->tx;
107 : }
108 :
109 1402087 : static void trans_push(struct lmdb_private *lmdb, struct lmdb_trans *ltx)
110 : {
111 1402087 : if (lmdb->txlist) {
112 666597 : talloc_steal(lmdb->txlist, ltx);
113 : }
114 :
115 1402087 : DLIST_ADD(lmdb->txlist, ltx);
116 1402087 : }
117 :
118 1402087 : static void trans_finished(struct lmdb_private *lmdb, struct lmdb_trans *ltx)
119 : {
120 1402087 : DLIST_REMOVE(lmdb->txlist, ltx);
121 1402087 : talloc_free(ltx);
122 1402087 : }
123 :
124 :
125 256041177 : static struct lmdb_trans *lmdb_private_trans_head(struct lmdb_private *lmdb)
126 : {
127 8338791 : struct lmdb_trans *ltx;
128 :
129 256041177 : ltx = lmdb->txlist;
130 256041177 : return ltx;
131 : }
132 :
133 :
134 245763902 : static MDB_txn *get_current_txn(struct lmdb_private *lmdb)
135 : {
136 245763902 : MDB_txn *txn = NULL;
137 :
138 245763902 : txn = lmdb_trans_get_tx(lmdb_private_trans_head(lmdb));
139 240683459 : if (txn != NULL) {
140 96479199 : return txn;
141 : }
142 146590071 : if (lmdb->read_txn != NULL) {
143 141509628 : return lmdb->read_txn;
144 : }
145 0 : lmdb->error = MDB_BAD_TXN;
146 0 : ldb_set_errstring(lmdb->ldb, __location__":No active transaction\n");
147 0 : return NULL;
148 : }
149 :
150 6770844 : static int lmdb_store(struct ldb_kv_private *ldb_kv,
151 : struct ldb_val key,
152 : struct ldb_val data,
153 : int flags)
154 : {
155 6770844 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
156 440784 : MDB_val mdb_key;
157 440784 : MDB_val mdb_data;
158 440784 : int mdb_flags;
159 6770844 : MDB_txn *txn = NULL;
160 6770844 : MDB_dbi dbi = 0;
161 :
162 6770844 : if (ldb_kv->read_only) {
163 0 : return LDB_ERR_UNWILLING_TO_PERFORM;
164 : }
165 :
166 6770844 : txn = lmdb_trans_get_tx(lmdb_private_trans_head(lmdb));
167 6770844 : if (txn == NULL) {
168 0 : ldb_debug(lmdb->ldb, LDB_DEBUG_FATAL, "No transaction");
169 0 : lmdb->error = MDB_PANIC;
170 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
171 : }
172 :
173 6770844 : lmdb->error = mdb_dbi_open(txn, NULL, 0, &dbi);
174 6770844 : if (lmdb->error != MDB_SUCCESS) {
175 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
176 : }
177 :
178 6770844 : mdb_key.mv_size = key.length;
179 6770844 : mdb_key.mv_data = key.data;
180 :
181 6770844 : mdb_data.mv_size = data.length;
182 6770844 : mdb_data.mv_data = data.data;
183 :
184 6770844 : if (flags == TDB_INSERT) {
185 335992 : mdb_flags = MDB_NOOVERWRITE;
186 6404006 : } else if (flags == TDB_MODIFY) {
187 : /*
188 : * Modifying a record, ensure that it exists.
189 : * This mimics the TDB semantics
190 : */
191 237695 : MDB_val value;
192 2855908 : lmdb->error = mdb_get(txn, dbi, &mdb_key, &value);
193 2855908 : if (lmdb->error != MDB_SUCCESS) {
194 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
195 : }
196 2855908 : mdb_flags = 0;
197 : } else {
198 3375855 : mdb_flags = 0;
199 : }
200 :
201 6770844 : lmdb->error = mdb_put(txn, dbi, &mdb_key, &mdb_data, mdb_flags);
202 6770844 : if (lmdb->error != MDB_SUCCESS) {
203 369 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
204 : }
205 :
206 6770475 : return ldb_mdb_err_map(lmdb->error);
207 : }
208 :
209 281196 : static int lmdb_delete(struct ldb_kv_private *ldb_kv, struct ldb_val key)
210 : {
211 281196 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
212 4844 : MDB_val mdb_key;
213 281196 : MDB_txn *txn = NULL;
214 281196 : MDB_dbi dbi = 0;
215 :
216 281196 : if (ldb_kv->read_only) {
217 0 : return LDB_ERR_UNWILLING_TO_PERFORM;
218 : }
219 :
220 281196 : txn = lmdb_trans_get_tx(lmdb_private_trans_head(lmdb));
221 281196 : if (txn == NULL) {
222 0 : ldb_debug(lmdb->ldb, LDB_DEBUG_FATAL, "No transaction");
223 0 : lmdb->error = MDB_PANIC;
224 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
225 : }
226 :
227 281196 : lmdb->error = mdb_dbi_open(txn, NULL, 0, &dbi);
228 281196 : if (lmdb->error != MDB_SUCCESS) {
229 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
230 : }
231 :
232 281196 : mdb_key.mv_size = key.length;
233 281196 : mdb_key.mv_data = key.data;
234 :
235 281196 : lmdb->error = mdb_del(txn, dbi, &mdb_key, NULL);
236 281196 : if (lmdb->error != MDB_SUCCESS) {
237 33869 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
238 : }
239 247327 : return ldb_mdb_err_map(lmdb->error);
240 : }
241 :
242 6858 : static int lmdb_traverse_fn(struct ldb_kv_private *ldb_kv,
243 : ldb_kv_traverse_fn fn,
244 : void *ctx)
245 : {
246 6858 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
247 333 : MDB_val mdb_key;
248 333 : MDB_val mdb_data;
249 6858 : MDB_txn *txn = NULL;
250 6858 : MDB_dbi dbi = 0;
251 6858 : MDB_cursor *cursor = NULL;
252 333 : int ret;
253 :
254 6858 : txn = get_current_txn(lmdb);
255 6858 : if (txn == NULL) {
256 0 : ldb_debug(lmdb->ldb, LDB_DEBUG_FATAL, "No transaction");
257 0 : lmdb->error = MDB_PANIC;
258 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
259 : }
260 :
261 6858 : lmdb->error = mdb_dbi_open(txn, NULL, 0, &dbi);
262 6858 : if (lmdb->error != MDB_SUCCESS) {
263 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
264 : }
265 :
266 6858 : lmdb->error = mdb_cursor_open(txn, dbi, &cursor);
267 6858 : if (lmdb->error != MDB_SUCCESS) {
268 0 : goto done;
269 : }
270 :
271 8785371 : while ((lmdb->error = mdb_cursor_get(
272 : cursor, &mdb_key,
273 8456457 : &mdb_data, MDB_NEXT)) == MDB_SUCCESS) {
274 :
275 8449601 : struct ldb_val key = {
276 8449601 : .length = mdb_key.mv_size,
277 8449601 : .data = mdb_key.mv_data,
278 : };
279 8449601 : struct ldb_val data = {
280 8449601 : .length = mdb_data.mv_size,
281 8449601 : .data = mdb_data.mv_data,
282 : };
283 :
284 8449601 : ret = fn(ldb_kv, key, data, ctx);
285 8449601 : if (ret != 0) {
286 : /*
287 : * NOTE: This DOES NOT set lmdb->error!
288 : *
289 : * This means that the caller will get success.
290 : * This matches TDB traverse behaviour, where callbacks
291 : * may terminate the traverse, but do not change the
292 : * return code from success.
293 : *
294 : * Callers SHOULD store their own error codes.
295 : */
296 2 : goto done;
297 : }
298 : }
299 6856 : if (lmdb->error == MDB_NOTFOUND) {
300 6856 : lmdb->error = MDB_SUCCESS;
301 : }
302 0 : done:
303 6858 : if (cursor != NULL) {
304 6858 : mdb_cursor_close(cursor);
305 : }
306 :
307 6858 : if (lmdb->error != MDB_SUCCESS) {
308 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
309 : }
310 6858 : return ldb_mdb_err_map(lmdb->error);
311 : }
312 :
313 0 : static int lmdb_update_in_iterate(struct ldb_kv_private *ldb_kv,
314 : struct ldb_val key,
315 : struct ldb_val key2,
316 : struct ldb_val data,
317 : void *state)
318 : {
319 0 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
320 0 : struct ldb_val copy;
321 0 : int ret = LDB_SUCCESS;
322 :
323 : /*
324 : * Need to take a copy of the data as the delete operation alters the
325 : * data, as it is in private lmdb memory.
326 : */
327 0 : copy.length = data.length;
328 0 : copy.data = talloc_memdup(ldb_kv, data.data, data.length);
329 0 : if (copy.data == NULL) {
330 0 : lmdb->error = MDB_PANIC;
331 0 : return ldb_oom(lmdb->ldb);
332 : }
333 :
334 0 : lmdb->error = lmdb_delete(ldb_kv, key);
335 0 : if (lmdb->error != MDB_SUCCESS) {
336 0 : ldb_debug(
337 : lmdb->ldb,
338 : LDB_DEBUG_ERROR,
339 : "Failed to delete %*.*s "
340 : "for rekey as %*.*s: %s",
341 0 : (int)key.length, (int)key.length,
342 0 : (const char *)key.data,
343 0 : (int)key2.length, (int)key2.length,
344 0 : (const char *)key.data,
345 : mdb_strerror(lmdb->error));
346 0 : ret = ldb_mdb_error(lmdb->ldb, lmdb->error);
347 0 : goto done;
348 : }
349 :
350 0 : lmdb->error = lmdb_store(ldb_kv, key2, copy, 0);
351 0 : if (lmdb->error != MDB_SUCCESS) {
352 0 : ldb_debug(
353 : lmdb->ldb,
354 : LDB_DEBUG_ERROR,
355 : "Failed to rekey %*.*s as %*.*s: %s",
356 0 : (int)key.length, (int)key.length,
357 0 : (const char *)key.data,
358 0 : (int)key2.length, (int)key2.length,
359 0 : (const char *)key.data,
360 : mdb_strerror(lmdb->error));
361 0 : ret = ldb_mdb_error(lmdb->ldb, lmdb->error);
362 0 : goto done;
363 : }
364 :
365 0 : done:
366 0 : if (copy.data != NULL) {
367 0 : TALLOC_FREE(copy.data);
368 0 : copy.length = 0;
369 : }
370 :
371 : /*
372 : * Explicitly invalidate the data, as the delete has done this
373 : */
374 0 : data.length = 0;
375 0 : data.data = NULL;
376 :
377 0 : return ret;
378 : }
379 :
380 : /* Handles only a single record */
381 245743495 : static int lmdb_parse_record(struct ldb_kv_private *ldb_kv,
382 : struct ldb_val key,
383 : int (*parser)(struct ldb_val key,
384 : struct ldb_val data,
385 : void *private_data),
386 : void *ctx)
387 : {
388 245743495 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
389 7774653 : MDB_val mdb_key;
390 7774653 : MDB_val mdb_data;
391 245743495 : MDB_txn *txn = NULL;
392 7774653 : MDB_dbi dbi;
393 7774653 : struct ldb_val data;
394 :
395 245743495 : txn = get_current_txn(lmdb);
396 245743495 : if (txn == NULL) {
397 0 : ldb_debug(lmdb->ldb, LDB_DEBUG_FATAL, "No transaction active");
398 0 : lmdb->error = MDB_PANIC;
399 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
400 : }
401 :
402 245743495 : lmdb->error = mdb_dbi_open(txn, NULL, 0, &dbi);
403 245743495 : if (lmdb->error != MDB_SUCCESS) {
404 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
405 : }
406 :
407 245743495 : mdb_key.mv_size = key.length;
408 245743495 : mdb_key.mv_data = key.data;
409 :
410 245743495 : lmdb->error = mdb_get(txn, dbi, &mdb_key, &mdb_data);
411 245743495 : if (lmdb->error != MDB_SUCCESS) {
412 : /* TODO closing a handle should not even be necessary */
413 30256176 : mdb_dbi_close(lmdb->env, dbi);
414 30256176 : if (lmdb->error == MDB_NOTFOUND) {
415 29197380 : return LDB_ERR_NO_SUCH_OBJECT;
416 : }
417 0 : if (lmdb->error == MDB_CORRUPTED) {
418 0 : ldb_debug(lmdb->ldb, LDB_DEBUG_ERROR,
419 : __location__
420 : ": MDB corrupted for key [%*.*s]\n",
421 0 : (int)key.length,
422 0 : (int)key.length,
423 : key.data);
424 : }
425 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
426 : }
427 215487319 : data.data = mdb_data.mv_data;
428 215487319 : data.length = mdb_data.mv_size;
429 :
430 : /* TODO closing a handle should not even be necessary */
431 215487319 : mdb_dbi_close(lmdb->env, dbi);
432 :
433 215487319 : return parser(key, data, ctx);
434 : }
435 :
436 : /*
437 : * Exactly the same as iterate, except we have a start key and an end key
438 : * (which are both included in the results if present).
439 : *
440 : * If start > end, return MDB_PANIC.
441 : */
442 13549 : static int lmdb_iterate_range(struct ldb_kv_private *ldb_kv,
443 : struct ldb_val start_key,
444 : struct ldb_val end_key,
445 : ldb_kv_traverse_fn fn,
446 : void *ctx)
447 : {
448 13549 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
449 89 : MDB_val mdb_key;
450 89 : MDB_val mdb_data;
451 13549 : MDB_txn *txn = NULL;
452 13549 : MDB_dbi dbi = 0;
453 13549 : MDB_cursor *cursor = NULL;
454 89 : int ret;
455 :
456 89 : MDB_val mdb_s_key;
457 89 : MDB_val mdb_e_key;
458 :
459 13549 : txn = get_current_txn(lmdb);
460 13549 : if (txn == NULL) {
461 0 : ldb_debug(lmdb->ldb, LDB_DEBUG_FATAL, "No transaction");
462 0 : lmdb->error = MDB_PANIC;
463 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
464 : }
465 :
466 13549 : lmdb->error = mdb_dbi_open(txn, NULL, 0, &dbi);
467 13549 : if (lmdb->error != MDB_SUCCESS) {
468 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
469 : }
470 :
471 13549 : mdb_s_key.mv_size = start_key.length;
472 13549 : mdb_s_key.mv_data = start_key.data;
473 :
474 13549 : mdb_e_key.mv_size = end_key.length;
475 13549 : mdb_e_key.mv_data = end_key.data;
476 :
477 13549 : if (mdb_cmp(txn, dbi, &mdb_s_key, &mdb_e_key) > 0) {
478 0 : lmdb->error = MDB_PANIC;
479 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
480 : }
481 :
482 13549 : lmdb->error = mdb_cursor_open(txn, dbi, &cursor);
483 13549 : if (lmdb->error != MDB_SUCCESS) {
484 0 : goto done;
485 : }
486 :
487 13549 : lmdb->error = mdb_cursor_get(cursor, &mdb_s_key, &mdb_data, MDB_SET_RANGE);
488 :
489 13549 : if (lmdb->error != MDB_SUCCESS) {
490 17 : if (lmdb->error == MDB_NOTFOUND) {
491 17 : lmdb->error = MDB_SUCCESS;
492 : }
493 17 : goto done;
494 : } else {
495 13532 : struct ldb_val key = {
496 13532 : .length = mdb_s_key.mv_size,
497 13532 : .data = mdb_s_key.mv_data,
498 : };
499 13532 : struct ldb_val data = {
500 13532 : .length = mdb_data.mv_size,
501 13532 : .data = mdb_data.mv_data,
502 : };
503 :
504 13532 : if (mdb_cmp(txn, dbi, &mdb_s_key, &mdb_e_key) > 0) {
505 147 : goto done;
506 : }
507 :
508 13385 : ret = fn(ldb_kv, key, data, ctx);
509 13385 : if (ret != 0) {
510 : /*
511 : * NOTE: This DOES NOT set lmdb->error!
512 : *
513 : * This means that the caller will get success.
514 : * This matches TDB traverse behaviour, where callbacks
515 : * may terminate the traverse, but do not change the
516 : * return code from success.
517 : *
518 : * Callers SHOULD store their own error codes.
519 : */
520 0 : goto done;
521 : }
522 : }
523 :
524 28793002 : while ((lmdb->error = mdb_cursor_get(
525 : cursor, &mdb_key,
526 28857074 : &mdb_data, MDB_NEXT)) == MDB_SUCCESS) {
527 :
528 28844569 : struct ldb_val key = {
529 28844569 : .length = mdb_key.mv_size,
530 28844569 : .data = mdb_key.mv_data,
531 : };
532 28844569 : struct ldb_val data = {
533 28844569 : .length = mdb_data.mv_size,
534 28844569 : .data = mdb_data.mv_data,
535 : };
536 :
537 28844569 : if (mdb_cmp(txn, dbi, &mdb_key, &mdb_e_key) > 0) {
538 880 : goto done;
539 : }
540 :
541 28843698 : ret = fn(ldb_kv, key, data, ctx);
542 28843698 : if (ret != 0) {
543 : /*
544 : * NOTE: This DOES NOT set lmdb->error!
545 : *
546 : * This means that the caller will get success.
547 : * This matches TDB traverse behaviour, where callbacks
548 : * may terminate the traverse, but do not change the
549 : * return code from success.
550 : *
551 : * Callers SHOULD store their own error codes.
552 : */
553 9 : goto done;
554 : }
555 : }
556 12505 : if (lmdb->error == MDB_NOTFOUND) {
557 12505 : lmdb->error = MDB_SUCCESS;
558 : }
559 0 : done:
560 13549 : if (cursor != NULL) {
561 13549 : mdb_cursor_close(cursor);
562 : }
563 :
564 13549 : if (lmdb->error != MDB_SUCCESS) {
565 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
566 : }
567 13549 : return ldb_mdb_err_map(lmdb->error);
568 : }
569 :
570 133598307 : static int lmdb_lock_read(struct ldb_module *module)
571 : {
572 133598307 : void *data = ldb_module_get_private(module);
573 5229831 : struct ldb_kv_private *ldb_kv =
574 133598307 : talloc_get_type(data, struct ldb_kv_private);
575 133598307 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
576 133598307 : pid_t pid = getpid();
577 :
578 133598307 : if (pid != lmdb->pid) {
579 0 : ldb_asprintf_errstring(
580 : lmdb->ldb,
581 : __location__": Reusing ldb opened by pid %d in "
582 : "process %d\n",
583 : lmdb->pid,
584 : pid);
585 0 : lmdb->error = MDB_BAD_TXN;
586 0 : return LDB_ERR_PROTOCOL_ERROR;
587 : }
588 :
589 133598307 : lmdb->error = MDB_SUCCESS;
590 133598307 : if (lmdb_transaction_active(ldb_kv) == false &&
591 82218288 : ldb_kv->read_lock_count == 0) {
592 22592504 : lmdb->error = mdb_txn_begin(lmdb->env,
593 : NULL,
594 : MDB_RDONLY,
595 : &lmdb->read_txn);
596 : }
597 133598307 : if (lmdb->error != MDB_SUCCESS) {
598 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
599 : }
600 :
601 133598307 : ldb_kv->read_lock_count++;
602 133598307 : return ldb_mdb_err_map(lmdb->error);
603 : }
604 :
605 133598307 : static int lmdb_unlock_read(struct ldb_module *module)
606 : {
607 133598307 : void *data = ldb_module_get_private(module);
608 5229831 : struct ldb_kv_private *ldb_kv =
609 133598307 : talloc_get_type(data, struct ldb_kv_private);
610 :
611 133598307 : if (lmdb_transaction_active(ldb_kv) == false &&
612 82218288 : ldb_kv->read_lock_count == 1) {
613 22592504 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
614 22592504 : mdb_txn_commit(lmdb->read_txn);
615 22592504 : lmdb->read_txn = NULL;
616 22592504 : ldb_kv->read_lock_count--;
617 22592504 : return LDB_SUCCESS;
618 : }
619 111005803 : ldb_kv->read_lock_count--;
620 111005803 : return LDB_SUCCESS;
621 : }
622 :
623 1402087 : static int lmdb_transaction_start(struct ldb_kv_private *ldb_kv)
624 : {
625 1402087 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
626 46731 : struct lmdb_trans *ltx;
627 46731 : struct lmdb_trans *ltx_head;
628 46731 : MDB_txn *tx_parent;
629 1402087 : pid_t pid = getpid();
630 :
631 : /* Do not take out the transaction lock on a read-only DB */
632 1402087 : if (ldb_kv->read_only) {
633 0 : return LDB_ERR_UNWILLING_TO_PERFORM;
634 : }
635 :
636 1402087 : ltx = talloc_zero(lmdb, struct lmdb_trans);
637 1402087 : if (ltx == NULL) {
638 0 : return ldb_oom(lmdb->ldb);
639 : }
640 :
641 1402087 : if (pid != lmdb->pid) {
642 0 : ldb_asprintf_errstring(
643 : lmdb->ldb,
644 : __location__": Reusing ldb opened by pid %d in "
645 : "process %d\n",
646 : lmdb->pid,
647 : pid);
648 0 : lmdb->error = MDB_BAD_TXN;
649 0 : return LDB_ERR_PROTOCOL_ERROR;
650 : }
651 :
652 : /*
653 : * Clear out any stale readers
654 : */
655 : {
656 1402087 : int stale = 0;
657 1402087 : mdb_reader_check(lmdb->env, &stale);
658 1402087 : if (stale > 0) {
659 0 : ldb_debug(
660 : lmdb->ldb,
661 : LDB_DEBUG_ERROR,
662 : "LMDB Stale readers, deleted (%d)",
663 : stale);
664 : }
665 : }
666 :
667 :
668 :
669 1402087 : ltx_head = lmdb_private_trans_head(lmdb);
670 :
671 1402087 : tx_parent = lmdb_trans_get_tx(ltx_head);
672 :
673 1402087 : lmdb->error = mdb_txn_begin(lmdb->env, tx_parent, 0, <x->tx);
674 1402087 : if (lmdb->error != MDB_SUCCESS) {
675 0 : return ldb_mdb_error(lmdb->ldb, lmdb->error);
676 : }
677 :
678 1402087 : trans_push(lmdb, ltx);
679 :
680 1402087 : return ldb_mdb_err_map(lmdb->error);
681 : }
682 :
683 73654 : static int lmdb_transaction_cancel(struct ldb_kv_private *ldb_kv)
684 : {
685 65 : struct lmdb_trans *ltx;
686 73654 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
687 :
688 73654 : ltx = lmdb_private_trans_head(lmdb);
689 73654 : if (ltx == NULL) {
690 1 : return LDB_ERR_OPERATIONS_ERROR;
691 : }
692 :
693 73653 : mdb_txn_abort(ltx->tx);
694 73653 : trans_finished(lmdb, ltx);
695 73653 : return LDB_SUCCESS;
696 : }
697 :
698 662898 : static int lmdb_transaction_prepare_commit(struct ldb_kv_private *ldb_kv)
699 : {
700 : /* No need to prepare a commit */
701 662898 : return LDB_SUCCESS;
702 : }
703 :
704 1328434 : static int lmdb_transaction_commit(struct ldb_kv_private *ldb_kv)
705 : {
706 46666 : struct lmdb_trans *ltx;
707 1328434 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
708 :
709 1328434 : ltx = lmdb_private_trans_head(lmdb);
710 1328434 : if (ltx == NULL) {
711 0 : return LDB_ERR_OPERATIONS_ERROR;
712 : }
713 :
714 1328434 : lmdb->error = mdb_txn_commit(ltx->tx);
715 1328434 : trans_finished(lmdb, ltx);
716 :
717 1328434 : return lmdb->error;
718 : }
719 :
720 34238 : static int lmdb_error(struct ldb_kv_private *ldb_kv)
721 : {
722 34238 : return ldb_mdb_err_map(ldb_kv->lmdb_private->error);
723 : }
724 :
725 0 : static const char *lmdb_errorstr(struct ldb_kv_private *ldb_kv)
726 : {
727 0 : return mdb_strerror(ldb_kv->lmdb_private->error);
728 : }
729 :
730 0 : static const char *lmdb_name(struct ldb_kv_private *ldb_kv)
731 : {
732 0 : return "lmdb";
733 : }
734 :
735 97684145 : static bool lmdb_changed(struct ldb_kv_private *ldb_kv)
736 : {
737 : /*
738 : * lmdb does no provide a quick way to determine if the database
739 : * has changed. This function always returns true.
740 : *
741 : * Note that tdb uses a sequence number that allows this function
742 : * to be implemented efficiently.
743 : */
744 97684145 : return true;
745 : }
746 :
747 : /*
748 : * Get the number of records in the database.
749 : *
750 : * The mdb_env_stat call returns an accurate count, so we return the actual
751 : * number of records in the database rather than an estimate.
752 : */
753 0 : static size_t lmdb_get_size(struct ldb_kv_private *ldb_kv)
754 : {
755 :
756 0 : struct MDB_stat stats = {0};
757 0 : struct lmdb_private *lmdb = ldb_kv->lmdb_private;
758 0 : int ret = 0;
759 :
760 0 : ret = mdb_env_stat(lmdb->env, &stats);
761 0 : if (ret != 0) {
762 0 : return 0;
763 : }
764 0 : return stats.ms_entries;
765 : }
766 :
767 : /*
768 : * Start a sub transaction
769 : * As lmdb supports nested transactions we can start a new transaction
770 : */
771 666597 : static int lmdb_nested_transaction_start(struct ldb_kv_private *ldb_kv)
772 : {
773 666597 : int ret = lmdb_transaction_start(ldb_kv);
774 666597 : return ret;
775 : }
776 :
777 : /*
778 : * Commit a sub transaction
779 : * As lmdb supports nested transactions we can commit the nested transaction
780 : */
781 664670 : static int lmdb_nested_transaction_commit(struct ldb_kv_private *ldb_kv)
782 : {
783 664670 : int ret = lmdb_transaction_commit(ldb_kv);
784 664670 : return ret;
785 : }
786 :
787 : /*
788 : * Cancel a sub transaction
789 : * As lmdb supports nested transactions we can cancel the nested transaction
790 : */
791 1927 : static int lmdb_nested_transaction_cancel(struct ldb_kv_private *ldb_kv)
792 : {
793 1927 : int ret = lmdb_transaction_cancel(ldb_kv);
794 1927 : return ret;
795 : }
796 :
797 : static struct kv_db_ops lmdb_key_value_ops = {
798 : .options = LDB_KV_OPTION_STABLE_READ_LOCK,
799 :
800 : .store = lmdb_store,
801 : .delete = lmdb_delete,
802 : .iterate = lmdb_traverse_fn,
803 : .update_in_iterate = lmdb_update_in_iterate,
804 : .fetch_and_parse = lmdb_parse_record,
805 : .iterate_range = lmdb_iterate_range,
806 : .lock_read = lmdb_lock_read,
807 : .unlock_read = lmdb_unlock_read,
808 : .begin_write = lmdb_transaction_start,
809 : .prepare_write = lmdb_transaction_prepare_commit,
810 : .finish_write = lmdb_transaction_commit,
811 : .abort_write = lmdb_transaction_cancel,
812 : .error = lmdb_error,
813 : .errorstr = lmdb_errorstr,
814 : .name = lmdb_name,
815 : .has_changed = lmdb_changed,
816 : .transaction_active = lmdb_transaction_active,
817 : .get_size = lmdb_get_size,
818 : .begin_nested_write = lmdb_nested_transaction_start,
819 : .finish_nested_write = lmdb_nested_transaction_commit,
820 : .abort_nested_write = lmdb_nested_transaction_cancel,
821 : };
822 :
823 459788 : static const char *lmdb_get_path(const char *url)
824 : {
825 28859 : const char *path;
826 :
827 : /* parse the url */
828 459788 : if (strchr(url, ':')) {
829 459726 : if (strncmp(url, MDB_URL_PREFIX, MDB_URL_PREFIX_SIZE) != 0) {
830 0 : return NULL;
831 : }
832 459726 : path = url + MDB_URL_PREFIX_SIZE;
833 : } else {
834 57 : path = url;
835 : }
836 :
837 430929 : return path;
838 : }
839 :
840 425850 : static int lmdb_pvt_destructor(struct lmdb_private *lmdb)
841 : {
842 425850 : struct lmdb_trans *ltx = NULL;
843 :
844 : /* Check if this is a forked child */
845 425850 : if (getpid() != lmdb->pid) {
846 4790 : int fd = 0;
847 : /*
848 : * We cannot call mdb_env_close or commit any transactions,
849 : * otherwise they might appear finished in the parent.
850 : *
851 : */
852 :
853 4790 : if (mdb_env_get_fd(lmdb->env, &fd) == 0) {
854 4790 : close(fd);
855 : }
856 :
857 : /* Remove the pointer, so that no access should occur */
858 4790 : lmdb->env = NULL;
859 :
860 4790 : return 0;
861 : }
862 :
863 : /*
864 : * Close the read transaction if it's open
865 : */
866 421060 : if (lmdb->read_txn != NULL) {
867 0 : mdb_txn_abort(lmdb->read_txn);
868 : }
869 :
870 421060 : if (lmdb->env == NULL) {
871 0 : return 0;
872 : }
873 :
874 : /*
875 : * Abort any currently active transactions
876 : */
877 421060 : ltx = lmdb_private_trans_head(lmdb);
878 421060 : while (ltx != NULL) {
879 0 : mdb_txn_abort(ltx->tx);
880 0 : trans_finished(lmdb, ltx);
881 0 : ltx = lmdb_private_trans_head(lmdb);
882 : }
883 421060 : lmdb->env = NULL;
884 :
885 421060 : return 0;
886 : }
887 :
888 : struct mdb_env_wrap {
889 : struct mdb_env_wrap *next, *prev;
890 : dev_t device;
891 : ino_t inode;
892 : MDB_env *env;
893 : pid_t pid;
894 : };
895 :
896 : static struct mdb_env_wrap *mdb_list;
897 :
898 : /* destroy the last connection to an mdb */
899 53857 : static int mdb_env_wrap_destructor(struct mdb_env_wrap *w)
900 : {
901 53857 : mdb_env_close(w->env);
902 53857 : DLIST_REMOVE(mdb_list, w);
903 53857 : return 0;
904 : }
905 :
906 459788 : static int lmdb_open_env(TALLOC_CTX *mem_ctx,
907 : MDB_env **env,
908 : struct ldb_context *ldb,
909 : const char *path,
910 : const size_t env_map_size,
911 : unsigned int flags)
912 : {
913 28859 : int ret;
914 459788 : unsigned int mdb_flags = MDB_NOSUBDIR|MDB_NOTLS;
915 : /*
916 : * MDB_NOSUBDIR implies there is a separate file called path and a
917 : * separate lockfile called path-lock
918 : */
919 :
920 28859 : struct mdb_env_wrap *w;
921 28859 : struct stat st;
922 459788 : pid_t pid = getpid();
923 459788 : int fd = 0;
924 28859 : unsigned v;
925 :
926 459788 : if (stat(path, &st) == 0) {
927 1571547 : for (w=mdb_list;w;w=w->next) {
928 1484750 : if (st.st_dev == w->device &&
929 1484750 : st.st_ino == w->inode &&
930 411701 : pid == w->pid) {
931 : /*
932 : * We must have only one MDB_env per process
933 : */
934 372126 : if (!talloc_reference(mem_ctx, w)) {
935 0 : return ldb_oom(ldb);
936 : }
937 372126 : *env = w->env;
938 372126 : return LDB_SUCCESS;
939 : }
940 : }
941 : }
942 :
943 87662 : w = talloc(mem_ctx, struct mdb_env_wrap);
944 87662 : if (w == NULL) {
945 0 : return ldb_oom(ldb);
946 : }
947 :
948 87662 : ret = mdb_env_create(env);
949 87662 : if (ret != 0) {
950 0 : ldb_asprintf_errstring(
951 : ldb,
952 : "Could not create MDB environment %s: %s\n",
953 : path,
954 : mdb_strerror(ret));
955 0 : return ldb_mdb_err_map(ret);
956 : }
957 :
958 87662 : if (env_map_size > 0) {
959 339 : ret = mdb_env_set_mapsize(*env, env_map_size);
960 339 : if (ret != 0) {
961 0 : ldb_asprintf_errstring(
962 : ldb,
963 : "Could not set MDB mmap() size to %llu "
964 : "on %s: %s\n",
965 : (unsigned long long)(env_map_size),
966 : path,
967 : mdb_strerror(ret));
968 0 : TALLOC_FREE(w);
969 0 : return ldb_mdb_err_map(ret);
970 : }
971 : }
972 :
973 87662 : mdb_env_set_maxreaders(*env, 100000);
974 : /*
975 : * As we ensure that there is only one MDB_env open per database per
976 : * process. We can not use the MDB_RDONLY flag, as another ldb may be
977 : * opened in read write mode
978 : */
979 87662 : if (flags & LDB_FLG_NOSYNC) {
980 86575 : mdb_flags |= MDB_NOSYNC;
981 : }
982 87662 : ret = mdb_env_open(*env, path, mdb_flags, 0644);
983 87662 : if (ret != 0) {
984 62 : ldb_asprintf_errstring(ldb,
985 : "Could not open DB %s: %s\n",
986 : path, mdb_strerror(ret));
987 62 : TALLOC_FREE(w);
988 62 : return ldb_mdb_err_map(ret);
989 : }
990 :
991 : {
992 87600 : MDB_envinfo stat = {0};
993 87600 : ret = mdb_env_info (*env, &stat);
994 87600 : if (ret != 0) {
995 0 : ldb_asprintf_errstring(
996 : ldb,
997 : "Could not get MDB environment stats %s: %s\n",
998 : path,
999 : mdb_strerror(ret));
1000 0 : return ldb_mdb_err_map(ret);
1001 : }
1002 : }
1003 :
1004 87600 : ret = mdb_env_get_fd(*env, &fd);
1005 87600 : if (ret != 0) {
1006 0 : ldb_asprintf_errstring(ldb,
1007 : "Could not obtain DB FD %s: %s\n",
1008 : path, mdb_strerror(ret));
1009 0 : TALLOC_FREE(w);
1010 0 : return ldb_mdb_err_map(ret);
1011 : }
1012 :
1013 : /* Just as for TDB: on exec, don't inherit the fd */
1014 87600 : v = fcntl(fd, F_GETFD, 0);
1015 87600 : if (v == -1) {
1016 0 : TALLOC_FREE(w);
1017 0 : return LDB_ERR_OPERATIONS_ERROR;
1018 : }
1019 :
1020 87600 : ret = fcntl(fd, F_SETFD, v | FD_CLOEXEC);
1021 87600 : if (ret == -1) {
1022 0 : TALLOC_FREE(w);
1023 0 : return LDB_ERR_OPERATIONS_ERROR;
1024 : }
1025 :
1026 87600 : if (fstat(fd, &st) != 0) {
1027 0 : ldb_asprintf_errstring(
1028 : ldb,
1029 : "Could not stat %s:\n",
1030 : path);
1031 0 : TALLOC_FREE(w);
1032 0 : return LDB_ERR_OPERATIONS_ERROR;
1033 : }
1034 87600 : w->env = *env;
1035 87600 : w->device = st.st_dev;
1036 87600 : w->inode = st.st_ino;
1037 87600 : w->pid = pid;
1038 :
1039 87600 : talloc_set_destructor(w, mdb_env_wrap_destructor);
1040 :
1041 87600 : DLIST_ADD(mdb_list, w);
1042 :
1043 80674 : return LDB_SUCCESS;
1044 :
1045 : }
1046 :
1047 459788 : static int lmdb_pvt_open(struct lmdb_private *lmdb,
1048 : struct ldb_context *ldb,
1049 : const char *path,
1050 : const size_t env_map_size,
1051 : unsigned int flags)
1052 : {
1053 28859 : int ret;
1054 28859 : int lmdb_max_key_length;
1055 :
1056 459788 : if (flags & LDB_FLG_DONT_CREATE_DB) {
1057 28748 : struct stat st;
1058 457391 : if (stat(path, &st) != 0) {
1059 0 : return LDB_ERR_UNAVAILABLE;
1060 : }
1061 : }
1062 :
1063 459788 : ret = lmdb_open_env(lmdb, &lmdb->env, ldb, path, env_map_size, flags);
1064 459788 : if (ret != 0) {
1065 57 : return ret;
1066 : }
1067 :
1068 : /* Close when lmdb is released */
1069 459726 : talloc_set_destructor(lmdb, lmdb_pvt_destructor);
1070 :
1071 : /* Store the original pid during the LMDB open */
1072 459726 : lmdb->pid = getpid();
1073 :
1074 459726 : lmdb_max_key_length = mdb_env_get_maxkeysize(lmdb->env);
1075 :
1076 : /* This will never happen, but if it does make sure to freak out */
1077 459726 : if (lmdb_max_key_length < LDB_MDB_MAX_KEY_LENGTH) {
1078 0 : return ldb_operr(ldb);
1079 : }
1080 :
1081 430872 : return LDB_SUCCESS;
1082 : }
1083 :
1084 459788 : int lmdb_connect(struct ldb_context *ldb,
1085 : const char *url,
1086 : unsigned int flags,
1087 : const char *options[],
1088 : struct ldb_module **_module)
1089 : {
1090 459788 : const char *path = NULL;
1091 459788 : struct lmdb_private *lmdb = NULL;
1092 459788 : struct ldb_kv_private *ldb_kv = NULL;
1093 28859 : int ret;
1094 459788 : size_t env_map_size = 0;
1095 :
1096 : /*
1097 : * We hold locks, so we must use a private event context
1098 : * on each returned handle
1099 : */
1100 459788 : ldb_set_require_private_event_context(ldb);
1101 :
1102 459788 : path = lmdb_get_path(url);
1103 459788 : if (path == NULL) {
1104 0 : ldb_debug(ldb, LDB_DEBUG_ERROR, "Invalid mdb URL '%s'", url);
1105 0 : return LDB_ERR_OPERATIONS_ERROR;
1106 : }
1107 :
1108 459788 : ldb_kv = talloc_zero(ldb, struct ldb_kv_private);
1109 459788 : if (!ldb_kv) {
1110 0 : ldb_oom(ldb);
1111 0 : return LDB_ERR_OPERATIONS_ERROR;
1112 : }
1113 :
1114 459788 : lmdb = talloc_zero(ldb_kv, struct lmdb_private);
1115 459788 : if (lmdb == NULL) {
1116 0 : TALLOC_FREE(ldb_kv);
1117 0 : return ldb_oom(ldb);
1118 : }
1119 459788 : lmdb->ldb = ldb;
1120 459788 : ldb_kv->kv_ops = &lmdb_key_value_ops;
1121 :
1122 : {
1123 459788 : const char *size = ldb_options_find(
1124 : ldb, ldb->options, "lmdb_env_size");
1125 459788 : if (size != NULL) {
1126 339 : env_map_size = strtoull(size, NULL, 0);
1127 : }
1128 : }
1129 :
1130 459788 : ret = lmdb_pvt_open(lmdb, ldb, path, env_map_size, flags);
1131 459788 : if (ret != LDB_SUCCESS) {
1132 62 : TALLOC_FREE(ldb_kv);
1133 62 : return ret;
1134 : }
1135 :
1136 459726 : ldb_kv->lmdb_private = lmdb;
1137 459726 : if (flags & LDB_FLG_RDONLY) {
1138 30 : ldb_kv->read_only = true;
1139 : }
1140 :
1141 : /*
1142 : * This maximum length becomes encoded in the index values so
1143 : * must never change even if LMDB starts to allow longer keys.
1144 : * The override option is max_key_len_for_self_test, and is
1145 : * used for testing only.
1146 : */
1147 459726 : ldb_kv->max_key_length = LDB_MDB_MAX_KEY_LENGTH;
1148 :
1149 459726 : return ldb_kv_init_store(
1150 : ldb_kv, "ldb_mdb backend", ldb, options, _module);
1151 : }
|