Whamcloud - gitweb
LU-8648 all: remove all Sun license and URL references
[fs/lustre-release.git] / lustre / obdclass / llog.c
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.gnu.org/licenses/gpl-2.0.html
19  *
20  * GPL HEADER END
21  */
22 /*
23  * Copyright (c) 2003, 2010, Oracle and/or its affiliates. All rights reserved.
24  * Use is subject to license terms.
25  *
26  * Copyright (c) 2012, 2015, Intel Corporation.
27  */
28 /*
29  * This file is part of Lustre, http://www.lustre.org/
30  * Lustre is a trademark of Sun Microsystems, Inc.
31  *
32  * lustre/obdclass/llog.c
33  *
34  * OST<->MDS recovery logging infrastructure.
35  * Invariants in implementation:
36  * - we do not share logs among different OST<->MDS connections, so that
37  *   if an OST or MDS fails it need only look at log(s) relevant to itself
38  *
39  * Author: Andreas Dilger <adilger@clusterfs.com>
40  * Author: Alex Zhuravlev <bzzz@whamcloud.com>
41  * Author: Mikhail Pershin <tappro@whamcloud.com>
42  */
43
44 #define DEBUG_SUBSYSTEM S_LOG
45
46 #include <linux/kthread.h>
47 #include <llog_swab.h>
48 #include <lustre_log.h>
49 #include <obd_class.h>
50 #include "llog_internal.h"
51 /*
52  * Allocate a new log or catalog handle
53  * Used inside llog_open().
54  */
55 static struct llog_handle *llog_alloc_handle(void)
56 {
57         struct llog_handle *loghandle;
58
59         OBD_ALLOC_PTR(loghandle);
60         if (loghandle == NULL)
61                 return NULL;
62
63         init_rwsem(&loghandle->lgh_lock);
64         mutex_init(&loghandle->lgh_hdr_mutex);
65         INIT_LIST_HEAD(&loghandle->u.phd.phd_entry);
66         atomic_set(&loghandle->lgh_refcount, 1);
67
68         return loghandle;
69 }
70
71 /*
72  * Free llog handle and header data if exists. Used in llog_close() only
73  */
74 static void llog_free_handle(struct llog_handle *loghandle)
75 {
76         LASSERT(loghandle != NULL);
77
78         /* failed llog_init_handle */
79         if (loghandle->lgh_hdr == NULL)
80                 goto out;
81
82         if (loghandle->lgh_hdr->llh_flags & LLOG_F_IS_PLAIN)
83                 LASSERT(list_empty(&loghandle->u.phd.phd_entry));
84         else if (loghandle->lgh_hdr->llh_flags & LLOG_F_IS_CAT)
85                 LASSERT(list_empty(&loghandle->u.chd.chd_head));
86         OBD_FREE_LARGE(loghandle->lgh_hdr, loghandle->lgh_hdr_size);
87 out:
88         OBD_FREE_PTR(loghandle);
89 }
90
91 void llog_handle_get(struct llog_handle *loghandle)
92 {
93         atomic_inc(&loghandle->lgh_refcount);
94 }
95
96 void llog_handle_put(struct llog_handle *loghandle)
97 {
98         LASSERT(atomic_read(&loghandle->lgh_refcount) > 0);
99         if (atomic_dec_and_test(&loghandle->lgh_refcount))
100                 llog_free_handle(loghandle);
101 }
102
103 static int llog_declare_destroy(const struct lu_env *env,
104                                 struct llog_handle *handle,
105                                 struct thandle *th)
106 {
107         struct llog_operations *lop;
108         int rc;
109
110         ENTRY;
111
112         rc = llog_handle2ops(handle, &lop);
113         if (rc)
114                 RETURN(rc);
115         if (lop->lop_declare_destroy == NULL)
116                 RETURN(-EOPNOTSUPP);
117
118         rc = lop->lop_declare_destroy(env, handle, th);
119
120         RETURN(rc);
121 }
122
123 int llog_trans_destroy(const struct lu_env *env, struct llog_handle *handle,
124                        struct thandle *th)
125 {
126         struct llog_operations  *lop;
127         int rc;
128         ENTRY;
129
130         rc = llog_handle2ops(handle, &lop);
131         if (rc < 0)
132                 RETURN(rc);
133         if (lop->lop_destroy == NULL)
134                 RETURN(-EOPNOTSUPP);
135
136         LASSERT(handle->lgh_obj != NULL);
137         if (!dt_object_exists(handle->lgh_obj))
138                 RETURN(0);
139
140         rc = lop->lop_destroy(env, handle, th);
141
142         RETURN(rc);
143 }
144
145 int llog_destroy(const struct lu_env *env, struct llog_handle *handle)
146 {
147         struct llog_operations  *lop;
148         struct dt_device        *dt;
149         struct thandle          *th;
150         int rc;
151
152         ENTRY;
153
154         rc = llog_handle2ops(handle, &lop);
155         if (rc < 0)
156                 RETURN(rc);
157         if (lop->lop_destroy == NULL)
158                 RETURN(-EOPNOTSUPP);
159
160         if (handle->lgh_obj == NULL) {
161                 /* if lgh_obj == NULL, then it is from client side destroy */
162                 rc = lop->lop_destroy(env, handle, NULL);
163                 RETURN(rc);
164         }
165
166         if (!dt_object_exists(handle->lgh_obj))
167                 RETURN(0);
168
169         dt = lu2dt_dev(handle->lgh_obj->do_lu.lo_dev);
170
171         th = dt_trans_create(env, dt);
172         if (IS_ERR(th))
173                 RETURN(PTR_ERR(th));
174
175         rc = llog_declare_destroy(env, handle, th);
176         if (rc != 0)
177                 GOTO(out_trans, rc);
178
179         rc = dt_trans_start_local(env, dt, th);
180         if (rc < 0)
181                 GOTO(out_trans, rc);
182
183         rc = lop->lop_destroy(env, handle, th);
184
185 out_trans:
186         dt_trans_stop(env, dt, th);
187
188         RETURN(rc);
189 }
190 EXPORT_SYMBOL(llog_destroy);
191
192 /* returns negative on error; 0 if success; 1 if success & log destroyed */
193 int llog_cancel_rec(const struct lu_env *env, struct llog_handle *loghandle,
194                     int index)
195 {
196         struct llog_thread_info *lgi = llog_info(env);
197         struct dt_device        *dt;
198         struct llog_log_hdr     *llh = loghandle->lgh_hdr;
199         struct thandle          *th;
200         int                      rc;
201         int rc1;
202         bool subtract_count = false;
203
204         ENTRY;
205
206         CDEBUG(D_RPCTRACE, "Canceling %d in log "DOSTID"\n", index,
207                POSTID(&loghandle->lgh_id.lgl_oi));
208
209         if (index == 0) {
210                 CERROR("Can't cancel index 0 which is header\n");
211                 RETURN(-EINVAL);
212         }
213
214         LASSERT(loghandle != NULL);
215         LASSERT(loghandle->lgh_ctxt != NULL);
216         LASSERT(loghandle->lgh_obj != NULL);
217
218         dt = lu2dt_dev(loghandle->lgh_obj->do_lu.lo_dev);
219
220         th = dt_trans_create(env, dt);
221         if (IS_ERR(th))
222                 RETURN(PTR_ERR(th));
223
224         rc = llog_declare_write_rec(env, loghandle, &llh->llh_hdr, index, th);
225         if (rc < 0)
226                 GOTO(out_trans, rc);
227
228         if ((llh->llh_flags & LLOG_F_ZAP_WHEN_EMPTY)) {
229                 rc = llog_declare_destroy(env, loghandle, th);
230                 if (rc < 0)
231                         GOTO(out_trans, rc);
232         }
233
234         th->th_wait_submit = 1;
235         rc = dt_trans_start_local(env, dt, th);
236         if (rc < 0)
237                 GOTO(out_trans, rc);
238
239         down_write(&loghandle->lgh_lock);
240         /* clear bitmap */
241         mutex_lock(&loghandle->lgh_hdr_mutex);
242         if (!ext2_clear_bit(index, LLOG_HDR_BITMAP(llh))) {
243                 CDEBUG(D_RPCTRACE, "Catalog index %u already clear?\n", index);
244                 GOTO(out_unlock, rc);
245         }
246
247         loghandle->lgh_hdr->llh_count--;
248         subtract_count = true;
249         /* Pass this index to llog_osd_write_rec(), which will use the index
250          * to only update the necesary bitmap. */
251         lgi->lgi_cookie.lgc_index = index;
252         /* update header */
253         rc = llog_write_rec(env, loghandle, &llh->llh_hdr, &lgi->lgi_cookie,
254                             LLOG_HEADER_IDX, th);
255         if (rc != 0)
256                 GOTO(out_unlock, rc);
257
258         if ((llh->llh_flags & LLOG_F_ZAP_WHEN_EMPTY) &&
259             (llh->llh_count == 1) &&
260             ((loghandle->lgh_last_idx == LLOG_HDR_BITMAP_SIZE(llh) - 1) ||
261              (loghandle->u.phd.phd_cat_handle != NULL &&
262               loghandle->u.phd.phd_cat_handle->u.chd.chd_current_log !=
263                 loghandle))) {
264                 /* never try to destroy it again */
265                 llh->llh_flags &= ~LLOG_F_ZAP_WHEN_EMPTY;
266                 rc = llog_trans_destroy(env, loghandle, th);
267                 if (rc < 0) {
268                         /* Sigh, can not destroy the final plain llog, but
269                          * the bitmap has been clearly, so the record can not
270                          * be accessed anymore, let's return 0 for now, and
271                          * the orphan will be handled by LFSCK. */
272                         CERROR("%s: can't destroy empty llog #"DOSTID
273                                "#%08x: rc = %d\n",
274                                loghandle->lgh_ctxt->loc_obd->obd_name,
275                                POSTID(&loghandle->lgh_id.lgl_oi),
276                                loghandle->lgh_id.lgl_ogen, rc);
277                         GOTO(out_unlock, rc);
278                 }
279                 rc = LLOG_DEL_PLAIN;
280         }
281
282 out_unlock:
283         mutex_unlock(&loghandle->lgh_hdr_mutex);
284         up_write(&loghandle->lgh_lock);
285 out_trans:
286         rc1 = dt_trans_stop(env, dt, th);
287         if (rc == 0)
288                 rc = rc1;
289         if (rc < 0 && subtract_count) {
290                 mutex_lock(&loghandle->lgh_hdr_mutex);
291                 loghandle->lgh_hdr->llh_count++;
292                 ext2_set_bit(index, LLOG_HDR_BITMAP(llh));
293                 mutex_unlock(&loghandle->lgh_hdr_mutex);
294         }
295         RETURN(rc);
296 }
297
298 int llog_read_header(const struct lu_env *env, struct llog_handle *handle,
299                      const struct obd_uuid *uuid)
300 {
301         struct llog_operations *lop;
302         int rc;
303         ENTRY;
304
305         rc = llog_handle2ops(handle, &lop);
306         if (rc)
307                 RETURN(rc);
308
309         if (lop->lop_read_header == NULL)
310                 RETURN(-EOPNOTSUPP);
311
312         rc = lop->lop_read_header(env, handle);
313         if (rc == LLOG_EEMPTY) {
314                 struct llog_log_hdr *llh = handle->lgh_hdr;
315
316                 /* lrh_len should be initialized in llog_init_handle */
317                 handle->lgh_last_idx = 0; /* header is record with index 0 */
318                 handle->lgh_write_offset = 0;
319                 llh->llh_count = 1;         /* for the header record */
320                 llh->llh_hdr.lrh_type = LLOG_HDR_MAGIC;
321                 LASSERT(handle->lgh_ctxt->loc_chunk_size >=
322                                                 LLOG_MIN_CHUNK_SIZE);
323                 llh->llh_hdr.lrh_len = handle->lgh_ctxt->loc_chunk_size;
324                 llh->llh_hdr.lrh_index = 0;
325                 llh->llh_timestamp = cfs_time_current_sec();
326                 if (uuid)
327                         memcpy(&llh->llh_tgtuuid, uuid,
328                                sizeof(llh->llh_tgtuuid));
329                 llh->llh_bitmap_offset = offsetof(typeof(*llh), llh_bitmap);
330                 /* Since update llog header might also call this function,
331                  * let's reset the bitmap to 0 here */
332                 memset(LLOG_HDR_BITMAP(llh), 0, llh->llh_hdr.lrh_len -
333                                                 llh->llh_bitmap_offset -
334                                                 sizeof(llh->llh_tail));
335                 ext2_set_bit(0, LLOG_HDR_BITMAP(llh));
336                 LLOG_HDR_TAIL(llh)->lrt_len = llh->llh_hdr.lrh_len;
337                 LLOG_HDR_TAIL(llh)->lrt_index = llh->llh_hdr.lrh_index;
338                 rc = 0;
339         }
340         RETURN(rc);
341 }
342 EXPORT_SYMBOL(llog_read_header);
343
344 int llog_init_handle(const struct lu_env *env, struct llog_handle *handle,
345                      int flags, struct obd_uuid *uuid)
346 {
347         struct llog_log_hdr     *llh;
348         enum llog_flag           fmt = flags & LLOG_F_EXT_MASK;
349         int                      rc;
350         int                     chunk_size = handle->lgh_ctxt->loc_chunk_size;
351         ENTRY;
352
353         LASSERT(handle->lgh_hdr == NULL);
354
355         LASSERT(chunk_size >= LLOG_MIN_CHUNK_SIZE);
356         OBD_ALLOC_LARGE(llh, chunk_size);
357         if (llh == NULL)
358                 RETURN(-ENOMEM);
359
360         handle->lgh_hdr = llh;
361         handle->lgh_hdr_size = chunk_size;
362         /* first assign flags to use llog_client_ops */
363         llh->llh_flags = flags;
364         rc = llog_read_header(env, handle, uuid);
365         if (rc == 0) {
366                 if (unlikely((llh->llh_flags & LLOG_F_IS_PLAIN &&
367                               flags & LLOG_F_IS_CAT) ||
368                              (llh->llh_flags & LLOG_F_IS_CAT &&
369                               flags & LLOG_F_IS_PLAIN))) {
370                         CERROR("%s: llog type is %s but initializing %s\n",
371                                handle->lgh_ctxt->loc_obd->obd_name,
372                                llh->llh_flags & LLOG_F_IS_CAT ?
373                                "catalog" : "plain",
374                                flags & LLOG_F_IS_CAT ? "catalog" : "plain");
375                         GOTO(out, rc = -EINVAL);
376                 } else if (llh->llh_flags &
377                            (LLOG_F_IS_PLAIN | LLOG_F_IS_CAT)) {
378                         /*
379                          * it is possible to open llog without specifying llog
380                          * type so it is taken from llh_flags
381                          */
382                         flags = llh->llh_flags;
383                 } else {
384                         /* for some reason the llh_flags has no type set */
385                         CERROR("llog type is not specified!\n");
386                         GOTO(out, rc = -EINVAL);
387                 }
388                 if (unlikely(uuid &&
389                              !obd_uuid_equals(uuid, &llh->llh_tgtuuid))) {
390                         CERROR("%s: llog uuid mismatch: %s/%s\n",
391                                handle->lgh_ctxt->loc_obd->obd_name,
392                                (char *)uuid->uuid,
393                                (char *)llh->llh_tgtuuid.uuid);
394                         GOTO(out, rc = -EEXIST);
395                 }
396         }
397         if (flags & LLOG_F_IS_CAT) {
398                 LASSERT(list_empty(&handle->u.chd.chd_head));
399                 INIT_LIST_HEAD(&handle->u.chd.chd_head);
400                 llh->llh_size = sizeof(struct llog_logid_rec);
401                 llh->llh_flags |= LLOG_F_IS_FIXSIZE;
402         } else if (!(flags & LLOG_F_IS_PLAIN)) {
403                 CERROR("%s: unknown flags: %#x (expected %#x or %#x)\n",
404                        handle->lgh_ctxt->loc_obd->obd_name,
405                        flags, LLOG_F_IS_CAT, LLOG_F_IS_PLAIN);
406                 rc = -EINVAL;
407         }
408         llh->llh_flags |= fmt;
409 out:
410         if (rc) {
411                 OBD_FREE_LARGE(llh, chunk_size);
412                 handle->lgh_hdr = NULL;
413         }
414         RETURN(rc);
415 }
416 EXPORT_SYMBOL(llog_init_handle);
417
418 static int llog_process_thread(void *arg)
419 {
420         struct llog_process_info        *lpi = arg;
421         struct llog_handle              *loghandle = lpi->lpi_loghandle;
422         struct llog_log_hdr             *llh = loghandle->lgh_hdr;
423         struct llog_process_cat_data    *cd  = lpi->lpi_catdata;
424         char                            *buf;
425         size_t                           chunk_size;
426         __u64                            cur_offset, tmp_offset;
427         int                              rc = 0, index = 1, last_index;
428         int                              saved_index = 0;
429         int                              last_called_index = 0;
430
431         ENTRY;
432
433         if (llh == NULL)
434                 RETURN(-EINVAL);
435
436         cur_offset = chunk_size = llh->llh_hdr.lrh_len;
437         /* expect chunk_size to be power of two */
438         LASSERT(is_power_of_2(chunk_size));
439
440         OBD_ALLOC_LARGE(buf, chunk_size);
441         if (buf == NULL) {
442                 lpi->lpi_rc = -ENOMEM;
443                 RETURN(0);
444         }
445
446         if (cd != NULL) {
447                 last_called_index = cd->lpcd_first_idx;
448                 index = cd->lpcd_first_idx + 1;
449         }
450         if (cd != NULL && cd->lpcd_last_idx)
451                 last_index = cd->lpcd_last_idx;
452         else
453                 last_index = LLOG_HDR_BITMAP_SIZE(llh) - 1;
454
455         while (rc == 0) {
456                 struct llog_rec_hdr *rec;
457                 off_t chunk_offset;
458                 unsigned int buf_offset = 0;
459                 bool partial_chunk;
460
461                 /* skip records not set in bitmap */
462                 while (index <= last_index &&
463                        !ext2_test_bit(index, LLOG_HDR_BITMAP(llh)))
464                         ++index;
465
466                 /* There are no indices prior the last_index */
467                 if (index > last_index)
468                         break;
469
470                 CDEBUG(D_OTHER, "index: %d last_index %d\n", index,
471                        last_index);
472
473 repeat:
474                 /* get the buf with our target record; avoid old garbage */
475                 memset(buf, 0, chunk_size);
476                 rc = llog_next_block(lpi->lpi_env, loghandle, &saved_index,
477                                      index, &cur_offset, buf, chunk_size);
478                 if (rc != 0)
479                         GOTO(out, rc);
480
481                 /* NB: after llog_next_block() call the cur_offset is the
482                  * offset of the next block after read one.
483                  * The absolute offset of the current chunk is calculated
484                  * from cur_offset value and stored in chunk_offset variable.
485                  */
486                 tmp_offset = cur_offset;
487                 if (do_div(tmp_offset, chunk_size) != 0) {
488                         partial_chunk = true;
489                         chunk_offset = cur_offset & ~(chunk_size - 1);
490                 } else {
491                         partial_chunk = false;
492                         chunk_offset = cur_offset - chunk_size;
493                 }
494
495                 /* NB: when rec->lrh_len is accessed it is already swabbed
496                  * since it is used at the "end" of the loop and the rec
497                  * swabbing is done at the beginning of the loop. */
498                 for (rec = (struct llog_rec_hdr *)(buf + buf_offset);
499                      (char *)rec < buf + chunk_size;
500                      rec = llog_rec_hdr_next(rec)) {
501
502                         CDEBUG(D_OTHER, "processing rec 0x%p type %#x\n",
503                                rec, rec->lrh_type);
504
505                         if (LLOG_REC_HDR_NEEDS_SWABBING(rec))
506                                 lustre_swab_llog_rec(rec);
507
508                         CDEBUG(D_OTHER, "after swabbing, type=%#x idx=%d\n",
509                                rec->lrh_type, rec->lrh_index);
510
511                         /* for partial chunk the end of it is zeroed, check
512                          * for index 0 to distinguish it. */
513                         if (partial_chunk && rec->lrh_index == 0) {
514                                 /* concurrent llog_add() might add new records
515                                  * while llog_processing, check this is not
516                                  * the case and re-read the current chunk
517                                  * otherwise. */
518                                 if (index > loghandle->lgh_last_idx)
519                                         GOTO(out, rc = 0);
520                                 CDEBUG(D_OTHER, "Re-read last llog buffer for "
521                                        "new records, index %u, last %u\n",
522                                        index, loghandle->lgh_last_idx);
523                                 /* save offset inside buffer for the re-read */
524                                 buf_offset = (char *)rec - (char *)buf;
525                                 cur_offset = chunk_offset;
526                                 goto repeat;
527                         }
528
529                         if (rec->lrh_len == 0 || rec->lrh_len > chunk_size) {
530                                 CWARN("invalid length %d in llog record for "
531                                       "index %d/%d\n", rec->lrh_len,
532                                       rec->lrh_index, index);
533                                 GOTO(out, rc = -EINVAL);
534                         }
535
536                         if (rec->lrh_index < index) {
537                                 CDEBUG(D_OTHER, "skipping lrh_index %d\n",
538                                        rec->lrh_index);
539                                 continue;
540                         }
541
542                         if (rec->lrh_index != index) {
543                                 CERROR("%s: Invalid record: index %u but "
544                                        "expected %u\n",
545                                        loghandle->lgh_ctxt->loc_obd->obd_name,
546                                        rec->lrh_index, index);
547                                 GOTO(out, rc = -ERANGE);
548                         }
549
550                         CDEBUG(D_OTHER,
551                                "lrh_index: %d lrh_len: %d (%d remains)\n",
552                                rec->lrh_index, rec->lrh_len,
553                                (int)(buf + chunk_size - (char *)rec));
554
555                         loghandle->lgh_cur_idx = rec->lrh_index;
556                         loghandle->lgh_cur_offset = (char *)rec - (char *)buf +
557                                                     chunk_offset;
558
559                         /* if set, process the callback on this record */
560                         if (ext2_test_bit(index, LLOG_HDR_BITMAP(llh))) {
561                                 rc = lpi->lpi_cb(lpi->lpi_env, loghandle, rec,
562                                                  lpi->lpi_cbdata);
563                                 last_called_index = index;
564                                 if (rc == LLOG_PROC_BREAK) {
565                                         GOTO(out, rc);
566                                 } else if (rc == LLOG_DEL_RECORD) {
567                                         rc = llog_cancel_rec(lpi->lpi_env,
568                                                              loghandle,
569                                                              rec->lrh_index);
570                                 }
571                                 if (rc)
572                                         GOTO(out, rc);
573                         }
574                         /* exit if the last index is reached */
575                         if (index >= last_index)
576                                 GOTO(out, rc = 0);
577                         ++index;
578                 }
579         }
580
581 out:
582         if (cd != NULL)
583                 cd->lpcd_last_idx = last_called_index;
584
585         if (unlikely(rc == -EIO && loghandle->lgh_obj != NULL)) {
586                 if (dt_object_remote(loghandle->lgh_obj)) {
587                         /* If it is remote object, then -EIO might means
588                          * disconnection or eviction, let's return -EAGAIN,
589                          * so for update recovery log processing, it will
590                          * retry until the umount or abort recovery, see
591                          * lod_sub_recovery_thread() */
592                         CERROR("%s retry remote llog process\n",
593                                loghandle->lgh_ctxt->loc_obd->obd_name);
594                         rc = -EAGAIN;
595                 } else {
596                         /* something bad happened to the processing of a local
597                          * llog file, probably I/O error or the log got
598                          * corrupted to be able to finally release the log we
599                          * discard any remaining bits in the header */
600                         CERROR("Local llog found corrupted\n");
601                         while (index <= last_index) {
602                                 if (ext2_test_bit(index,
603                                                   LLOG_HDR_BITMAP(llh)) != 0)
604                                         llog_cancel_rec(lpi->lpi_env, loghandle,
605                                                         index);
606                                 index++;
607                         }
608                         rc = 0;
609                 }
610         }
611
612         OBD_FREE_LARGE(buf, chunk_size);
613         lpi->lpi_rc = rc;
614         return 0;
615 }
616
617 static int llog_process_thread_daemonize(void *arg)
618 {
619         struct llog_process_info        *lpi = arg;
620         struct lu_env                    env;
621         int                              rc;
622
623         unshare_fs_struct();
624
625         /* client env has no keys, tags is just 0 */
626         rc = lu_env_init(&env, LCT_LOCAL | LCT_MG_THREAD);
627         if (rc)
628                 goto out;
629         lpi->lpi_env = &env;
630
631         rc = llog_process_thread(arg);
632
633         lu_env_fini(&env);
634 out:
635         complete(&lpi->lpi_completion);
636         return rc;
637 }
638
639 int llog_process_or_fork(const struct lu_env *env,
640                          struct llog_handle *loghandle,
641                          llog_cb_t cb, void *data, void *catdata, bool fork)
642 {
643         struct llog_process_info *lpi;
644         int                      rc;
645
646         ENTRY;
647
648         OBD_ALLOC_PTR(lpi);
649         if (lpi == NULL) {
650                 CERROR("cannot alloc pointer\n");
651                 RETURN(-ENOMEM);
652         }
653         lpi->lpi_loghandle = loghandle;
654         lpi->lpi_cb        = cb;
655         lpi->lpi_cbdata    = data;
656         lpi->lpi_catdata   = catdata;
657
658         if (fork) {
659                 struct task_struct *task;
660
661                 /* The new thread can't use parent env,
662                  * init the new one in llog_process_thread_daemonize. */
663                 lpi->lpi_env = NULL;
664                 init_completion(&lpi->lpi_completion);
665                 task = kthread_run(llog_process_thread_daemonize, lpi,
666                                    "llog_process_thread");
667                 if (IS_ERR(task)) {
668                         rc = PTR_ERR(task);
669                         CERROR("%s: cannot start thread: rc = %d\n",
670                                loghandle->lgh_ctxt->loc_obd->obd_name, rc);
671                         GOTO(out_lpi, rc);
672                 }
673                 wait_for_completion(&lpi->lpi_completion);
674         } else {
675                 lpi->lpi_env = env;
676                 llog_process_thread(lpi);
677         }
678         rc = lpi->lpi_rc;
679
680 out_lpi:
681         OBD_FREE_PTR(lpi);
682         RETURN(rc);
683 }
684 EXPORT_SYMBOL(llog_process_or_fork);
685
686 int llog_process(const struct lu_env *env, struct llog_handle *loghandle,
687                  llog_cb_t cb, void *data, void *catdata)
688 {
689         int rc;
690         rc = llog_process_or_fork(env, loghandle, cb, data, catdata, true);
691         return rc == LLOG_DEL_PLAIN ? 0 : rc;
692 }
693 EXPORT_SYMBOL(llog_process);
694
695 int llog_reverse_process(const struct lu_env *env,
696                          struct llog_handle *loghandle, llog_cb_t cb,
697                          void *data, void *catdata)
698 {
699         struct llog_log_hdr *llh = loghandle->lgh_hdr;
700         struct llog_process_cat_data *cd = catdata;
701         void *buf;
702         int rc = 0, first_index = 1, index, idx;
703         __u32   chunk_size = llh->llh_hdr.lrh_len;
704         ENTRY;
705
706         OBD_ALLOC_LARGE(buf, chunk_size);
707         if (buf == NULL)
708                 RETURN(-ENOMEM);
709
710         if (cd != NULL)
711                 first_index = cd->lpcd_first_idx + 1;
712         if (cd != NULL && cd->lpcd_last_idx)
713                 index = cd->lpcd_last_idx;
714         else
715                 index = LLOG_HDR_BITMAP_SIZE(llh) - 1;
716
717         while (rc == 0) {
718                 struct llog_rec_hdr *rec;
719                 struct llog_rec_tail *tail;
720
721                 /* skip records not set in bitmap */
722                 while (index >= first_index &&
723                        !ext2_test_bit(index, LLOG_HDR_BITMAP(llh)))
724                         --index;
725
726                 LASSERT(index >= first_index - 1);
727                 if (index == first_index - 1)
728                         break;
729
730                 /* get the buf with our target record; avoid old garbage */
731                 memset(buf, 0, chunk_size);
732                 rc = llog_prev_block(env, loghandle, index, buf, chunk_size);
733                 if (rc)
734                         GOTO(out, rc);
735
736                 rec = buf;
737                 idx = rec->lrh_index;
738                 CDEBUG(D_RPCTRACE, "index %u : idx %u\n", index, idx);
739                 while (idx < index) {
740                         rec = (void *)rec + rec->lrh_len;
741                         if (LLOG_REC_HDR_NEEDS_SWABBING(rec))
742                                 lustre_swab_llog_rec(rec);
743                         idx ++;
744                 }
745                 LASSERT(idx == index);
746                 tail = (void *)rec + rec->lrh_len - sizeof(*tail);
747
748                 /* process records in buffer, starting where we found one */
749                 while ((void *)tail > buf) {
750                         if (tail->lrt_index == 0)
751                                 GOTO(out, rc = 0); /* no more records */
752
753                         /* if set, process the callback on this record */
754                         if (ext2_test_bit(index, LLOG_HDR_BITMAP(llh))) {
755                                 rec = (void *)tail - tail->lrt_len +
756                                       sizeof(*tail);
757
758                                 rc = cb(env, loghandle, rec, data);
759                                 if (rc == LLOG_PROC_BREAK) {
760                                         GOTO(out, rc);
761                                 } else if (rc == LLOG_DEL_RECORD) {
762                                         rc = llog_cancel_rec(env, loghandle,
763                                                              tail->lrt_index);
764                                 }
765                                 if (rc)
766                                         GOTO(out, rc);
767                         }
768
769                         /* previous record, still in buffer? */
770                         --index;
771                         if (index < first_index)
772                                 GOTO(out, rc = 0);
773                         tail = (void *)tail - tail->lrt_len;
774                 }
775         }
776
777 out:
778         if (buf != NULL)
779                 OBD_FREE_LARGE(buf, chunk_size);
780         RETURN(rc);
781 }
782 EXPORT_SYMBOL(llog_reverse_process);
783
784 /**
785  * new llog API
786  *
787  * API functions:
788  *      llog_open - open llog, may not exist
789  *      llog_exist - check if llog exists
790  *      llog_close - close opened llog, pair for open, frees llog_handle
791  *      llog_declare_create - declare llog creation
792  *      llog_create - create new llog on disk, need transaction handle
793  *      llog_declare_write_rec - declaration of llog write
794  *      llog_write_rec - write llog record on disk, need transaction handle
795  *      llog_declare_add - declare llog catalog record addition
796  *      llog_add - add llog record in catalog, need transaction handle
797  */
798 int llog_exist(struct llog_handle *loghandle)
799 {
800         struct llog_operations  *lop;
801         int                      rc;
802
803         ENTRY;
804
805         rc = llog_handle2ops(loghandle, &lop);
806         if (rc)
807                 RETURN(rc);
808         if (lop->lop_exist == NULL)
809                 RETURN(-EOPNOTSUPP);
810
811         rc = lop->lop_exist(loghandle);
812         RETURN(rc);
813 }
814 EXPORT_SYMBOL(llog_exist);
815
816 int llog_declare_create(const struct lu_env *env,
817                         struct llog_handle *loghandle, struct thandle *th)
818 {
819         struct llog_operations  *lop;
820         int                      raised, rc;
821
822         ENTRY;
823
824         rc = llog_handle2ops(loghandle, &lop);
825         if (rc)
826                 RETURN(rc);
827         if (lop->lop_declare_create == NULL)
828                 RETURN(-EOPNOTSUPP);
829
830         raised = cfs_cap_raised(CFS_CAP_SYS_RESOURCE);
831         if (!raised)
832                 cfs_cap_raise(CFS_CAP_SYS_RESOURCE);
833         rc = lop->lop_declare_create(env, loghandle, th);
834         if (!raised)
835                 cfs_cap_lower(CFS_CAP_SYS_RESOURCE);
836         RETURN(rc);
837 }
838
839 int llog_create(const struct lu_env *env, struct llog_handle *handle,
840                 struct thandle *th)
841 {
842         struct llog_operations  *lop;
843         int                      raised, rc;
844
845         ENTRY;
846
847         rc = llog_handle2ops(handle, &lop);
848         if (rc)
849                 RETURN(rc);
850         if (lop->lop_create == NULL)
851                 RETURN(-EOPNOTSUPP);
852
853         raised = cfs_cap_raised(CFS_CAP_SYS_RESOURCE);
854         if (!raised)
855                 cfs_cap_raise(CFS_CAP_SYS_RESOURCE);
856         rc = lop->lop_create(env, handle, th);
857         if (!raised)
858                 cfs_cap_lower(CFS_CAP_SYS_RESOURCE);
859         RETURN(rc);
860 }
861
862 int llog_declare_write_rec(const struct lu_env *env,
863                            struct llog_handle *handle,
864                            struct llog_rec_hdr *rec, int idx,
865                            struct thandle *th)
866 {
867         struct llog_operations  *lop;
868         int                      raised, rc;
869
870         ENTRY;
871
872         rc = llog_handle2ops(handle, &lop);
873         if (rc)
874                 RETURN(rc);
875         LASSERT(lop);
876         if (lop->lop_declare_write_rec == NULL)
877                 RETURN(-EOPNOTSUPP);
878
879         raised = cfs_cap_raised(CFS_CAP_SYS_RESOURCE);
880         if (!raised)
881                 cfs_cap_raise(CFS_CAP_SYS_RESOURCE);
882         rc = lop->lop_declare_write_rec(env, handle, rec, idx, th);
883         if (!raised)
884                 cfs_cap_lower(CFS_CAP_SYS_RESOURCE);
885         RETURN(rc);
886 }
887
888 int llog_write_rec(const struct lu_env *env, struct llog_handle *handle,
889                    struct llog_rec_hdr *rec, struct llog_cookie *logcookies,
890                    int idx, struct thandle *th)
891 {
892         struct llog_operations  *lop;
893         int                      raised, rc, buflen;
894
895         ENTRY;
896
897         /* API sanity checks */
898         if (handle == NULL) {
899                 CERROR("loghandle is missed\n");
900                 RETURN(-EPROTO);
901         } else if (handle->lgh_obj == NULL) {
902                 CERROR("loghandle %p with NULL object\n",
903                         handle);
904                 RETURN(-EPROTO);
905         } else if (th == NULL) {
906                 CERROR("%s: missed transaction handle\n",
907                         handle->lgh_obj->do_lu.lo_dev->ld_obd->obd_name);
908                 RETURN(-EPROTO);
909         } else if (handle->lgh_hdr == NULL) {
910                 CERROR("%s: loghandle %p with no header\n",
911                         handle->lgh_obj->do_lu.lo_dev->ld_obd->obd_name,
912                         handle);
913                 RETURN(-EPROTO);
914         }
915
916         rc = llog_handle2ops(handle, &lop);
917         if (rc)
918                 RETURN(rc);
919
920         if (lop->lop_write_rec == NULL)
921                 RETURN(-EOPNOTSUPP);
922
923         buflen = rec->lrh_len;
924         LASSERT(cfs_size_round(buflen) == buflen);
925
926         raised = cfs_cap_raised(CFS_CAP_SYS_RESOURCE);
927         if (!raised)
928                 cfs_cap_raise(CFS_CAP_SYS_RESOURCE);
929         rc = lop->lop_write_rec(env, handle, rec, logcookies, idx, th);
930         if (!raised)
931                 cfs_cap_lower(CFS_CAP_SYS_RESOURCE);
932         RETURN(rc);
933 }
934
935 int llog_add(const struct lu_env *env, struct llog_handle *lgh,
936              struct llog_rec_hdr *rec, struct llog_cookie *logcookies,
937              struct thandle *th)
938 {
939         int raised, rc;
940
941         ENTRY;
942
943         if (lgh->lgh_logops->lop_add == NULL)
944                 RETURN(-EOPNOTSUPP);
945
946         raised = cfs_cap_raised(CFS_CAP_SYS_RESOURCE);
947         if (!raised)
948                 cfs_cap_raise(CFS_CAP_SYS_RESOURCE);
949         rc = lgh->lgh_logops->lop_add(env, lgh, rec, logcookies, th);
950         if (!raised)
951                 cfs_cap_lower(CFS_CAP_SYS_RESOURCE);
952         RETURN(rc);
953 }
954 EXPORT_SYMBOL(llog_add);
955
956 int llog_declare_add(const struct lu_env *env, struct llog_handle *lgh,
957                      struct llog_rec_hdr *rec, struct thandle *th)
958 {
959         int raised, rc;
960
961         ENTRY;
962
963         if (lgh->lgh_logops->lop_declare_add == NULL)
964                 RETURN(-EOPNOTSUPP);
965
966         raised = cfs_cap_raised(CFS_CAP_SYS_RESOURCE);
967         if (!raised)
968                 cfs_cap_raise(CFS_CAP_SYS_RESOURCE);
969         rc = lgh->lgh_logops->lop_declare_add(env, lgh, rec, th);
970         if (!raised)
971                 cfs_cap_lower(CFS_CAP_SYS_RESOURCE);
972         RETURN(rc);
973 }
974 EXPORT_SYMBOL(llog_declare_add);
975
976 /**
977  * Helper function to open llog or create it if doesn't exist.
978  * It hides all transaction handling from caller.
979  */
980 int llog_open_create(const struct lu_env *env, struct llog_ctxt *ctxt,
981                      struct llog_handle **res, struct llog_logid *logid,
982                      char *name)
983 {
984         struct dt_device        *d;
985         struct thandle          *th;
986         int                      rc;
987
988         ENTRY;
989
990         rc = llog_open(env, ctxt, res, logid, name, LLOG_OPEN_NEW);
991         if (rc)
992                 RETURN(rc);
993
994         if (llog_exist(*res))
995                 RETURN(0);
996
997         LASSERT((*res)->lgh_obj != NULL);
998
999         d = lu2dt_dev((*res)->lgh_obj->do_lu.lo_dev);
1000
1001         th = dt_trans_create(env, d);
1002         if (IS_ERR(th))
1003                 GOTO(out, rc = PTR_ERR(th));
1004
1005         /* Create update llog object synchronously, which
1006          * happens during inialization process see
1007          * lod_sub_prep_llog(), to make sure the update
1008          * llog object is created before corss-MDT writing
1009          * updates into the llog object */
1010         if (ctxt->loc_flags & LLOG_CTXT_FLAG_NORMAL_FID)
1011                 th->th_sync = 1;
1012
1013         th->th_wait_submit = 1;
1014         rc = llog_declare_create(env, *res, th);
1015         if (rc == 0) {
1016                 rc = dt_trans_start_local(env, d, th);
1017                 if (rc == 0)
1018                         rc = llog_create(env, *res, th);
1019         }
1020         dt_trans_stop(env, d, th);
1021 out:
1022         if (rc)
1023                 llog_close(env, *res);
1024         RETURN(rc);
1025 }
1026 EXPORT_SYMBOL(llog_open_create);
1027
1028 /**
1029  * Helper function to delete existent llog.
1030  */
1031 int llog_erase(const struct lu_env *env, struct llog_ctxt *ctxt,
1032                struct llog_logid *logid, char *name)
1033 {
1034         struct llog_handle      *handle;
1035         int                      rc = 0, rc2;
1036
1037         ENTRY;
1038
1039         /* nothing to erase */
1040         if (name == NULL && logid == NULL)
1041                 RETURN(0);
1042
1043         rc = llog_open(env, ctxt, &handle, logid, name, LLOG_OPEN_EXISTS);
1044         if (rc < 0)
1045                 RETURN(rc);
1046
1047         rc = llog_init_handle(env, handle, LLOG_F_IS_PLAIN, NULL);
1048         if (rc == 0)
1049                 rc = llog_destroy(env, handle);
1050
1051         rc2 = llog_close(env, handle);
1052         if (rc == 0)
1053                 rc = rc2;
1054         RETURN(rc);
1055 }
1056 EXPORT_SYMBOL(llog_erase);
1057
1058 /*
1059  * Helper function for write record in llog.
1060  * It hides all transaction handling from caller.
1061  * Valid only with local llog.
1062  */
1063 int llog_write(const struct lu_env *env, struct llog_handle *loghandle,
1064                struct llog_rec_hdr *rec, int idx)
1065 {
1066         struct dt_device        *dt;
1067         struct thandle          *th;
1068         int                      rc;
1069
1070         ENTRY;
1071
1072         LASSERT(loghandle);
1073         LASSERT(loghandle->lgh_ctxt);
1074         LASSERT(loghandle->lgh_obj != NULL);
1075
1076         dt = lu2dt_dev(loghandle->lgh_obj->do_lu.lo_dev);
1077
1078         th = dt_trans_create(env, dt);
1079         if (IS_ERR(th))
1080                 RETURN(PTR_ERR(th));
1081
1082         rc = llog_declare_write_rec(env, loghandle, rec, idx, th);
1083         if (rc)
1084                 GOTO(out_trans, rc);
1085
1086         th->th_wait_submit = 1;
1087         rc = dt_trans_start_local(env, dt, th);
1088         if (rc)
1089                 GOTO(out_trans, rc);
1090
1091         down_write(&loghandle->lgh_lock);
1092         rc = llog_write_rec(env, loghandle, rec, NULL, idx, th);
1093         up_write(&loghandle->lgh_lock);
1094 out_trans:
1095         dt_trans_stop(env, dt, th);
1096         RETURN(rc);
1097 }
1098 EXPORT_SYMBOL(llog_write);
1099
1100 int llog_open(const struct lu_env *env, struct llog_ctxt *ctxt,
1101               struct llog_handle **lgh, struct llog_logid *logid,
1102               char *name, enum llog_open_param open_param)
1103 {
1104         int      raised;
1105         int      rc;
1106
1107         ENTRY;
1108
1109         LASSERT(ctxt);
1110         LASSERT(ctxt->loc_logops);
1111
1112         if (ctxt->loc_logops->lop_open == NULL) {
1113                 *lgh = NULL;
1114                 RETURN(-EOPNOTSUPP);
1115         }
1116
1117         *lgh = llog_alloc_handle();
1118         if (*lgh == NULL)
1119                 RETURN(-ENOMEM);
1120         (*lgh)->lgh_ctxt = ctxt;
1121         (*lgh)->lgh_logops = ctxt->loc_logops;
1122
1123         raised = cfs_cap_raised(CFS_CAP_SYS_RESOURCE);
1124         if (!raised)
1125                 cfs_cap_raise(CFS_CAP_SYS_RESOURCE);
1126         rc = ctxt->loc_logops->lop_open(env, *lgh, logid, name, open_param);
1127         if (!raised)
1128                 cfs_cap_lower(CFS_CAP_SYS_RESOURCE);
1129         if (rc) {
1130                 llog_free_handle(*lgh);
1131                 *lgh = NULL;
1132         }
1133         RETURN(rc);
1134 }
1135 EXPORT_SYMBOL(llog_open);
1136
1137 int llog_close(const struct lu_env *env, struct llog_handle *loghandle)
1138 {
1139         struct llog_operations  *lop;
1140         int                      rc;
1141
1142         ENTRY;
1143
1144         rc = llog_handle2ops(loghandle, &lop);
1145         if (rc)
1146                 GOTO(out, rc);
1147         if (lop->lop_close == NULL)
1148                 GOTO(out, rc = -EOPNOTSUPP);
1149         rc = lop->lop_close(env, loghandle);
1150 out:
1151         llog_handle_put(loghandle);
1152         RETURN(rc);
1153 }
1154 EXPORT_SYMBOL(llog_close);
1155
1156 /**
1157  * Helper function to get the llog size in records. It is used by MGS
1158  * mostly to check that config llog exists and contains data.
1159  *
1160  * \param[in] env       execution environment
1161  * \param[in] ctxt      llog context
1162  * \param[in] name      llog name
1163  *
1164  * \retval              true if there are records in llog besides a header
1165  * \retval              false on error or llog without records
1166  */
1167 int llog_is_empty(const struct lu_env *env, struct llog_ctxt *ctxt,
1168                   char *name)
1169 {
1170         struct llog_handle      *llh;
1171         int                      rc = 0;
1172
1173         rc = llog_open(env, ctxt, &llh, NULL, name, LLOG_OPEN_EXISTS);
1174         if (rc < 0) {
1175                 if (likely(rc == -ENOENT))
1176                         rc = 0;
1177                 GOTO(out, rc);
1178         }
1179
1180         rc = llog_init_handle(env, llh, LLOG_F_IS_PLAIN, NULL);
1181         if (rc)
1182                 GOTO(out_close, rc);
1183         rc = llog_get_size(llh);
1184
1185 out_close:
1186         llog_close(env, llh);
1187 out:
1188         /* The header is record 1, the llog is still considered as empty
1189          * if there is only header */
1190         return (rc <= 1);
1191 }
1192 EXPORT_SYMBOL(llog_is_empty);
1193
1194 int llog_copy_handler(const struct lu_env *env, struct llog_handle *llh,
1195                       struct llog_rec_hdr *rec, void *data)
1196 {
1197         struct llog_handle      *copy_llh = data;
1198
1199         /* Append all records */
1200         return llog_write(env, copy_llh, rec, LLOG_NEXT_IDX);
1201 }
1202
1203 /* backup plain llog */
1204 int llog_backup(const struct lu_env *env, struct obd_device *obd,
1205                 struct llog_ctxt *ctxt, struct llog_ctxt *bctxt,
1206                 char *name, char *backup)
1207 {
1208         struct llog_handle      *llh, *bllh;
1209         int                      rc;
1210
1211         ENTRY;
1212
1213         /* open original log */
1214         rc = llog_open(env, ctxt, &llh, NULL, name, LLOG_OPEN_EXISTS);
1215         if (rc < 0) {
1216                 /* the -ENOENT case is also reported to the caller
1217                  * but silently so it should handle that if needed.
1218                  */
1219                 if (rc != -ENOENT)
1220                         CERROR("%s: failed to open log %s: rc = %d\n",
1221                                obd->obd_name, name, rc);
1222                 RETURN(rc);
1223         }
1224
1225         rc = llog_init_handle(env, llh, LLOG_F_IS_PLAIN, NULL);
1226         if (rc)
1227                 GOTO(out_close, rc);
1228
1229         /* Make sure there's no old backup log */
1230         rc = llog_erase(env, bctxt, NULL, backup);
1231         if (rc < 0 && rc != -ENOENT)
1232                 GOTO(out_close, rc);
1233
1234         /* open backup log */
1235         rc = llog_open_create(env, bctxt, &bllh, NULL, backup);
1236         if (rc) {
1237                 CERROR("%s: failed to open backup logfile %s: rc = %d\n",
1238                        obd->obd_name, backup, rc);
1239                 GOTO(out_close, rc);
1240         }
1241
1242         /* check that backup llog is not the same object as original one */
1243         if (llh->lgh_obj == bllh->lgh_obj) {
1244                 CERROR("%s: backup llog %s to itself (%s), objects %p/%p\n",
1245                        obd->obd_name, name, backup, llh->lgh_obj,
1246                        bllh->lgh_obj);
1247                 GOTO(out_backup, rc = -EEXIST);
1248         }
1249
1250         rc = llog_init_handle(env, bllh, LLOG_F_IS_PLAIN, NULL);
1251         if (rc)
1252                 GOTO(out_backup, rc);
1253
1254         /* Copy log record by record */
1255         rc = llog_process_or_fork(env, llh, llog_copy_handler, (void *)bllh,
1256                                   NULL, false);
1257         if (rc)
1258                 CERROR("%s: failed to backup log %s: rc = %d\n",
1259                        obd->obd_name, name, rc);
1260 out_backup:
1261         llog_close(env, bllh);
1262 out_close:
1263         llog_close(env, llh);
1264         RETURN(rc);
1265 }
1266 EXPORT_SYMBOL(llog_backup);
1267
1268 /* Get size of llog */
1269 __u64 llog_size(const struct lu_env *env, struct llog_handle *llh)
1270 {
1271         int rc;
1272         struct lu_attr la;
1273
1274         rc = llh->lgh_obj->do_ops->do_attr_get(env, llh->lgh_obj, &la);
1275         if (rc) {
1276                 CERROR("%s: attr_get failed, rc = %d\n",
1277                        llh->lgh_ctxt->loc_obd->obd_name, rc);
1278                 return 0;
1279         }
1280
1281         return la.la_size;
1282 }
1283 EXPORT_SYMBOL(llog_size);
1284