Whamcloud - gitweb
b=17682 limit performance impact of rpctrace, dlmtrace & quota
[fs/lustre-release.git] / lustre / include / lustre_dlm.h
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  * GPL HEADER START
5  *
6  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
7  *
8  * This program is free software; you can redistribute it and/or modify
9  * it under the terms of the GNU General Public License version 2 only,
10  * as published by the Free Software Foundation.
11  *
12  * This program is distributed in the hope that it will be useful, but
13  * WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * General Public License version 2 for more details (a copy is included
16  * in the LICENSE file that accompanied this code).
17  *
18  * You should have received a copy of the GNU General Public License
19  * version 2 along with this program; If not, see
20  * http://www.sun.com/software/products/lustre/docs/GPLv2.pdf
21  *
22  * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
23  * CA 95054 USA or visit www.sun.com if you need additional information or
24  * have any questions.
25  *
26  * GPL HEADER END
27  */
28 /*
29  * Copyright  2008 Sun Microsystems, Inc. All rights reserved
30  * Use is subject to license terms.
31  */
32 /*
33  * This file is part of Lustre, http://www.lustre.org/
34  * Lustre is a trademark of Sun Microsystems, Inc.
35  */
36
37 #ifndef _LUSTRE_DLM_H__
38 #define _LUSTRE_DLM_H__
39
40 #if defined(__linux__)
41 #include <linux/lustre_dlm.h>
42 #elif defined(__APPLE__)
43 #include <darwin/lustre_dlm.h>
44 #elif defined(__WINNT__)
45 #include <winnt/lustre_dlm.h>
46 #else
47 #error Unsupported operating system.
48 #endif
49
50 #include <lustre_lib.h>
51 #include <lustre_net.h>
52 #include <lustre_import.h>
53 #include <lustre_handles.h>
54 #include <interval_tree.h> /* for interval_node{}, ldlm_extent */
55 #include <lu_ref.h>
56
57 struct obd_ops;
58 struct obd_device;
59
60 #define OBD_LDLM_DEVICENAME  "ldlm"
61
62 #ifdef HAVE_BGL_SUPPORT
63 /* 1.5 times the maximum 128 tasks available in VN mode */
64 #define LDLM_DEFAULT_LRU_SIZE 196
65 #else
66 #define LDLM_DEFAULT_LRU_SIZE (100 * num_online_cpus())
67 #endif
68 #define LDLM_DEFAULT_MAX_ALIVE (cfs_time_seconds(36000))
69 #define LDLM_CTIME_AGE_LIMIT (10)
70
71 typedef enum {
72         ELDLM_OK = 0,
73
74         ELDLM_LOCK_CHANGED = 300,
75         ELDLM_LOCK_ABORTED = 301,
76         ELDLM_LOCK_REPLACED = 302,
77         ELDLM_NO_LOCK_DATA = 303,
78
79         ELDLM_NAMESPACE_EXISTS = 400,
80         ELDLM_BAD_NAMESPACE    = 401
81 } ldlm_error_t;
82
83 typedef enum {
84         LDLM_NAMESPACE_SERVER = 1 << 0,
85         LDLM_NAMESPACE_CLIENT = 1 << 1
86 } ldlm_side_t;
87
88 #define LDLM_FL_LOCK_CHANGED   0x000001 /* extent, mode, or resource changed */
89
90 /* If the server returns one of these flags, then the lock was put on that list.
91  * If the client sends one of these flags (during recovery ONLY!), it wants the
92  * lock added to the specified list, no questions asked. -p */
93 #define LDLM_FL_BLOCK_GRANTED  0x000002
94 #define LDLM_FL_BLOCK_CONV     0x000004
95 #define LDLM_FL_BLOCK_WAIT     0x000008
96
97 #define LDLM_FL_CBPENDING      0x000010 /* this lock is being destroyed */
98 #define LDLM_FL_AST_SENT       0x000020 /* blocking or cancel packet was
99                                          * queued for sending. */
100 #define LDLM_FL_WAIT_NOREPROC  0x000040 /* not a real flag, not saved in lock */
101 #define LDLM_FL_CANCEL         0x000080 /* cancellation callback already run */
102
103 /* Lock is being replayed.  This could probably be implied by the fact that one
104  * of BLOCK_{GRANTED,CONV,WAIT} is set, but that is pretty dangerous. */
105 #define LDLM_FL_REPLAY         0x000100
106
107 #define LDLM_FL_INTENT_ONLY    0x000200 /* don't grant lock, just do intent */
108 #define LDLM_FL_LOCAL_ONLY     0x000400 /* see ldlm_cli_cancel_unused */
109
110 /* don't run the cancel callback under ldlm_cli_cancel_unused */
111 #define LDLM_FL_FAILED         0x000800
112
113 #define LDLM_FL_HAS_INTENT     0x001000 /* lock request has intent */
114 #define LDLM_FL_CANCELING      0x002000 /* lock cancel has already been sent */
115 #define LDLM_FL_LOCAL          0x004000 /* local lock (ie, no srv/cli split) */
116 #define LDLM_FL_WARN           0x008000 /* see ldlm_cli_cancel_unused */
117 #define LDLM_FL_DISCARD_DATA   0x010000 /* discard (no writeback) on cancel */
118
119 #define LDLM_FL_NO_TIMEOUT     0x020000 /* Blocked by group lock - wait
120                                          * indefinitely */
121
122 /* file & record locking */
123 #define LDLM_FL_BLOCK_NOWAIT   0x040000 // server told not to wait if blocked
124 #define LDLM_FL_TEST_LOCK      0x080000 // return blocking lock
125
126 /* XXX FIXME: This is being added to b_size as a low-risk fix to the fact that
127  * the LVB filling happens _after_ the lock has been granted, so another thread
128  * can match`t before the LVB has been updated.  As a dirty hack, we set
129  * LDLM_FL_LVB_READY only after we've done the LVB poop.
130  * this is only needed on lov/osc now, where lvb is actually used and callers
131  * must set it in input flags.
132  *
133  * The proper fix is to do the granting inside of the completion AST, which can
134  * be replaced with a LVB-aware wrapping function for OSC locks.  That change is
135  * pretty high-risk, though, and would need a lot more testing. */
136
137 #define LDLM_FL_LVB_READY      0x100000
138
139 /* A lock contributes to the kms calculation until it has finished the part
140  * of it's cancelation that performs write back on its dirty pages.  It
141  * can remain on the granted list during this whole time.  Threads racing
142  * to update the kms after performing their writeback need to know to
143  * exclude each others locks from the calculation as they walk the granted
144  * list. */
145 #define LDLM_FL_KMS_IGNORE     0x200000
146
147 /* Immediatelly cancel such locks when they block some other locks. Send
148  * cancel notification to original lock holder, but expect no reply. This is
149  * for clients (like liblustre) that cannot be expected to reliably response
150  * to blocking ast. */
151 #define LDLM_FL_CANCEL_ON_BLOCK 0x800000
152
153 /* Flags flags inherited from parent lock when doing intents. */
154 #define LDLM_INHERIT_FLAGS     (LDLM_FL_CANCEL_ON_BLOCK)
155
156 /* completion ast to be executed */
157 #define LDLM_FL_CP_REQD        0x1000000
158
159 /* cleanup_resource has already handled the lock */
160 #define LDLM_FL_CLEANED        0x2000000
161
162 /* optimization hint: LDLM can run blocking callback from current context
163  * w/o involving separate thread. in order to decrease cs rate */
164 #define LDLM_FL_ATOMIC_CB      0x4000000
165
166 /* Cancel lock asynchronously. See ldlm_cli_cancel_unused_resource. */
167 #define LDLM_FL_ASYNC           0x8000000
168
169 /* It may happen that a client initiate 2 operations, e.g. unlink and mkdir,
170  * such that server send blocking ast for conflict locks to this client for
171  * the 1st operation, whereas the 2nd operation has canceled this lock and
172  * is waiting for rpc_lock which is taken by the 1st operation.
173  * LDLM_FL_BL_AST is to be set by ldlm_callback_handler() to the lock not allow
174  * ELC code to cancel it.
175  * LDLM_FL_BL_DONE is to be set by ldlm_cancel_callback() when lock cache is
176  * droped to let ldlm_callback_handler() return EINVAL to the server. It is
177  * used when ELC rpc is already prepared and is waiting for rpc_lock, too late
178  * to send a separate CANCEL rpc. */
179 #define LDLM_FL_BL_AST          0x10000000
180 #define LDLM_FL_BL_DONE         0x20000000
181
182 /* measure lock contention and return -EUSERS if locking contention is high */
183 #define LDLM_FL_DENY_ON_CONTENTION 0x40000000
184
185 /* These are flags that are mapped into the flags and ASTs of blocking locks */
186 #define LDLM_AST_DISCARD_DATA  0x80000000 /* Add FL_DISCARD to blocking ASTs */
187
188 /* Flags sent in AST lock_flags to be mapped into the receiving lock. */
189 #define LDLM_AST_FLAGS         (LDLM_FL_DISCARD_DATA)
190
191 /*
192  * --------------------------------------------------------------------------
193  * NOTE! Starting from this point, that is, LDLM_FL_* flags with values above
194  * 0x80000000 will not be sent over the wire.
195  * --------------------------------------------------------------------------
196  */
197
198 /* Used for marking lock as an target for -EINTR while cp_ast sleep
199  * emulation + race with upcoming bl_ast.  */
200 #define LDLM_FL_FAIL_LOC       0x100000000ULL
201
202 /* The blocking callback is overloaded to perform two functions.  These flags
203  * indicate which operation should be performed. */
204 #define LDLM_CB_BLOCKING    1
205 #define LDLM_CB_CANCELING   2
206
207 /* compatibility matrix */
208 #define LCK_COMPAT_EX  LCK_NL
209 #define LCK_COMPAT_PW  (LCK_COMPAT_EX | LCK_CR)
210 #define LCK_COMPAT_PR  (LCK_COMPAT_PW | LCK_PR)
211 #define LCK_COMPAT_CW  (LCK_COMPAT_PW | LCK_CW)
212 #define LCK_COMPAT_CR  (LCK_COMPAT_CW | LCK_PR | LCK_PW)
213 #define LCK_COMPAT_NL  (LCK_COMPAT_CR | LCK_EX | LCK_GROUP)
214 #define LCK_COMPAT_GROUP  (LCK_GROUP | LCK_NL)
215 #define LCK_COMPAT_COS (LCK_COS)
216
217 extern ldlm_mode_t lck_compat_array[];
218
219 static inline void lockmode_verify(ldlm_mode_t mode)
220 {
221        LASSERT(mode > LCK_MINMODE && mode < LCK_MAXMODE);
222 }
223
224 static inline int lockmode_compat(ldlm_mode_t exist_mode, ldlm_mode_t new_mode)
225 {
226        return (lck_compat_array[exist_mode] & new_mode);
227 }
228
229 /*
230  *
231  * cluster name spaces
232  *
233  */
234
235 #define DLM_OST_NAMESPACE 1
236 #define DLM_MDS_NAMESPACE 2
237
238 /* XXX
239    - do we just separate this by security domains and use a prefix for
240      multiple namespaces in the same domain?
241    -
242 */
243
244 /*
245  * Locking rules:
246  *
247  * lr_lock
248  *
249  * lr_lock
250  *     waiting_locks_spinlock
251  *
252  * lr_lock
253  *     led_lock
254  *
255  * lr_lock
256  *     ns_unused_lock
257  *
258  * lr_lvb_sem
259  *     lr_lock
260  *
261  */
262
263 struct ldlm_pool;
264 struct ldlm_lock;
265 struct ldlm_resource;
266 struct ldlm_namespace;
267
268 struct ldlm_pool_ops {
269         int (*po_recalc)(struct ldlm_pool *pl);
270         int (*po_shrink)(struct ldlm_pool *pl, int nr,
271                          unsigned int gfp_mask);
272         int (*po_setup)(struct ldlm_pool *pl, int limit);
273 };
274
275 /**
276  * One second for pools thread check interval. Each pool has own period.
277  */
278 #define LDLM_POOLS_THREAD_PERIOD (1)
279
280 /**
281  * 5% margin for modest pools. See ldlm_pool.c for details.
282  */
283 #define LDLM_POOLS_MODEST_MARGIN (5)
284
285 /**
286  * Default recalc period for server side pools in sec.
287  */
288 #define LDLM_POOL_SRV_DEF_RECALC_PERIOD (1)
289
290 /**
291  * Default recalc period for client side pools in sec.
292  */
293 #define LDLM_POOL_CLI_DEF_RECALC_PERIOD (10)
294
295 struct ldlm_pool {
296         /**
297          * Pool proc directory.
298          */
299         cfs_proc_dir_entry_t  *pl_proc_dir;
300         /**
301          * Pool name, should be long enough to contain compound proc entry name.
302          */
303         char                   pl_name[100];
304         /**
305          * Lock for protecting slv/clv updates.
306          */
307         spinlock_t             pl_lock;
308         /**
309          * Number of allowed locks in in pool, both, client and server side.
310          */
311         atomic_t               pl_limit;
312         /**
313          * Number of granted locks in
314          */
315         atomic_t               pl_granted;
316         /**
317          * Grant rate per T.
318          */
319         atomic_t               pl_grant_rate;
320         /**
321          * Cancel rate per T.
322          */
323         atomic_t               pl_cancel_rate;
324         /**
325          * Grant speed (GR-CR) per T.
326          */
327         atomic_t               pl_grant_speed;
328         /**
329          * Server lock volume. Protected by pl_lock.
330          */
331         __u64                  pl_server_lock_volume;
332         /**
333          * Current biggest client lock volume. Protected by pl_lock.
334          */
335         __u64                  pl_client_lock_volume;
336         /**
337          * Lock volume factor. SLV on client is calculated as following:
338          * server_slv * lock_volume_factor.
339          */
340         atomic_t               pl_lock_volume_factor;
341         /**
342          * Time when last slv from server was obtained.
343          */
344         time_t                 pl_recalc_time;
345         /**
346           * Recalc period for pool.
347           */
348         time_t                 pl_recalc_period;
349         /**
350          * Recalc and shrink ops.
351          */
352         struct ldlm_pool_ops  *pl_ops;
353         /**
354          * Number of planned locks for next period.
355          */
356         int                    pl_grant_plan;
357         /**
358          * Pool statistics.
359          */
360         struct lprocfs_stats  *pl_stats;
361 };
362
363 typedef int (*ldlm_res_policy)(struct ldlm_namespace *, struct ldlm_lock **,
364                                void *req_cookie, ldlm_mode_t mode, int flags,
365                                void *data);
366
367 struct ldlm_valblock_ops {
368         int (*lvbo_init)(struct ldlm_resource *res);
369         int (*lvbo_update)(struct ldlm_resource *res,
370                            struct ptlrpc_request *r,
371                            int increase);
372 };
373
374 typedef enum {
375         LDLM_NAMESPACE_GREEDY = 1 << 0,
376         LDLM_NAMESPACE_MODEST = 1 << 1
377 } ldlm_appetite_t;
378
379 /*
380  * Default values for the "max_nolock_size", "contention_time" and
381  * "contended_locks" namespace tunables.
382  */
383 #define NS_DEFAULT_MAX_NOLOCK_BYTES 0
384 #define NS_DEFAULT_CONTENTION_SECONDS 2
385 #define NS_DEFAULT_CONTENDED_LOCKS 32
386
387 struct ldlm_namespace {
388         /**
389          * Namespace name. Used for logging, etc.
390          */
391         char                  *ns_name;
392
393         /**
394          * Is this a client-side lock tree?
395          */
396         ldlm_side_t            ns_client;
397
398         /**
399          * Namespce connect flags supported by server (may be changed via proc,
400          * lru resize may be disabled/enabled).
401          */
402         __u64                  ns_connect_flags;
403
404          /**
405           * Client side orig connect flags supported by server.
406           */
407         __u64                  ns_orig_connect_flags;
408
409         /**
410          * Hash table for namespace.
411          */
412         struct list_head      *ns_hash;
413         spinlock_t             ns_hash_lock;
414
415          /**
416           * Count of resources in the hash.
417           */
418         __u32                  ns_refcount;
419
420          /**
421           * All root resources in namespace.
422           */
423         struct list_head       ns_root_list;
424
425         /**
426          * Position in global namespace list.
427          */
428         struct list_head       ns_list_chain;
429
430         /**
431          * All root resources in namespace.
432          */
433         struct list_head       ns_unused_list;
434         int                    ns_nr_unused;
435         spinlock_t             ns_unused_lock;
436
437         unsigned int           ns_max_unused;
438         unsigned int           ns_max_age;
439         unsigned int           ns_timeouts;
440          /**
441           * Seconds.
442           */
443         unsigned int           ns_ctime_age_limit;
444
445         /**
446          * Next debug dump, jiffies.
447          */
448         cfs_time_t             ns_next_dump;
449
450         atomic_t               ns_locks;
451         __u64                  ns_resources;
452         ldlm_res_policy        ns_policy;
453         struct ldlm_valblock_ops *ns_lvbo;
454         void                  *ns_lvbp;
455         cfs_waitq_t            ns_waitq;
456         struct ldlm_pool       ns_pool;
457         ldlm_appetite_t        ns_appetite;
458
459         /**
460          * If more than \a ns_contended_locks found, the resource is considered
461          * to be contended.
462          */
463         unsigned               ns_contended_locks;
464
465         /**
466          * The resource remembers contended state during \a ns_contention_time,
467          * in seconds.
468          */
469         unsigned               ns_contention_time;
470
471         /**
472          * Limit size of nolock requests, in bytes.
473          */
474         unsigned               ns_max_nolock_size;
475
476         /**
477          * Backward link to obd, required for ldlm pool to store new SLV.
478          */
479         struct obd_device     *ns_obd;
480
481         struct adaptive_timeout ns_at_estimate;/* estimated lock callback time*/
482 };
483
484 static inline int ns_is_client(struct ldlm_namespace *ns)
485 {
486         LASSERT(ns != NULL);
487         LASSERT(!(ns->ns_client & ~(LDLM_NAMESPACE_CLIENT |
488                                     LDLM_NAMESPACE_SERVER)));
489         LASSERT(ns->ns_client == LDLM_NAMESPACE_CLIENT ||
490                 ns->ns_client == LDLM_NAMESPACE_SERVER);
491         return ns->ns_client == LDLM_NAMESPACE_CLIENT;
492 }
493
494 static inline int ns_is_server(struct ldlm_namespace *ns)
495 {
496         LASSERT(ns != NULL);
497         LASSERT(!(ns->ns_client & ~(LDLM_NAMESPACE_CLIENT |
498                                     LDLM_NAMESPACE_SERVER)));
499         LASSERT(ns->ns_client == LDLM_NAMESPACE_CLIENT ||
500                 ns->ns_client == LDLM_NAMESPACE_SERVER);
501         return ns->ns_client == LDLM_NAMESPACE_SERVER;
502 }
503
504 static inline int ns_connect_lru_resize(struct ldlm_namespace *ns)
505 {
506         LASSERT(ns != NULL);
507         return !!(ns->ns_connect_flags & OBD_CONNECT_LRU_RESIZE);
508 }
509
510 /*
511  *
512  * Resource hash table
513  *
514  */
515
516 #define RES_HASH_BITS 12
517 #define RES_HASH_SIZE (1UL << RES_HASH_BITS)
518 #define RES_HASH_MASK (RES_HASH_SIZE - 1)
519
520 struct ldlm_lock;
521
522 typedef int (*ldlm_blocking_callback)(struct ldlm_lock *lock,
523                                       struct ldlm_lock_desc *new, void *data,
524                                       int flag);
525 typedef int (*ldlm_completion_callback)(struct ldlm_lock *lock, int flags,
526                                         void *data);
527 typedef int (*ldlm_glimpse_callback)(struct ldlm_lock *lock, void *data);
528 typedef unsigned long (*ldlm_weigh_callback)(struct ldlm_lock *lock);
529
530 /* Interval node data for each LDLM_EXTENT lock */
531 struct ldlm_interval {
532         struct interval_node li_node;   /* node for tree mgmt */
533         struct list_head     li_group;  /* the locks which have the same
534                                          * policy - group of the policy */
535 };
536 #define to_ldlm_interval(n) container_of(n, struct ldlm_interval, li_node)
537
538 /* the interval tree must be accessed inside the resource lock. */
539 struct ldlm_interval_tree {
540         /* tree size, this variable is used to count
541          * granted PW locks in ldlm_extent_policy()*/
542         int                   lit_size;
543         ldlm_mode_t           lit_mode; /* lock mode */
544         struct interval_node *lit_root; /* actually ldlm_interval */
545 };
546
547 #define LUSTRE_TRACKS_LOCK_EXP_REFS (1)
548
549 struct ldlm_lock {
550         /**
551          * Must be first in the structure.
552          */
553         struct portals_handle    l_handle;
554         /**
555          * Lock reference count.
556          */
557         atomic_t                 l_refc;
558         /**
559          * Internal spinlock protects l_resource.  we should hold this lock
560          * first before grabbing res_lock.
561          */
562         spinlock_t               l_lock;
563         /**
564          * ldlm_lock_change_resource() can change this.
565          */
566         struct ldlm_resource    *l_resource;
567         /**
568          * Protected by ns_hash_lock. List item for client side lru list.
569          */
570         struct list_head         l_lru;
571         /**
572          * Protected by lr_lock, linkage to resource's lock queues.
573          */
574         struct list_head         l_res_link;
575         /**
576          * Tree node for ldlm_extent.
577          */
578         struct ldlm_interval    *l_tree_node;
579         /**
580          * Protected by per-bucket exp->exp_lock_hash locks. Per export hash
581          * of locks.
582          */
583         struct hlist_node        l_exp_hash;
584         /**
585          * Protected by lr_lock. Requested mode.
586          */
587         ldlm_mode_t              l_req_mode;
588         /**
589          * Granted mode, also protected by lr_lock.
590          */
591         ldlm_mode_t              l_granted_mode;
592         /**
593          * Lock enqueue completion handler.
594          */
595         ldlm_completion_callback l_completion_ast;
596         /**
597          * Lock blocking ast handler.
598          */
599         ldlm_blocking_callback   l_blocking_ast;
600         /**
601          * Lock glimpse handler.
602          */
603         ldlm_glimpse_callback    l_glimpse_ast;
604         ldlm_weigh_callback      l_weigh_ast;
605
606         /**
607          * Lock export.
608          */
609         struct obd_export       *l_export;
610         /**
611          * Lock connection export.
612          */
613         struct obd_export       *l_conn_export;
614
615         /**
616          * Remote lock handle.
617          */
618         struct lustre_handle     l_remote_handle;
619
620         ldlm_policy_data_t       l_policy_data;
621         /* traffic index indicating how busy the resource will be, if it is
622          * high, the lock's granted region will not be so big lest it conflicts
623          * other locks, causing frequent lock cancellation and re-enqueue */
624         int                   l_traffic;
625
626         /*
627          * Protected by lr_lock. Various counters: readers, writers, etc.
628          */
629         __u64                 l_flags;
630         __u32                 l_readers;
631         __u32                 l_writers;
632         /*
633          * Set for locks that were removed from class hash table and will be
634          * destroyed when last reference to them is released. Set by
635          * ldlm_lock_destroy_internal().
636          *
637          * Protected by lock and resource locks.
638          */
639         __u8                  l_destroyed;
640
641         /**
642          * If the lock is granted, a process sleeps on this waitq to learn when
643          * it's no longer in use.  If the lock is not granted, a process sleeps
644          * on this waitq to learn when it becomes granted.
645          */
646         cfs_waitq_t           l_waitq;
647
648         /**
649          * Seconds. it will be updated if there is any activity related to
650          * the lock, e.g. enqueue the lock or send block AST.
651          */
652         cfs_time_t            l_last_activity;
653
654         /**
655          * Jiffies. Should be converted to time if needed.
656          */
657         cfs_time_t            l_last_used;
658
659         struct ldlm_extent    l_req_extent;
660
661         /*
662          * Client-side-only members.
663          */
664
665         /**
666          * Temporary storage for an LVB received during an enqueue operation.
667          */
668         __u32                 l_lvb_len;
669         void                 *l_lvb_data;
670
671         void                 *l_ast_data;
672         spinlock_t            l_extents_list_lock;
673         struct list_head      l_extents_list;
674
675         struct list_head      l_cache_locks_list;
676
677         /*
678          * Server-side-only members.
679          */
680
681         /** connection cookie for the client originated the operation. */
682         __u64                 l_client_cookie;
683
684         /**
685          * Protected by elt_lock. Callbacks pending.
686          */
687         struct list_head      l_pending_chain;
688
689         cfs_time_t            l_callback_timeout;
690
691         /**
692          * Pid which created this lock.
693          */
694         __u32                 l_pid;
695
696         /**
697          * For ldlm_add_ast_work_item().
698          */
699         struct list_head      l_bl_ast;
700         /**
701          * For ldlm_add_ast_work_item().
702          */
703         struct list_head      l_cp_ast;
704         /**
705          * For ldlm_add_ast_work_item().
706          */
707         struct list_head      l_rk_ast;
708
709         struct ldlm_lock     *l_blocking_lock;
710         int                   l_bl_ast_run;
711
712         /**
713          * Protected by lr_lock, linkages to "skip lists".
714          */
715         struct list_head      l_sl_mode;
716         struct list_head      l_sl_policy;
717         struct lu_ref         l_reference;
718 #if LUSTRE_TRACKS_LOCK_EXP_REFS
719         /* Debugging stuff for bug 20498, for tracking export
720            references. */
721         /** number of export references taken */
722         int                   l_exp_refs_nr;
723         /** link all locks referencing one export */
724         struct list_head      l_exp_refs_link;
725         /** referenced export object */
726         struct obd_export    *l_exp_refs_target;
727 #endif
728 };
729
730 struct ldlm_resource {
731         struct ldlm_namespace *lr_namespace;
732
733         /* protected by ns_hash_lock */
734         struct list_head       lr_hash;
735         struct ldlm_resource  *lr_parent;   /* 0 for a root resource */
736         struct list_head       lr_children; /* list head for child resources */
737         struct list_head       lr_childof;  /* part of ns_root_list if root res,
738                                              * part of lr_children if child */
739         spinlock_t             lr_lock;
740
741         /* protected by lr_lock */
742         struct list_head       lr_granted;
743         struct list_head       lr_converting;
744         struct list_head       lr_waiting;
745         ldlm_mode_t            lr_most_restr;
746         ldlm_type_t            lr_type; /* LDLM_{PLAIN,EXTENT,FLOCK} */
747         struct ldlm_res_id     lr_name;
748         atomic_t               lr_refcount;
749
750         struct ldlm_interval_tree lr_itree[LCK_MODE_NUM];  /* interval trees*/
751
752         /* Server-side-only lock value block elements */
753         struct semaphore       lr_lvb_sem;
754         __u32                  lr_lvb_len;
755         void                  *lr_lvb_data;
756
757         /* when the resource was considered as contended */
758         cfs_time_t             lr_contention_time;
759         /**
760          * List of references to this resource. For debugging.
761          */
762         struct lu_ref          lr_reference;
763 };
764
765 struct ldlm_ast_work {
766         struct ldlm_lock *w_lock;
767         int               w_blocking;
768         struct ldlm_lock_desc w_desc;
769         struct list_head   w_list;
770         int w_flags;
771         void *w_data;
772         int w_datalen;
773 };
774
775 /* ldlm_enqueue parameters common */
776 struct ldlm_enqueue_info {
777         __u32 ei_type;   /* Type of the lock being enqueued. */
778         __u32 ei_mode;   /* Mode of the lock being enqueued. */
779         void *ei_cb_bl;  /* blocking lock callback */
780         void *ei_cb_cp;  /* lock completion callback */
781         void *ei_cb_gl;  /* lock glimpse callback */
782         void *ei_cb_wg;  /* lock weigh callback */
783         void *ei_cbdata; /* Data to be passed into callbacks. */
784         short ei_async:1; /* async request */
785 };
786
787 extern struct obd_ops ldlm_obd_ops;
788
789 extern char *ldlm_lockname[];
790 extern char *ldlm_typename[];
791 extern char *ldlm_it2str(int it);
792 #ifdef LIBCFS_DEBUG
793 #define ldlm_lock_debug(cdls, level, lock, file, func, line, fmt, a...) do { \
794         CHECK_STACK();                                                  \
795                                                                         \
796         if (((level) & D_CANTMASK) != 0 ||                              \
797             ((libcfs_debug & (level)) != 0 &&                           \
798              (libcfs_subsystem_debug & DEBUG_SUBSYSTEM) != 0)) {        \
799                 static struct libcfs_debug_msg_data _ldlm_dbg_data =    \
800                 DEBUG_MSG_DATA_INIT(cdls, DEBUG_SUBSYSTEM,              \
801                                     file, func, line);                  \
802                 _ldlm_lock_debug(lock, level, &_ldlm_dbg_data, fmt,     \
803                                  ##a );                                 \
804         }                                                               \
805 } while(0)
806
807 void _ldlm_lock_debug(struct ldlm_lock *lock, __u32 mask,
808                       struct libcfs_debug_msg_data *data, const char *fmt,
809                       ...)
810         __attribute__ ((format (printf, 4, 5)));
811
812 #define LDLM_DEBUG_LIMIT(mask, lock, fmt, a...) do {                    \
813         static cfs_debug_limit_state_t _ldlm_cdls;                      \
814         ldlm_lock_debug(&_ldlm_cdls, mask, lock,                        \
815                         __FILE__, __FUNCTION__, __LINE__,               \
816                         "### " fmt , ##a);                              \
817 } while (0)
818
819 #define LDLM_ERROR(lock, fmt, a...) LDLM_DEBUG_LIMIT(D_ERROR, lock, fmt, ## a)
820 #define LDLM_WARN(lock, fmt, a...)  LDLM_DEBUG_LIMIT(D_WARNING, lock, fmt, ## a)
821
822 #define LDLM_DEBUG(lock, fmt, a...)   do {                              \
823         ldlm_lock_debug(NULL, D_DLMTRACE, lock,                         \
824                         __FILE__, __FUNCTION__, __LINE__,               \
825                          "### " fmt , ##a);                             \
826 } while (0)
827 #else /* !LIBCFS_DEBUG */
828 # define LDLM_DEBUG(lock, fmt, a...) ((void)0)
829 # define LDLM_ERROR(lock, fmt, a...) ((void)0)
830 # define ldlm_lock_debuf(cdls, level, lock, file, func, line, fmt, a...) \
831          ((void)0)
832 #endif
833
834 #define LDLM_DEBUG_NOLOCK(format, a...)                 \
835         CDEBUG(D_DLMTRACE, "### " format "\n" , ##a)
836
837 typedef int (*ldlm_processing_policy)(struct ldlm_lock *lock, int *flags,
838                                       int first_enq, ldlm_error_t *err,
839                                       struct list_head *work_list);
840
841 /*
842  * Iterators.
843  */
844
845 #define LDLM_ITER_CONTINUE 1 /* keep iterating */
846 #define LDLM_ITER_STOP     2 /* stop iterating */
847
848 typedef int (*ldlm_iterator_t)(struct ldlm_lock *, void *);
849 typedef int (*ldlm_res_iterator_t)(struct ldlm_resource *, void *);
850
851 int ldlm_resource_foreach(struct ldlm_resource *res, ldlm_iterator_t iter,
852                           void *closure);
853 int ldlm_namespace_foreach(struct ldlm_namespace *ns, ldlm_iterator_t iter,
854                            void *closure);
855 int ldlm_namespace_foreach_res(struct ldlm_namespace *ns,
856                                ldlm_res_iterator_t iter, void *closure);
857
858 int ldlm_replay_locks(struct obd_import *imp);
859 void ldlm_resource_iterate(struct ldlm_namespace *, const struct ldlm_res_id *,
860                            ldlm_iterator_t iter, void *data);
861
862 /* ldlm_flock.c */
863 int ldlm_flock_completion_ast(struct ldlm_lock *lock, int flags, void *data);
864
865 /* ldlm_extent.c */
866 __u64 ldlm_extent_shift_kms(struct ldlm_lock *lock, __u64 old_kms);
867
868
869 /* ldlm_lockd.c */
870 int ldlm_server_blocking_ast(struct ldlm_lock *, struct ldlm_lock_desc *,
871                              void *data, int flag);
872 int ldlm_server_completion_ast(struct ldlm_lock *lock, int flags, void *data);
873 int ldlm_server_glimpse_ast(struct ldlm_lock *lock, void *data);
874 int ldlm_handle_enqueue(struct ptlrpc_request *req, ldlm_completion_callback,
875                         ldlm_blocking_callback, ldlm_glimpse_callback);
876 int ldlm_handle_convert(struct ptlrpc_request *req);
877 int ldlm_handle_cancel(struct ptlrpc_request *req);
878 int ldlm_request_cancel(struct ptlrpc_request *req,
879                         const struct ldlm_request *dlm_req, int first);
880 int ldlm_del_waiting_lock(struct ldlm_lock *lock);
881 int ldlm_refresh_waiting_lock(struct ldlm_lock *lock, int timeout);
882 void ldlm_revoke_export_locks(struct obd_export *exp);
883 int ldlm_get_ref(void);
884 void ldlm_put_ref(void);
885 int ldlm_init_export(struct obd_export *exp);
886 void ldlm_destroy_export(struct obd_export *exp);
887
888 /* ldlm_lock.c */
889 ldlm_processing_policy ldlm_get_processing_policy(struct ldlm_resource *res);
890 void ldlm_register_intent(struct ldlm_namespace *ns, ldlm_res_policy arg);
891 void ldlm_lock2handle(const struct ldlm_lock *lock,
892                       struct lustre_handle *lockh);
893 struct ldlm_lock *__ldlm_handle2lock(const struct lustre_handle *, int flags);
894 void ldlm_cancel_callback(struct ldlm_lock *);
895 int ldlm_lock_remove_from_lru(struct ldlm_lock *);
896
897 static inline struct ldlm_lock *ldlm_handle2lock(const struct lustre_handle *h)
898 {
899         return __ldlm_handle2lock(h, 0);
900 }
901
902 #define LDLM_LOCK_REF_DEL(lock) \
903         lu_ref_del(&lock->l_reference, "handle", cfs_current())
904
905 static inline struct ldlm_lock *
906 ldlm_handle2lock_long(const struct lustre_handle *h, int flags)
907 {
908         struct ldlm_lock *lock;
909
910         lock = __ldlm_handle2lock(h, flags);
911         if (lock != NULL)
912                 LDLM_LOCK_REF_DEL(lock);
913         return lock;
914 }
915
916 static inline int ldlm_res_lvbo_update(struct ldlm_resource *res,
917                                        struct ptlrpc_request *r, int increase)
918 {
919         if (res->lr_namespace->ns_lvbo &&
920             res->lr_namespace->ns_lvbo->lvbo_update) {
921                 return res->lr_namespace->ns_lvbo->lvbo_update(res, r,
922                                                                increase);
923         }
924         return 0;
925 }
926
927 int ldlm_error2errno(ldlm_error_t error);
928 ldlm_error_t ldlm_errno2error(int err_no); /* don't call it `errno': this
929                                             * confuses user-space. */
930 #if LUSTRE_TRACKS_LOCK_EXP_REFS
931 void ldlm_dump_export_locks(struct obd_export *exp);
932 #endif
933
934 /**
935  * Release a temporary lock reference obtained by ldlm_handle2lock() or
936  * __ldlm_handle2lock().
937  */
938 #define LDLM_LOCK_PUT(lock)                     \
939 do {                                            \
940         LDLM_LOCK_REF_DEL(lock);                \
941         /*LDLM_DEBUG((lock), "put");*/          \
942         ldlm_lock_put(lock);                    \
943 } while (0)
944
945 /**
946  * Release a lock reference obtained by some other means (see
947  * LDLM_LOCK_PUT()).
948  */
949 #define LDLM_LOCK_RELEASE(lock)                 \
950 do {                                            \
951         /*LDLM_DEBUG((lock), "put");*/          \
952         ldlm_lock_put(lock);                    \
953 } while (0)
954
955 #define LDLM_LOCK_GET(lock)                     \
956 ({                                              \
957         ldlm_lock_get(lock);                    \
958         /*LDLM_DEBUG((lock), "get");*/          \
959         lock;                                   \
960 })
961
962 #define ldlm_lock_list_put(head, member, count)                 \
963 ({                                                              \
964         struct ldlm_lock *_lock, *_next;                        \
965         int c = count;                                          \
966         list_for_each_entry_safe(_lock, _next, head, member) {  \
967                 if (c-- == 0)                                   \
968                         break;                                  \
969                 list_del_init(&_lock->member);                  \
970                 LDLM_LOCK_RELEASE(_lock);                       \
971         }                                                       \
972         LASSERT(c <= 0);                                        \
973 })
974
975 struct ldlm_lock *ldlm_lock_get(struct ldlm_lock *lock);
976 void ldlm_lock_put(struct ldlm_lock *lock);
977 void ldlm_lock_destroy(struct ldlm_lock *lock);
978 void ldlm_lock2desc(struct ldlm_lock *lock, struct ldlm_lock_desc *desc);
979 void ldlm_lock_addref(struct lustre_handle *lockh, __u32 mode);
980 int  ldlm_lock_addref_try(struct lustre_handle *lockh, __u32 mode);
981 void ldlm_lock_decref(struct lustre_handle *lockh, __u32 mode);
982 void ldlm_lock_decref_and_cancel(struct lustre_handle *lockh, __u32 mode);
983 void ldlm_lock_allow_match(struct ldlm_lock *lock);
984 void ldlm_lock_allow_match_locked(struct ldlm_lock *lock);
985 ldlm_mode_t ldlm_lock_match(struct ldlm_namespace *ns, int flags,
986                             const struct ldlm_res_id *, ldlm_type_t type,
987                             ldlm_policy_data_t *, ldlm_mode_t mode,
988                             struct lustre_handle *, int unref);
989 struct ldlm_resource *ldlm_lock_convert(struct ldlm_lock *lock, int new_mode,
990                                         __u32 *flags);
991 void ldlm_lock_downgrade(struct ldlm_lock *lock, int new_mode);
992 void ldlm_lock_cancel(struct ldlm_lock *lock);
993 void ldlm_reprocess_all(struct ldlm_resource *res);
994 void ldlm_reprocess_all_ns(struct ldlm_namespace *ns);
995 void ldlm_lock_dump(int level, struct ldlm_lock *lock, int pos);
996 void ldlm_lock_dump_handle(int level, struct lustre_handle *);
997 void ldlm_unlink_lock_skiplist(struct ldlm_lock *req);
998
999 /* resource.c */
1000 struct ldlm_namespace *
1001 ldlm_namespace_new(struct obd_device *obd, char *name,
1002                    ldlm_side_t client, ldlm_appetite_t apt);
1003 int ldlm_namespace_cleanup(struct ldlm_namespace *ns, int flags);
1004 void ldlm_namespace_free(struct ldlm_namespace *ns,
1005                          struct obd_import *imp, int force);
1006 void ldlm_namespace_register(struct ldlm_namespace *ns, ldlm_side_t client);
1007 void ldlm_namespace_unregister(struct ldlm_namespace *ns, ldlm_side_t client);
1008 void ldlm_namespace_move_locked(struct ldlm_namespace *ns, ldlm_side_t client);
1009 struct ldlm_namespace *ldlm_namespace_first_locked(ldlm_side_t client);
1010 void ldlm_namespace_get_locked(struct ldlm_namespace *ns);
1011 void ldlm_namespace_put_locked(struct ldlm_namespace *ns, int wakeup);
1012 void ldlm_namespace_get(struct ldlm_namespace *ns);
1013 void ldlm_namespace_put(struct ldlm_namespace *ns, int wakeup);
1014 int ldlm_proc_setup(void);
1015 #ifdef LPROCFS
1016 void ldlm_proc_cleanup(void);
1017 #else
1018 static inline void ldlm_proc_cleanup(void) {}
1019 #endif
1020
1021 /* resource.c - internal */
1022 struct ldlm_resource *ldlm_resource_get(struct ldlm_namespace *ns,
1023                                         struct ldlm_resource *parent,
1024                                         const struct ldlm_res_id *,
1025                                         ldlm_type_t type, int create);
1026 struct ldlm_resource *ldlm_resource_getref(struct ldlm_resource *res);
1027 int ldlm_resource_putref(struct ldlm_resource *res);
1028 void ldlm_resource_add_lock(struct ldlm_resource *res, struct list_head *head,
1029                             struct ldlm_lock *lock);
1030 void ldlm_resource_unlink_lock(struct ldlm_lock *lock);
1031 void ldlm_res2desc(struct ldlm_resource *res, struct ldlm_resource_desc *desc);
1032 void ldlm_dump_all_namespaces(ldlm_side_t client, int level);
1033 void ldlm_namespace_dump(int level, struct ldlm_namespace *);
1034 void ldlm_resource_dump(int level, struct ldlm_resource *);
1035 int ldlm_lock_change_resource(struct ldlm_namespace *, struct ldlm_lock *,
1036                               const struct ldlm_res_id *);
1037
1038 #define LDLM_RESOURCE_ADDREF(res) do {                                  \
1039         lu_ref_add_atomic(&(res)->lr_reference, __FUNCTION__, cfs_current());  \
1040 } while (0)
1041
1042 #define LDLM_RESOURCE_DELREF(res) do {                                  \
1043         lu_ref_del(&(res)->lr_reference, __FUNCTION__, cfs_current());  \
1044 } while (0)
1045
1046 struct ldlm_callback_suite {
1047         ldlm_completion_callback lcs_completion;
1048         ldlm_blocking_callback   lcs_blocking;
1049         ldlm_glimpse_callback    lcs_glimpse;
1050         ldlm_weigh_callback      lcs_weigh;
1051 };
1052
1053 /* ldlm_request.c */
1054 int ldlm_expired_completion_wait(void *data);
1055 int ldlm_blocking_ast_nocheck(struct ldlm_lock *lock);
1056 int ldlm_blocking_ast(struct ldlm_lock *lock, struct ldlm_lock_desc *desc,
1057                       void *data, int flag);
1058 int ldlm_glimpse_ast(struct ldlm_lock *lock, void *reqp);
1059 int ldlm_completion_ast_async(struct ldlm_lock *lock, int flags, void *data);
1060 int ldlm_completion_ast(struct ldlm_lock *lock, int flags, void *data);
1061 int ldlm_cli_enqueue(struct obd_export *exp, struct ptlrpc_request **reqp,
1062                      struct ldlm_enqueue_info *einfo,
1063                      const struct ldlm_res_id *res_id,
1064                      ldlm_policy_data_t *policy, int *flags,
1065                      void *lvb, __u32 lvb_len, struct lustre_handle *lockh,
1066                      int async);
1067 int ldlm_prep_enqueue_req(struct obd_export *exp,
1068                           struct ptlrpc_request *req,
1069                           struct list_head *cancels,
1070                           int count);
1071 int ldlm_prep_elc_req(struct obd_export *exp,
1072                       struct ptlrpc_request *req,
1073                       int version, int opc, int canceloff,
1074                       struct list_head *cancels, int count);
1075 int ldlm_handle_enqueue0(struct ldlm_namespace *ns, struct ptlrpc_request *req,
1076                          const struct ldlm_request *dlm_req,
1077                          const struct ldlm_callback_suite *cbs);
1078 int ldlm_cli_enqueue_fini(struct obd_export *exp, struct ptlrpc_request *req,
1079                           ldlm_type_t type, __u8 with_policy, ldlm_mode_t mode,
1080                           int *flags, void *lvb, __u32 lvb_len,
1081                           struct lustre_handle *lockh, int rc);
1082 int ldlm_cli_enqueue_local(struct ldlm_namespace *ns,
1083                            const struct ldlm_res_id *res_id,
1084                            ldlm_type_t type, ldlm_policy_data_t *policy,
1085                            ldlm_mode_t mode, int *flags,
1086                            ldlm_blocking_callback blocking,
1087                            ldlm_completion_callback completion,
1088                            ldlm_glimpse_callback glimpse,
1089                            void *data, __u32 lvb_len,
1090                            const __u64 *client_cookie,
1091                            struct lustre_handle *lockh);
1092 int ldlm_server_ast(struct lustre_handle *lockh, struct ldlm_lock_desc *new,
1093                     void *data, __u32 data_len);
1094 int ldlm_cli_convert(struct lustre_handle *, int new_mode, __u32 *flags);
1095 int ldlm_cli_update_pool(struct ptlrpc_request *req);
1096 int ldlm_handle_convert0(struct ptlrpc_request *req,
1097                          const struct ldlm_request *dlm_req);
1098 int ldlm_cli_cancel(struct lustre_handle *lockh);
1099 int ldlm_cli_cancel_unused(struct ldlm_namespace *, const struct ldlm_res_id *,
1100                            int flags, void *opaque);
1101 int ldlm_cli_cancel_unused_resource(struct ldlm_namespace *ns,
1102                                     const struct ldlm_res_id *res_id,
1103                                     ldlm_policy_data_t *policy,
1104                                     ldlm_mode_t mode, int flags, void *opaque);
1105 int ldlm_cli_cancel_req(struct obd_export *exp, struct list_head *head,
1106                         int count, int flags);
1107 int ldlm_cancel_resource_local(struct ldlm_resource *res,
1108                                struct list_head *cancels,
1109                                ldlm_policy_data_t *policy,
1110                                ldlm_mode_t mode, int lock_flags,
1111                                int cancel_flags, void *opaque);
1112 int ldlm_cli_cancel_list(struct list_head *head, int count,
1113                          struct ptlrpc_request *req, int flags);
1114
1115 /* mds/handler.c */
1116 /* This has to be here because recursive inclusion sucks. */
1117 int intent_disposition(struct ldlm_reply *rep, int flag);
1118 void intent_set_disposition(struct ldlm_reply *rep, int flag);
1119
1120
1121 /* ioctls for trying requests */
1122 #define IOC_LDLM_TYPE                   'f'
1123 #define IOC_LDLM_MIN_NR                 40
1124
1125 #define IOC_LDLM_TEST                   _IOWR('f', 40, long)
1126 #define IOC_LDLM_DUMP                   _IOWR('f', 41, long)
1127 #define IOC_LDLM_REGRESS_START          _IOWR('f', 42, long)
1128 #define IOC_LDLM_REGRESS_STOP           _IOWR('f', 43, long)
1129 #define IOC_LDLM_MAX_NR                 43
1130
1131 /**
1132  * "Modes" of acquiring lock_res, necessary to tell lockdep that taking more
1133  * than one lock_res is dead-lock safe.
1134  */
1135 enum lock_res_type {
1136         LRT_NORMAL,
1137         LRT_NEW
1138 };
1139
1140 static inline void lock_res(struct ldlm_resource *res)
1141 {
1142         spin_lock(&res->lr_lock);
1143 }
1144
1145 static inline void lock_res_nested(struct ldlm_resource *res,
1146                                    enum lock_res_type mode)
1147 {
1148         spin_lock_nested(&res->lr_lock, mode);
1149 }
1150
1151
1152 static inline void unlock_res(struct ldlm_resource *res)
1153 {
1154         spin_unlock(&res->lr_lock);
1155 }
1156
1157 static inline void check_res_locked(struct ldlm_resource *res)
1158 {
1159         LASSERT_SPIN_LOCKED(&res->lr_lock);
1160 }
1161
1162 struct ldlm_resource * lock_res_and_lock(struct ldlm_lock *lock);
1163 void unlock_res_and_lock(struct ldlm_lock *lock);
1164
1165 /* ldlm_pool.c */
1166 void ldlm_pools_recalc(ldlm_side_t client);
1167 int ldlm_pools_init(void);
1168 void ldlm_pools_fini(void);
1169
1170 int ldlm_pool_init(struct ldlm_pool *pl, struct ldlm_namespace *ns,
1171                    int idx, ldlm_side_t client);
1172 int ldlm_pool_shrink(struct ldlm_pool *pl, int nr,
1173                      unsigned int gfp_mask);
1174 void ldlm_pool_fini(struct ldlm_pool *pl);
1175 int ldlm_pool_setup(struct ldlm_pool *pl, int limit);
1176 int ldlm_pool_recalc(struct ldlm_pool *pl);
1177 __u32 ldlm_pool_get_lvf(struct ldlm_pool *pl);
1178 __u64 ldlm_pool_get_slv(struct ldlm_pool *pl);
1179 __u64 ldlm_pool_get_clv(struct ldlm_pool *pl);
1180 __u32 ldlm_pool_get_limit(struct ldlm_pool *pl);
1181 void ldlm_pool_set_slv(struct ldlm_pool *pl, __u64 slv);
1182 void ldlm_pool_set_clv(struct ldlm_pool *pl, __u64 clv);
1183 void ldlm_pool_set_limit(struct ldlm_pool *pl, __u32 limit);
1184 void ldlm_pool_add(struct ldlm_pool *pl, struct ldlm_lock *lock);
1185 void ldlm_pool_del(struct ldlm_pool *pl, struct ldlm_lock *lock);
1186 #endif