Whamcloud - gitweb
b=23094 add layout lock connect flag
[fs/lustre-release.git] / lustre / osd / osd_internal.h
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  * GPL HEADER START
5  *
6  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
7  *
8  * This program is free software; you can redistribute it and/or modify
9  * it under the terms of the GNU General Public License version 2 only,
10  * as published by the Free Software Foundation.
11  *
12  * This program is distributed in the hope that it will be useful, but
13  * WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * General Public License version 2 for more details (a copy is included
16  * in the LICENSE file that accompanied this code).
17  *
18  * You should have received a copy of the GNU General Public License
19  * version 2 along with this program; If not, see
20  * http://www.sun.com/software/products/lustre/docs/GPLv2.pdf
21  *
22  * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
23  * CA 95054 USA or visit www.sun.com if you need additional information or
24  * have any questions.
25  *
26  * GPL HEADER END
27  */
28 /*
29  * Copyright (c) 2007, 2010, Oracle and/or its affiliates. All rights reserved.
30  * Use is subject to license terms.
31  */
32 /*
33  * This file is part of Lustre, http://www.lustre.org/
34  * Lustre is a trademark of Sun Microsystems, Inc.
35  *
36  * lustre/osd/osd_internal.h
37  *
38  * Shared definitions and declarations for osd module
39  *
40  * Author: Nikita Danilov <nikita@clusterfs.com>
41  */
42
43 #ifndef _OSD_INTERNAL_H
44 #define _OSD_INTERNAL_H
45
46 #if defined(__KERNEL__)
47
48 /* struct rw_semaphore */
49 #include <linux/rwsem.h>
50 /* struct dentry */
51 #include <linux/dcache.h>
52 /* struct dirent64 */
53 #include <linux/dirent.h>
54
55 #ifdef HAVE_EXT4_LDISKFS
56 #include <ldiskfs/ldiskfs.h>
57 #include <ldiskfs/ldiskfs_jbd2.h>
58 #define osd_journal_callback_set(handle, func, jcb) jbd2_journal_callback_set(handle, func, jcb)
59 #else
60 #include <linux/jbd.h>
61 #include <linux/ldiskfs_fs.h>
62 #include <linux/ldiskfs_jbd.h>
63 #define osd_journal_callback_set(handle, func, jcb) journal_callback_set(handle, func, jcb)
64 #endif
65
66
67 /* LUSTRE_OSD_NAME */
68 #include <obd.h>
69 /* class_register_type(), class_unregister_type(), class_get_type() */
70 #include <obd_class.h>
71 #include <lustre_disk.h>
72
73 #include <dt_object.h>
74 #include "osd_oi.h"
75 #include "osd_iam.h"
76
77 struct inode;
78
79 #define OSD_OII_NOGEN (0)
80 #define OSD_COUNTERS (0)
81
82 #ifdef HAVE_QUOTA_SUPPORT
83 struct osd_ctxt {
84         __u32 oc_uid;
85         __u32 oc_gid;
86         __u32 oc_cap;
87 };
88 #endif
89
90 /*
91  * osd device.
92  */
93 struct osd_device {
94         /* super-class */
95         struct dt_device          od_dt_dev;
96         /* information about underlying file system */
97         struct lustre_mount_info *od_mount;
98         /* object index */
99         struct osd_oi             od_oi;
100         /*
101          * XXX temporary stuff for object index: directory where every object
102          * is named by its fid.
103          */
104         struct dt_object         *od_obj_area;
105
106         /* Environment for transaction commit callback.
107          * Currently, OSD is based on ext3/JBD. Transaction commit in ext3/JBD
108          * is serialized, that is there is no more than one transaction commit
109          * at a time (JBD journal_commit_transaction() is serialized).
110          * This means that it's enough to have _one_ lu_context.
111          */
112         struct lu_env             od_env_for_commit;
113
114         /*
115          * Fid Capability
116          */
117         unsigned int              od_fl_capa:1;
118         unsigned long             od_capa_timeout;
119         __u32                     od_capa_alg;
120         struct lustre_capa_key   *od_capa_keys;
121         cfs_hlist_head_t         *od_capa_hash;
122
123         cfs_proc_dir_entry_t     *od_proc_entry;
124         struct lprocfs_stats     *od_stats;
125         /*
126          * statfs optimization: we cache a bit.
127          */
128         cfs_time_t                od_osfs_age;
129         cfs_kstatfs_t             od_kstatfs;
130         cfs_spinlock_t            od_osfs_lock;
131
132         /**
133          * The following flag indicates, if it is interop mode or not.
134          * It will be initialized, using mount param.
135          */
136         __u32                     od_iop_mode;
137 };
138
139 /**
140  * Storage representation for fids.
141  *
142  * Variable size, first byte contains the length of the whole record.
143  */
144 struct osd_fid_pack {
145         unsigned char fp_len;
146         char fp_area[sizeof(struct lu_fid)];
147 };
148
149 struct osd_it_ea_dirent {
150         struct lu_fid   oied_fid;
151         __u64           oied_ino;
152         __u64           oied_off;
153         unsigned short  oied_namelen;
154         unsigned int    oied_type;
155         char            oied_name[0];
156 } __attribute__((packed));
157
158 /**
159  * as osd_it_ea_dirent (in memory dirent struct for osd) is greater
160  * than lu_dirent struct. osd readdir reads less number of dirent than
161  * required for mdd dir page. so buffer size need to be increased so that
162  * there  would be one ext3 readdir for every mdd readdir page.
163  */
164
165 #define OSD_IT_EA_BUFSIZE       (CFS_PAGE_SIZE + CFS_PAGE_SIZE/4)
166
167 /**
168  * This is iterator's in-memory data structure in interoperability
169  * mode (i.e. iterator over ldiskfs style directory)
170  */
171 struct osd_it_ea {
172         struct osd_object   *oie_obj;
173         /** used in ldiskfs iterator, to stored file pointer */
174         struct file          oie_file;
175         /** how many entries have been read-cached from storage */
176         int                  oie_rd_dirent;
177         /** current entry is being iterated by caller */
178         int                  oie_it_dirent;
179         /** current processing entry */
180         struct osd_it_ea_dirent *oie_dirent;
181         /** buffer to hold entries, size == OSD_IT_EA_BUFSIZE */
182         void                *oie_buf;
183 };
184
185 /**
186  * Iterator's in-memory data structure for IAM mode.
187  */
188 struct osd_it_iam {
189         struct osd_object     *oi_obj;
190         struct iam_path_descr *oi_ipd;
191         struct iam_iterator    oi_it;
192 };
193
194 struct osd_thread_info {
195         const struct lu_env   *oti_env;
196         /**
197          * used for index operations.
198          */
199         struct dentry          oti_obj_dentry;
200         struct dentry          oti_child_dentry;
201
202         /** dentry for Iterator context. */
203         struct dentry          oti_it_dentry;
204
205         struct lu_fid          oti_fid;
206         struct osd_inode_id    oti_id;
207         /*
208          * XXX temporary: for ->i_op calls.
209          */
210         struct txn_param       oti_txn;
211         struct timespec        oti_time;
212         struct timespec        oti_time2;
213         /*
214          * XXX temporary: fake struct file for osd_object_sync
215          */
216         struct file            oti_file;
217         /*
218          * XXX temporary: for capa operations.
219          */
220         struct lustre_capa_key oti_capa_key;
221         struct lustre_capa     oti_capa;
222
223         /**
224          * following ipd and it structures are used for osd_index_iam_lookup()
225          * these are defined separately as we might do index operation
226          * in open iterator session.
227          */
228
229         /** osd iterator context used for iterator session */
230
231         union {
232                 struct osd_it_iam      oti_it;
233                 /** ldiskfs iterator data structure, see osd_it_ea_{init, fini} */
234                 struct osd_it_ea       oti_it_ea;
235         };
236
237         /** pre-allocated buffer used by oti_it_ea, size OSD_IT_EA_BUFSIZE */
238         void                  *oti_it_ea_buf;
239
240         /** IAM iterator for index operation. */
241         struct iam_iterator    oti_idx_it;
242
243         /** union to guarantee that ->oti_ipd[] has proper alignment. */
244         union {
245                 char           oti_it_ipd[DX_IPD_MAX_SIZE];
246                 long long      oti_alignment_lieutenant;
247         };
248
249         union {
250                 char           oti_idx_ipd[DX_IPD_MAX_SIZE];
251                 long long      oti_alignment_lieutenant_colonel;
252         };
253
254
255         int                    oti_r_locks;
256         int                    oti_w_locks;
257         int                    oti_txns;
258         /** used in osd_fid_set() to put xattr */
259         struct lu_buf          oti_buf;
260         /** used in osd_ea_fid_set() to set fid into common ea */
261         struct lustre_mdt_attrs oti_mdt_attrs;
262 #ifdef HAVE_QUOTA_SUPPORT
263         struct osd_ctxt        oti_ctxt;
264 #endif
265         struct lu_env          oti_obj_delete_tx_env;
266 #define OSD_FID_REC_SZ 32
267         char                   oti_ldp[OSD_FID_REC_SZ];
268         char                   oti_ldp2[OSD_FID_REC_SZ];
269 };
270
271 #ifdef LPROCFS
272 /* osd_lproc.c */
273 void lprocfs_osd_init_vars(struct lprocfs_static_vars *lvars);
274 int osd_procfs_init(struct osd_device *osd, const char *name);
275 int osd_procfs_fini(struct osd_device *osd);
276 void osd_lprocfs_time_start(const struct lu_env *env);
277 void osd_lprocfs_time_end(const struct lu_env *env,
278                           struct osd_device *osd, int op);
279 #endif
280 int osd_statfs(const struct lu_env *env, struct dt_device *dev,
281                cfs_kstatfs_t *sfs);
282
283 /*
284  * Invariants, assertions.
285  */
286
287 /*
288  * XXX: do not enable this, until invariant checking code is made thread safe
289  * in the face of pdirops locking.
290  */
291 #define OSD_INVARIANT_CHECKS (0)
292
293 #if OSD_INVARIANT_CHECKS
294 static inline int osd_invariant(const struct osd_object *obj)
295 {
296         return
297                 obj != NULL &&
298                 ergo(obj->oo_inode != NULL,
299                      obj->oo_inode->i_sb == osd_sb(osd_obj2dev(obj)) &&
300                      atomic_read(&obj->oo_inode->i_count) > 0) &&
301                 ergo(obj->oo_dir != NULL &&
302                      obj->oo_dir->od_conationer.ic_object != NULL,
303                      obj->oo_dir->od_conationer.ic_object == obj->oo_inode);
304 }
305 #else
306 #define osd_invariant(obj) (1)
307 #endif
308
309 /* The on-disk extN format reserves inodes 0-11 for internal filesystem
310  * use, and these inodes will be invisible on client side, so the valid
311  * sequence for IGIF fid is 12-0xffffffff. But root inode (2#) will be seen
312  * on server side (osd), and it should be valid too here.
313  */
314 #define OSD_ROOT_SEQ            2
315 static inline int osd_fid_is_root(const struct lu_fid *fid)
316 {
317         return fid_seq(fid) == OSD_ROOT_SEQ;
318 }
319
320 static inline int osd_fid_is_igif(const struct lu_fid *fid)
321 {
322         return fid_is_igif(fid) || osd_fid_is_root(fid);
323 }
324
325 #endif /* __KERNEL__ */
326 #endif /* _OSD_INTERNAL_H */