Whamcloud - gitweb
LU-13306 mgs: use large NIDS in the nid table on the MGS
[fs/lustre-release.git] / lustre / include / lustre_disk.h
1 /*
2  * GPL HEADER START
3  *
4  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
5  *
6  * This program is free software; you can redistribute it and/or modify
7  * it under the terms of the GNU General Public License version 2 only,
8  * as published by the Free Software Foundation.
9  *
10  * This program is distributed in the hope that it will be useful, but
11  * WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * General Public License version 2 for more details (a copy is included
14  * in the LICENSE file that accompanied this code).
15  *
16  * You should have received a copy of the GNU General Public License
17  * version 2 along with this program; If not, see
18  * http://www.gnu.org/licenses/gpl-2.0.html
19  *
20  * GPL HEADER END
21  */
22 /*
23  * Copyright (c) 2007, 2010, Oracle and/or its affiliates. All rights reserved.
24  * Use is subject to license terms.
25  *
26  * Copyright (c) 2011, 2017, Intel Corporation.
27  */
28 /*
29  * This file is part of Lustre, http://www.lustre.org/
30  *
31  * lustre/include/lustre_disk.h
32  *
33  * Lustre disk format definitions.
34  *
35  * Author: Nathan Rutman <nathan@clusterfs.com>
36  */
37
38 #ifndef _LUSTRE_DISK_H
39 #define _LUSTRE_DISK_H
40
41 /** \defgroup disk disk
42  *
43  * @{
44  */
45 #include <asm/byteorder.h>
46 #include <linux/types.h>
47 #include <linux/backing-dev.h>
48 #include <linux/list.h>
49 #include <libcfs/libcfs.h>
50 #if !defined(CONFIG_LL_ENCRYPTION) && defined(HAVE_LUSTRE_CRYPTO)
51 #include <lustre_crypto.h>
52 #endif
53 #include <uapi/linux/lustre/lustre_idl.h>
54 #ifdef HAVE_SERVER_SUPPORT
55 #include <uapi/linux/lustre/lustre_disk.h>
56 #define IS_MDT(data)            ((data)->lsi_flags & LDD_F_SV_TYPE_MDT)
57 #define IS_OST(data)            ((data)->lsi_flags & LDD_F_SV_TYPE_OST)
58 #define IS_MGS(data)            ((data)->lsi_flags & LDD_F_SV_TYPE_MGS)
59 #define IS_SERVER(data)         ((data) &&                                \
60                                  (data)->lsi_flags & (LDD_F_SV_TYPE_MGS | \
61                                                       LDD_F_SV_TYPE_MDT | \
62                                                       LDD_F_SV_TYPE_OST))
63 #else
64 #define LDD_F_SV_TYPE_MDT       0x0001
65 #define LDD_F_SV_TYPE_OST       0x0002
66 #define LDD_F_SV_TYPE_MGS       0x0004
67 #define LDD_F_SV_ALL            0x0008
68
69 #define IS_MDT(data)            (0)
70 #define IS_OST(data)            (0)
71 #define IS_MGS(data)            (0)
72 #define IS_SERVER(data)         (0)
73 #endif
74
75 #define MT_STR(data)            mt_str((data)->ldd_mount_type)
76
77 /****************** mount command *********************/
78
79 /* The lmd is only used internally by Lustre; mount simply passes
80  * everything as string options
81  */
82 #define LMD_MAGIC               0xbdacbd03
83 #define LMD_PARAMS_MAXLEN       4096
84
85 enum lmd_flags {
86         LMD_FLG_SERVER          = 0,    /* Mounting a server */
87         LMD_FLG_CLIENT,                 /* Mounting a client */
88         LMD_FLG_SKIP_LFSCK,             /* NOT auto resume LFSCK when mount */
89         LMD_FLG_ABORT_RECOV,            /* Abort recovery */
90         LMD_FLG_NOSVC,                  /* Only start MGS/MGC for servers,
91                                          * no other services
92                                          */
93         LMD_FLG_NOMGS,                  /* Only start target for servers,
94                                          * reusing existing MGS services
95                                          */
96         LMD_FLG_WRITECONF,              /* Rewrite config log */
97         LMD_FLG_NOIR,                   /* NO imperative recovery */
98         LMD_FLG_NOSCRUB,                        /* Do not trigger scrub automatically */
99         LMD_FLG_MGS,                    /* Also start MGS along with server */
100         LMD_FLG_IAM,                    /* IAM dir */
101         LMD_FLG_NO_PRIMNODE,            /* all nodes are service nodes */
102         LMD_FLG_VIRGIN,                 /* the service registers first time */
103         LMD_FLG_UPDATE,                 /* update parameters */
104         LMD_FLG_HSM,                    /* Start coordinator */
105         LMD_FLG_DEV_RDONLY,             /* discard modification quitely */
106         LMD_FLG_NO_PRECREATE,           /* do not allow OST object creation */
107         LMD_FLG_LOCAL_RECOV,            /* force recovery for local clients */
108         LMD_FLG_ABORT_RECOV_MDT,        /* Abort recovery between MDTs */
109         LMD_FLG_NO_LOCAL_LOGS,          /* Use config logs from MGS */
110         LMD_FLG_NUM_FLAGS
111 };
112
113 /* gleaned from the mount command - no persistent info here */
114 struct lustre_mount_data {
115         u32     lmd_magic;
116         DECLARE_BITMAP(lmd_flags, LMD_FLG_NUM_FLAGS); /* lustre mount flags */
117         int     lmd_mgs_failnodes; /* mgs failover node count */
118         int     lmd_exclude_count;
119         int     lmd_recovery_time_soft;
120         int     lmd_recovery_time_hard;
121         char   *lmd_dev;        /* device name */
122         char   *lmd_profile;    /* client only */
123         char   *lmd_fileset;    /* mount fileset */
124         char   *lmd_mgssec;     /* sptlrpc flavor to mgs */
125         char   *lmd_opts;       /* lustre mount options (as opposed to
126                                  * device_ mount options) */
127         char   *lmd_params;     /* lustre params */
128         u32    *lmd_exclude;    /* array of OSTs to ignore */
129         char   *lmd_mgs;        /* MGS nid */
130         char   *lmd_osd_type;   /* OSD type */
131         char   *lmd_nidnet;     /* network to restrict this client to */
132 };
133
134 #define lmd_is_client(x) (test_bit(LMD_FLG_CLIENT, (x)->lmd_flags))
135
136 /****************** superblock additional info *********************/
137 struct ll_sb_info;
138 struct kobject;
139
140 struct lustre_sb_info {
141         int                       lsi_flags;
142         struct obd_device        *lsi_mgc;     /* mgc obd */
143         struct lustre_mount_data *lsi_lmd;     /* mount command info */
144         struct ll_sb_info        *lsi_llsbi;   /* add'l client sbi info */
145         struct dt_device         *lsi_dt_dev;  /* dt device to access disk fs*/
146         atomic_t                  lsi_mounts;  /* references to the srv_mnt */
147         struct kobject           *lsi_kobj;
148         char                      lsi_svname[MTI_NAME_MAXLEN];
149         /* lsi_osd_obdname format = 'lsi->ls_svname'-osd */
150         char                      lsi_osd_obdname[MTI_NAME_MAXLEN + 4];
151         /* lsi_osd_uuid format = 'lsi->ls_osd_obdname'_UUID */
152         char                      lsi_osd_uuid[MTI_NAME_MAXLEN + 9];
153         struct obd_export        *lsi_osd_exp;
154         char                      lsi_osd_type[16];
155         char                      lsi_fstype[16];
156         struct backing_dev_info   lsi_bdi;     /* each client mountpoint needs
157                                                   own backing_dev_info */
158         /* protect lsi_lwp_list */
159         struct mutex              lsi_lwp_mutex;
160         struct list_head          lsi_lwp_list;
161         unsigned long             lsi_lwp_started:1,
162                                   lsi_server_started:1;
163 #ifdef CONFIG_LL_ENCRYPTION
164         const struct llcrypt_operations *lsi_cop;
165         struct key               *lsi_master_keys; /* master crypto keys used */
166 #elif defined(HAVE_LUSTRE_CRYPTO) && !defined(HAVE_FSCRYPT_DUMMY_CONTEXT_ENABLED)
167         /* Dummy Encryption policy for '-o test_dummy_encryption' */
168         struct llcrypt_dummy_policy     lsi_dummy_enc_policy;
169 #endif
170 };
171
172 #define LSI_UMOUNT_FAILOVER              0x00200000
173 #ifndef HAVE_SUPER_SETUP_BDI_NAME
174 #define LSI_BDI_INITIALIZED              0x00400000
175 #endif
176 #ifdef CONFIG_LL_ENCRYPTION
177 #define LSI_FILENAME_ENC                 0x00800000 /* enable name encryption */
178 #endif
179 #define LSI_FILENAME_ENC_B64_OLD_CLI     0x01000000 /* use old style base64 */
180
181 #define     s2lsi(sb)        ((struct lustre_sb_info *)((sb)->s_fs_info))
182 #define     s2lsi_nocast(sb) ((sb)->s_fs_info)
183
184 #define     get_profile_name(sb)   (s2lsi(sb)->lsi_lmd->lmd_profile)
185 #define     get_mount_fileset(sb)  (s2lsi(sb)->lsi_lmd->lmd_fileset)
186
187 /* opc for target register, see also uapi/linux/lustre/lustre_disk.h.
188  * For mti_flags the lower 16 bits are used for mount options so these
189  * have to be masked out with LDD_F_MASK. Otherwise these values will
190  * be seen as unsupported mount options. Bit 16 is already used by
191  * LDD_F_NO_LOCAL_LOGS so 17 is next free bit.
192  */
193 enum ldd_target_flags {
194         LDD_F_LARGE_NID         = BIT(17),      /* 0x20000 */
195 };
196
197 static inline bool target_supports_large_nid(struct mgs_target_info *mti)
198 {
199         return mti->mti_flags & LDD_F_LARGE_NID;
200 }
201
202 # ifdef HAVE_SERVER_SUPPORT
203 /* opc for target register */
204 #define LDD_F_OPC_REG   0x10000000      /* bit 28 */
205 #define LDD_F_OPC_UNREG 0x20000000      /* bit 29 */
206 #define LDD_F_OPC_READY 0x40000000      /* bit 30 */
207 #define LDD_F_OPC_MASK  0xf0000000
208
209 #define LDD_F_MASK      0xFFFF
210
211 /*
212  * This limit is arbitrary (131072 clients on x86), but it is convenient to use
213  * 2^n * PAGE_SIZE * 8 for the number of bits that fit an order-n allocation.
214  * If we need more than 131072 clients (order-2 allocation on x86) then this
215  * should become an array of single-page pointers that are allocated on demand.
216  */
217 #if (128 * 1024UL) > (PAGE_SIZE * 8)
218 #define LR_MAX_CLIENTS (128 * 1024UL)
219 #else
220 #define LR_MAX_CLIENTS (PAGE_SIZE * 8)
221 #endif
222
223 /** COMPAT_146: this is an OST (temporary) */
224 #define OBD_COMPAT_OST          0x00000002
225 /** COMPAT_146: this is an MDT (temporary) */
226 #define OBD_COMPAT_MDT          0x00000004
227 /** 2.0 server, interop flag to show server version is changed */
228 #define OBD_COMPAT_20           0x00000008
229
230 /** MDS handles LOV_OBJID file */
231 #define OBD_ROCOMPAT_LOVOBJID           0x00000001
232 /** store OST index in the IDIF */
233 #define OBD_ROCOMPAT_IDX_IN_IDIF        0x00000002
234
235 /** OST handles group subdirs */
236 #define OBD_INCOMPAT_GROUPS     0x00000001
237 /** this is an OST */
238 #define OBD_INCOMPAT_OST        0x00000002
239 /** this is an MDT */
240 #define OBD_INCOMPAT_MDT        0x00000004
241 /** common last_rvcd format */
242 #define OBD_INCOMPAT_COMMON_LR  0x00000008
243 /** FID is enabled */
244 #define OBD_INCOMPAT_FID        0x00000010
245 /** Size-on-MDS is enabled */
246 #define OBD_INCOMPAT_SOM        0x00000020
247 /** filesystem using iam format to store directory entries */
248 #define OBD_INCOMPAT_IAM_DIR    0x00000040
249 /** LMA attribute contains per-inode incompatible flags */
250 #define OBD_INCOMPAT_LMA        0x00000080
251 /** lmm_stripe_count has been shrunk from u32 to u16 and the remaining 16
252  * bits are now used to store a generation. Once we start changing the layout
253  * and bumping the generation, old versions expecting a 32-bit lmm_stripe_count
254  * will be confused by interpreting stripe_count | gen << 16 as the actual
255  * stripe count */
256 #define OBD_INCOMPAT_LMM_VER    0x00000100
257 /** multiple OI files for MDT */
258 #define OBD_INCOMPAT_MULTI_OI   0x00000200
259 /** multiple RPCs in flight */
260 #define OBD_INCOMPAT_MULTI_RPCS 0x00000400
261
262 /* last_rcvd handling */
263 static inline void lsd_le_to_cpu(struct lr_server_data *buf,
264                                  struct lr_server_data *lsd)
265 {
266         int i;
267
268         memcpy(lsd->lsd_uuid, buf->lsd_uuid, sizeof(lsd->lsd_uuid));
269         lsd->lsd_last_transno = le64_to_cpu(buf->lsd_last_transno);
270         lsd->lsd_compat14 = le64_to_cpu(buf->lsd_compat14);
271         lsd->lsd_mount_count = le64_to_cpu(buf->lsd_mount_count);
272         lsd->lsd_feature_compat = le32_to_cpu(buf->lsd_feature_compat);
273         lsd->lsd_feature_rocompat = le32_to_cpu(buf->lsd_feature_rocompat);
274         lsd->lsd_feature_incompat = le32_to_cpu(buf->lsd_feature_incompat);
275         lsd->lsd_server_size = le32_to_cpu(buf->lsd_server_size);
276         lsd->lsd_client_start = le32_to_cpu(buf->lsd_client_start);
277         lsd->lsd_client_size = le16_to_cpu(buf->lsd_client_size);
278         lsd->lsd_subdir_count = le16_to_cpu(buf->lsd_subdir_count);
279         lsd->lsd_catalog_oid = le64_to_cpu(buf->lsd_catalog_oid);
280         lsd->lsd_catalog_ogen = le32_to_cpu(buf->lsd_catalog_ogen);
281         memcpy(lsd->lsd_peeruuid, buf->lsd_peeruuid, sizeof(lsd->lsd_peeruuid));
282         lsd->lsd_osd_index = le32_to_cpu(buf->lsd_osd_index);
283         lsd->lsd_padding1 = le32_to_cpu(buf->lsd_padding1);
284         lsd->lsd_start_epoch = le32_to_cpu(buf->lsd_start_epoch);
285         for (i = 0; i < LR_EXPIRE_INTERVALS; i++)
286                 lsd->lsd_trans_table[i] = le64_to_cpu(buf->lsd_trans_table[i]);
287         lsd->lsd_trans_table_time = le32_to_cpu(buf->lsd_trans_table_time);
288         lsd->lsd_expire_intervals = le32_to_cpu(buf->lsd_expire_intervals);
289 }
290
291 static inline void lsd_cpu_to_le(struct lr_server_data *lsd,
292                                  struct lr_server_data *buf)
293 {
294         int i;
295
296         memcpy(buf->lsd_uuid, lsd->lsd_uuid, sizeof(buf->lsd_uuid));
297         buf->lsd_last_transno = cpu_to_le64(lsd->lsd_last_transno);
298         buf->lsd_compat14 = cpu_to_le64(lsd->lsd_compat14);
299         buf->lsd_mount_count = cpu_to_le64(lsd->lsd_mount_count);
300         buf->lsd_feature_compat = cpu_to_le32(lsd->lsd_feature_compat);
301         buf->lsd_feature_rocompat = cpu_to_le32(lsd->lsd_feature_rocompat);
302         buf->lsd_feature_incompat = cpu_to_le32(lsd->lsd_feature_incompat);
303         buf->lsd_server_size = cpu_to_le32(lsd->lsd_server_size);
304         buf->lsd_client_start = cpu_to_le32(lsd->lsd_client_start);
305         buf->lsd_client_size = cpu_to_le16(lsd->lsd_client_size);
306         buf->lsd_subdir_count = cpu_to_le16(lsd->lsd_subdir_count);
307         buf->lsd_catalog_oid = cpu_to_le64(lsd->lsd_catalog_oid);
308         buf->lsd_catalog_ogen = cpu_to_le32(lsd->lsd_catalog_ogen);
309         memcpy(buf->lsd_peeruuid, lsd->lsd_peeruuid, sizeof(buf->lsd_peeruuid));
310         buf->lsd_osd_index = cpu_to_le32(lsd->lsd_osd_index);
311         buf->lsd_padding1 = cpu_to_le32(lsd->lsd_padding1);
312         buf->lsd_start_epoch = cpu_to_le32(lsd->lsd_start_epoch);
313         for (i = 0; i < LR_EXPIRE_INTERVALS; i++)
314                 buf->lsd_trans_table[i] = cpu_to_le64(lsd->lsd_trans_table[i]);
315         buf->lsd_trans_table_time = cpu_to_le32(lsd->lsd_trans_table_time);
316         buf->lsd_expire_intervals = cpu_to_le32(lsd->lsd_expire_intervals);
317 }
318
319 static inline void lcd_le_to_cpu(struct lsd_client_data *buf,
320                                  struct lsd_client_data *lcd)
321 {
322         memcpy(lcd->lcd_uuid, buf->lcd_uuid, sizeof (lcd->lcd_uuid));
323         lcd->lcd_last_transno = le64_to_cpu(buf->lcd_last_transno);
324         lcd->lcd_last_xid = le64_to_cpu(buf->lcd_last_xid);
325         lcd->lcd_last_result = le32_to_cpu(buf->lcd_last_result);
326         lcd->lcd_last_data = le32_to_cpu(buf->lcd_last_data);
327         lcd->lcd_last_close_transno = le64_to_cpu(buf->lcd_last_close_transno);
328         lcd->lcd_last_close_xid = le64_to_cpu(buf->lcd_last_close_xid);
329         lcd->lcd_last_close_result = le32_to_cpu(buf->lcd_last_close_result);
330         lcd->lcd_last_close_data = le32_to_cpu(buf->lcd_last_close_data);
331         lcd->lcd_pre_versions[0] = le64_to_cpu(buf->lcd_pre_versions[0]);
332         lcd->lcd_pre_versions[1] = le64_to_cpu(buf->lcd_pre_versions[1]);
333         lcd->lcd_pre_versions[2] = le64_to_cpu(buf->lcd_pre_versions[2]);
334         lcd->lcd_pre_versions[3] = le64_to_cpu(buf->lcd_pre_versions[3]);
335         lcd->lcd_last_epoch = le32_to_cpu(buf->lcd_last_epoch);
336         lcd->lcd_generation = le32_to_cpu(buf->lcd_generation);
337 }
338
339 static inline void lcd_cpu_to_le(struct lsd_client_data *lcd,
340                                  struct lsd_client_data *buf)
341 {
342         memcpy(buf->lcd_uuid, lcd->lcd_uuid, sizeof (lcd->lcd_uuid));
343         buf->lcd_last_transno = cpu_to_le64(lcd->lcd_last_transno);
344         buf->lcd_last_xid = cpu_to_le64(lcd->lcd_last_xid);
345         buf->lcd_last_result = cpu_to_le32(lcd->lcd_last_result);
346         buf->lcd_last_data = cpu_to_le32(lcd->lcd_last_data);
347         buf->lcd_last_close_transno = cpu_to_le64(lcd->lcd_last_close_transno);
348         buf->lcd_last_close_xid = cpu_to_le64(lcd->lcd_last_close_xid);
349         buf->lcd_last_close_result = cpu_to_le32(lcd->lcd_last_close_result);
350         buf->lcd_last_close_data = cpu_to_le32(lcd->lcd_last_close_data);
351         buf->lcd_pre_versions[0] = cpu_to_le64(lcd->lcd_pre_versions[0]);
352         buf->lcd_pre_versions[1] = cpu_to_le64(lcd->lcd_pre_versions[1]);
353         buf->lcd_pre_versions[2] = cpu_to_le64(lcd->lcd_pre_versions[2]);
354         buf->lcd_pre_versions[3] = cpu_to_le64(lcd->lcd_pre_versions[3]);
355         buf->lcd_last_epoch = cpu_to_le32(lcd->lcd_last_epoch);
356         buf->lcd_generation = cpu_to_le32(lcd->lcd_generation);
357 }
358
359 static inline u64 lcd_last_transno(struct lsd_client_data *lcd)
360 {
361         return (lcd->lcd_last_transno > lcd->lcd_last_close_transno ?
362                 lcd->lcd_last_transno : lcd->lcd_last_close_transno);
363 }
364
365 static inline u64 lcd_last_xid(struct lsd_client_data *lcd)
366 {
367         return (lcd->lcd_last_xid > lcd->lcd_last_close_xid ?
368                 lcd->lcd_last_xid : lcd->lcd_last_close_xid);
369 }
370
371 /****************** mount lookup info *********************/
372
373 struct lustre_mount_info {
374         char                    *lmi_name;
375         struct super_block      *lmi_sb;
376         struct list_head         lmi_list_chain;
377 };
378
379 /****************** prototypes *********************/
380
381 /* obd_mount_server.c */
382 int server_fill_super(struct super_block *sb);
383 struct lustre_mount_info *server_get_mount(const char *name);
384 int server_put_mount(const char *name, bool dereg_mnt);
385 struct mgs_target_info;
386 int server_mti_print(const char *title, struct mgs_target_info *mti);
387 void server_calc_timeout(struct lustre_sb_info *lsi, struct obd_device *obd);
388
389 /* obd_mount.c */
390 int server_name2svname(const char *label, char *svname, const char **endptr,
391                        size_t svsize);
392
393 int server_name_is_ost(const char *svname);
394 int target_name2index(const char *svname, u32 *idx, const char **endptr);
395
396 int lustre_put_lsi(struct super_block *sb);
397 int lustre_start_simple(char *obdname, char *type, char *uuid,
398                         char *s1, char *s2, char *s3, char *s4);
399 int lustre_stop_mgc(struct super_block *sb);
400 #endif /* HAVE_SERVER_SUPPORT */
401 int server_name2fsname(const char *svname, char *fsname, const char **endptr);
402 void obdname2fsname(const char *tgt, char *fsname, size_t fslen);
403
404 int lustre_start_mgc(struct super_block *sb);
405 int lustre_common_put_super(struct super_block *sb);
406
407 struct lustre_sb_info *lustre_init_lsi(struct super_block *sb);
408 int lustre_put_lsi(struct super_block *sb);
409 int lmd_parse(char *options, struct lustre_mount_data *lmd);
410
411 /* mgc_request.c */
412 int mgc_fsname2resid(char *fsname, struct ldlm_res_id *res_id,
413                      enum mgs_cfg_type type);
414 int mgc_logname2resid(char *fsname, struct ldlm_res_id *res_id,
415                       enum mgs_cfg_type type);
416
417 /** @} disk */
418
419 #endif /* _LUSTRE_DISK_H */