Whamcloud - gitweb
b=16098
[fs/lustre-release.git] / lustre / mdc / mdc_lib.c
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  * GPL HEADER START
5  *
6  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
7  *
8  * This program is free software; you can redistribute it and/or modify
9  * it under the terms of the GNU General Public License version 2 only,
10  * as published by the Free Software Foundation.
11  *
12  * This program is distributed in the hope that it will be useful, but
13  * WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * General Public License version 2 for more details (a copy is included
16  * in the LICENSE file that accompanied this code).
17  *
18  * You should have received a copy of the GNU General Public License
19  * version 2 along with this program; If not, see [sun.com URL with a
20  * copy of GPLv2].
21  *
22  * Please contact Sun Microsystems, Inc., 4150 Network Circle, Santa Clara,
23  * CA 95054 USA or visit www.sun.com if you need additional information or
24  * have any questions.
25  *
26  * GPL HEADER END
27  */
28 /*
29  * Copyright  2008 Sun Microsystems, Inc. All rights reserved
30  * Use is subject to license terms.
31  */
32 /*
33  * This file is part of Lustre, http://www.lustre.org/
34  * Lustre is a trademark of Sun Microsystems, Inc.
35  */
36
37 #define DEBUG_SUBSYSTEM S_MDC
38 #ifndef __KERNEL__
39 # include <fcntl.h>
40 # include <liblustre.h>
41 #endif
42 #include <lustre/lustre_idl.h>
43 #include <lustre_net.h>
44 #include "mdc_internal.h"
45
46 #ifndef __KERNEL__
47 /* some liblustre hackings here */
48 #ifndef O_DIRECTORY
49 #define O_DIRECTORY     0
50 #endif
51 #endif
52
53 static void __mdc_pack_body(struct mdt_body *b, __u32 suppgid)
54 {
55         LASSERT (b != NULL);
56
57         b->suppgid = suppgid;
58         b->uid = current->uid;
59         b->gid = current->gid;
60         b->fsuid = current->fsuid;
61         b->fsgid = current->fsgid;
62         b->capability = current->cap_effective;
63 }
64
65 void mdc_pack_capa(struct ptlrpc_request *req, const struct req_msg_field *field,
66                    struct obd_capa *oc)
67 {
68         struct req_capsule *pill = &req->rq_pill;
69         struct lustre_capa *c;
70
71         if (oc == NULL) {
72                 LASSERT(req_capsule_get_size(pill, field, RCL_CLIENT) == 0);
73                 return;
74         }
75
76         c = req_capsule_client_get(pill, field);
77         LASSERT(c != NULL);
78         capa_cpy(c, oc);
79         DEBUG_CAPA(D_SEC, c, "pack");
80 }
81
82 void mdc_is_subdir_pack(struct ptlrpc_request *req, const struct lu_fid *pfid,
83                         const struct lu_fid *cfid, int flags)
84 {
85         struct mdt_body *b = req_capsule_client_get(&req->rq_pill,
86                                                     &RMF_MDT_BODY);
87
88         if (pfid) {
89                 b->fid1 = *pfid;
90                 b->valid = OBD_MD_FLID;
91         }
92         if (cfid)
93                 b->fid2 = *cfid;
94         b->flags = flags;
95 }
96
97 void mdc_pack_body(struct ptlrpc_request *req,
98                    const struct lu_fid *fid, struct obd_capa *oc,
99                    __u64 valid, int ea_size, __u32 suppgid, int flags)
100 {
101         struct mdt_body *b = req_capsule_client_get(&req->rq_pill,
102                                                     &RMF_MDT_BODY);
103         LASSERT(b != NULL);
104         b->valid = valid;
105         b->eadatasize = ea_size;
106         b->flags = flags;
107         __mdc_pack_body(b, suppgid);
108         if (fid) {
109                 b->fid1 = *fid;
110                 b->valid |= OBD_MD_FLID;
111                 mdc_pack_capa(req, &RMF_CAPA1, oc);
112         }
113 }
114
115 void mdc_readdir_pack(struct ptlrpc_request *req, __u64 pgoff,
116                       __u32 size, const struct lu_fid *fid, struct obd_capa *oc)
117 {
118         struct mdt_body *b = req_capsule_client_get(&req->rq_pill,
119                                                     &RMF_MDT_BODY);
120         b->fid1 = *fid;
121         b->valid |= OBD_MD_FLID;
122         b->size = pgoff;                       /* !! */
123         b->nlink = size;                        /* !! */
124         __mdc_pack_body(b, -1);
125         mdc_pack_capa(req, &RMF_CAPA1, oc);
126 }
127
128 /* packing of MDS records */
129 void mdc_create_pack(struct ptlrpc_request *req, struct md_op_data *op_data,
130                      const void *data, int datalen, __u32 mode,
131                      __u32 uid, __u32 gid, __u32 cap_effective, __u64 rdev)
132 {
133         struct mdt_rec_create *rec;
134         char                  *tmp;
135
136         CLASSERT(sizeof(struct mdt_rec_reint) == sizeof(struct mdt_rec_create));
137         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_REINT);
138
139
140         rec->cr_opcode   = REINT_CREATE;
141         rec->cr_fsuid    = uid;
142         rec->cr_fsgid    = gid;
143         rec->cr_cap      = cap_effective;
144         rec->cr_fid1     = op_data->op_fid1;
145         rec->cr_fid2     = op_data->op_fid2;
146         rec->cr_mode     = mode;
147         rec->cr_rdev     = rdev;
148         rec->cr_time     = op_data->op_mod_time;
149         rec->cr_suppgid1 = op_data->op_suppgids[0];
150         rec->cr_suppgid2 = op_data->op_suppgids[1];
151         rec->cr_flags    = op_data->op_flags & ~MF_SOM_LOCAL_FLAGS;
152         rec->cr_bias     = op_data->op_bias;
153
154         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
155
156         tmp = req_capsule_client_get(&req->rq_pill, &RMF_NAME);
157         LOGL0(op_data->op_name, op_data->op_namelen, tmp);
158
159         if (data) {
160                 tmp = req_capsule_client_get(&req->rq_pill, &RMF_EADATA);
161                 memcpy(tmp, data, datalen);
162         }
163 }
164
165 static __u32 mds_pack_open_flags(__u32 flags)
166 {
167         __u32 cr_flags = (flags & (FMODE_READ | FMODE_WRITE |
168                                    MDS_OPEN_HAS_EA | MDS_OPEN_HAS_OBJS | 
169                                    MDS_OPEN_OWNEROVERRIDE | MDS_OPEN_LOCK));
170         if (flags & O_CREAT)
171                 cr_flags |= MDS_OPEN_CREAT;
172         if (flags & O_EXCL)
173                 cr_flags |= MDS_OPEN_EXCL;
174         if (flags & O_TRUNC)
175                 cr_flags |= MDS_OPEN_TRUNC;
176         if (flags & O_APPEND)
177                 cr_flags |= MDS_OPEN_APPEND;
178         if (flags & O_SYNC)
179                 cr_flags |= MDS_OPEN_SYNC;
180         if (flags & O_DIRECTORY)
181                 cr_flags |= MDS_OPEN_DIRECTORY;
182         if (flags & O_JOIN_FILE)
183                 cr_flags |= MDS_OPEN_JOIN_FILE;
184 #ifdef FMODE_EXEC
185         if (flags & FMODE_EXEC)
186                 cr_flags |= MDS_FMODE_EXEC;
187 #endif
188         if (flags & O_LOV_DELAY_CREATE)
189                 cr_flags |= MDS_OPEN_DELAY_CREATE;
190
191         return cr_flags;
192 }
193
194 /* packing of MDS records */
195 void mdc_join_pack(struct ptlrpc_request *req,
196                    struct md_op_data *op_data,
197                    __u64 head_size)
198 {
199         struct mdt_rec_join *rec;
200
201         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_JOINFILE);
202         LASSERT(rec != NULL);
203         rec->jr_fid = op_data->op_fid2;
204         rec->jr_headsize = head_size;
205 }
206
207 void mdc_open_pack(struct ptlrpc_request *req, struct md_op_data *op_data,
208                    __u32 mode, __u64 rdev, __u32 flags, const void *lmm,
209                    int lmmlen)
210 {
211         struct mdt_rec_create *rec;
212         char *tmp;
213
214         CLASSERT(sizeof(struct mdt_rec_reint) == sizeof(struct mdt_rec_create));
215         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_REINT);
216
217         /* XXX do something about time, uid, gid */
218         rec->cr_opcode   = REINT_OPEN;
219         rec->cr_fsuid    = current->fsuid;
220         rec->cr_fsgid    = current->fsgid;
221         rec->cr_cap      = current->cap_effective;
222         if (op_data != NULL) {
223                 rec->cr_fid1 = op_data->op_fid1;
224                 rec->cr_fid2 = op_data->op_fid2;
225         }
226         rec->cr_mode     = mode;
227         rec->cr_flags    = mds_pack_open_flags(flags);
228         rec->cr_rdev     = rdev;
229         rec->cr_time     = op_data->op_mod_time;
230         rec->cr_suppgid1 = op_data->op_suppgids[0];
231         rec->cr_suppgid2 = op_data->op_suppgids[1];
232         rec->cr_bias     = op_data->op_bias;
233
234         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
235         /* the next buffer is child capa, which is used for replay,
236          * will be packed from the data in reply message. */
237
238         if (op_data->op_name) {
239                 tmp = req_capsule_client_get(&req->rq_pill, &RMF_NAME);
240                 LOGL0(op_data->op_name, op_data->op_namelen, tmp);
241         }
242
243         if (lmm) {
244                 rec->cr_flags |= MDS_OPEN_HAS_EA;
245 #ifndef __KERNEL__
246                 /*XXX a hack for liblustre to set EA (LL_IOC_LOV_SETSTRIPE) */
247                 rec->cr_fid2 = op_data->op_fid2;
248 #endif
249                 tmp = req_capsule_client_get(&req->rq_pill, &RMF_EADATA);
250                 memcpy (tmp, lmm, lmmlen);
251         }
252 }
253
254 static inline __u64 attr_pack(unsigned int ia_valid) {
255         __u64 sa_valid = 0;
256
257         if (ia_valid & ATTR_MODE)
258                 sa_valid |= MDS_ATTR_MODE;
259         if (ia_valid & ATTR_UID)
260                 sa_valid |= MDS_ATTR_UID;
261         if (ia_valid & ATTR_GID)
262                 sa_valid |= MDS_ATTR_GID;
263         if (ia_valid & ATTR_SIZE)
264                 sa_valid |= MDS_ATTR_SIZE;
265         if (ia_valid & ATTR_ATIME)
266                 sa_valid |= MDS_ATTR_ATIME;
267         if (ia_valid & ATTR_MTIME)
268                 sa_valid |= MDS_ATTR_MTIME;
269         if (ia_valid & ATTR_CTIME)
270                 sa_valid |= MDS_ATTR_CTIME;
271         if (ia_valid & ATTR_ATIME_SET)
272                 sa_valid |= MDS_ATTR_ATIME_SET;
273         if (ia_valid & ATTR_MTIME_SET)
274                 sa_valid |= MDS_ATTR_MTIME_SET;
275         if (ia_valid & ATTR_FORCE)
276                 sa_valid |= MDS_ATTR_FORCE;
277         if (ia_valid & ATTR_ATTR_FLAG)
278                 sa_valid |= MDS_ATTR_ATTR_FLAG;
279         if (ia_valid & ATTR_KILL_SUID)
280                 sa_valid |=  MDS_ATTR_KILL_SUID;
281         if (ia_valid & ATTR_KILL_SGID)
282                 sa_valid |= MDS_ATTR_KILL_SGID;
283         if (ia_valid & ATTR_CTIME_SET)
284                 sa_valid |= MDS_ATTR_CTIME_SET;
285         if (ia_valid & ATTR_FROM_OPEN)
286                 sa_valid |= MDS_ATTR_FROM_OPEN;
287         if (ia_valid & ATTR_BLOCKS)
288                 sa_valid |= MDS_ATTR_BLOCKS;
289         if (ia_valid & MDS_OPEN_OWNEROVERRIDE)
290                 /* NFSD hack (see bug 5781) */
291                 sa_valid |= MDS_OPEN_OWNEROVERRIDE;
292         return sa_valid;
293 }
294
295 static void mdc_setattr_pack_rec(struct mdt_rec_setattr *rec,
296                                  struct md_op_data *op_data)
297 {
298         rec->sa_opcode  = REINT_SETATTR;
299         rec->sa_fsuid   = current->fsuid;
300         rec->sa_fsgid   = current->fsgid;
301         rec->sa_cap     = current->cap_effective;
302         rec->sa_suppgid = -1;
303
304         rec->sa_fid    = op_data->op_fid1;
305         rec->sa_valid  = attr_pack(op_data->op_attr.ia_valid);
306         rec->sa_mode   = op_data->op_attr.ia_mode;
307         rec->sa_uid    = op_data->op_attr.ia_uid;
308         rec->sa_gid    = op_data->op_attr.ia_gid;
309         rec->sa_size   = op_data->op_attr.ia_size;
310         rec->sa_blocks = op_data->op_attr_blocks;
311         rec->sa_atime  = LTIME_S(op_data->op_attr.ia_atime);
312         rec->sa_mtime  = LTIME_S(op_data->op_attr.ia_mtime);
313         rec->sa_ctime  = LTIME_S(op_data->op_attr.ia_ctime);
314         rec->sa_attr_flags = ((struct ll_iattr *)&op_data->op_attr)->ia_attr_flags;
315         if ((op_data->op_attr.ia_valid & ATTR_GID) &&
316             in_group_p(op_data->op_attr.ia_gid))
317                 rec->sa_suppgid = op_data->op_attr.ia_gid;
318         else
319                 rec->sa_suppgid = op_data->op_suppgids[0];
320 }
321
322 static void mdc_epoch_pack(struct mdt_epoch *epoch, struct md_op_data *op_data)
323 {
324         memcpy(&epoch->handle, &op_data->op_handle, sizeof(epoch->handle));
325         epoch->ioepoch = op_data->op_ioepoch;
326         epoch->flags = op_data->op_flags & ~MF_SOM_LOCAL_FLAGS;
327 }
328
329 void mdc_setattr_pack(struct ptlrpc_request *req, struct md_op_data *op_data,
330                       void *ea, int ealen, void *ea2, int ea2len)
331 {
332         struct mdt_rec_setattr *rec;
333         struct mdt_epoch *epoch;
334         
335         CLASSERT(sizeof(struct mdt_rec_reint) ==sizeof(struct mdt_rec_setattr));
336         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_REINT);
337         mdc_setattr_pack_rec(rec, op_data);
338
339         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
340
341         if (op_data->op_flags & (MF_SOM_CHANGE | MF_EPOCH_OPEN)) {
342                 epoch = req_capsule_client_get(&req->rq_pill, &RMF_MDT_EPOCH);
343                 mdc_epoch_pack(epoch, op_data);
344         }
345
346         if (ealen == 0)
347                 return;
348
349         memcpy(req_capsule_client_get(&req->rq_pill, &RMF_EADATA), ea, ealen);
350
351         if (ea2len == 0)
352                 return;
353
354         memcpy(req_capsule_client_get(&req->rq_pill, &RMF_LOGCOOKIES), ea2,
355                ea2len);
356 }
357
358 void mdc_unlink_pack(struct ptlrpc_request *req, struct md_op_data *op_data)
359 {
360         struct mdt_rec_unlink *rec;
361         char *tmp;
362  
363         CLASSERT(sizeof(struct mdt_rec_reint) == sizeof(struct mdt_rec_unlink));
364         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_REINT);
365         LASSERT (rec != NULL);
366
367         rec->ul_opcode  = REINT_UNLINK;
368         rec->ul_fsuid   = op_data->op_fsuid;
369         rec->ul_fsgid   = op_data->op_fsgid;
370         rec->ul_cap     = op_data->op_cap;
371         rec->ul_mode    = op_data->op_mode;
372         rec->ul_suppgid1= op_data->op_suppgids[0];
373         rec->ul_suppgid2= -1;
374         rec->ul_fid1    = op_data->op_fid1;
375         rec->ul_fid2    = op_data->op_fid2;
376         rec->ul_time    = op_data->op_mod_time;
377         rec->ul_bias    = op_data->op_bias;
378
379         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
380
381         tmp = req_capsule_client_get(&req->rq_pill, &RMF_NAME);
382         LASSERT(tmp != NULL);
383         LOGL0(op_data->op_name, op_data->op_namelen, tmp);
384 }
385
386 void mdc_link_pack(struct ptlrpc_request *req, struct md_op_data *op_data)
387 {
388         struct mdt_rec_link *rec;
389         char *tmp;
390
391         CLASSERT(sizeof(struct mdt_rec_reint) == sizeof(struct mdt_rec_link));
392         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_REINT);
393         LASSERT (rec != NULL);
394
395         rec->lk_opcode   = REINT_LINK;
396         rec->lk_fsuid    = op_data->op_fsuid;//current->fsuid;
397         rec->lk_fsgid    = op_data->op_fsgid;//current->fsgid;
398         rec->lk_cap      = op_data->op_cap;//current->cap_effective;
399         rec->lk_suppgid1 = op_data->op_suppgids[0];
400         rec->lk_suppgid2 = op_data->op_suppgids[1];
401         rec->lk_fid1     = op_data->op_fid1;
402         rec->lk_fid2     = op_data->op_fid2;
403         rec->lk_time     = op_data->op_mod_time;
404         rec->lk_bias     = op_data->op_bias;
405
406         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
407         mdc_pack_capa(req, &RMF_CAPA2, op_data->op_capa2);
408
409         tmp = req_capsule_client_get(&req->rq_pill, &RMF_NAME);
410         LOGL0(op_data->op_name, op_data->op_namelen, tmp);
411 }
412
413 void mdc_rename_pack(struct ptlrpc_request *req, struct md_op_data *op_data,
414                      const char *old, int oldlen, const char *new, int newlen)
415 {
416         struct mdt_rec_rename *rec;
417         char *tmp;
418
419         CLASSERT(sizeof(struct mdt_rec_reint) == sizeof(struct mdt_rec_rename));
420         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_REINT);
421
422         /* XXX do something about time, uid, gid */
423         rec->rn_opcode   = REINT_RENAME;
424         rec->rn_fsuid    = op_data->op_fsuid;
425         rec->rn_fsgid    = op_data->op_fsgid;
426         rec->rn_cap      = op_data->op_cap;
427         rec->rn_suppgid1 = op_data->op_suppgids[0];
428         rec->rn_suppgid2 = op_data->op_suppgids[1];
429         rec->rn_fid1     = op_data->op_fid1;
430         rec->rn_fid2     = op_data->op_fid2;
431         rec->rn_time     = op_data->op_mod_time;
432         rec->rn_mode     = op_data->op_mode;
433         rec->rn_bias     = op_data->op_bias;
434
435         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
436         mdc_pack_capa(req, &RMF_CAPA2, op_data->op_capa2);
437
438         tmp = req_capsule_client_get(&req->rq_pill, &RMF_NAME);
439         LOGL0(old, oldlen, tmp);
440
441         if (new) {
442                 tmp = req_capsule_client_get(&req->rq_pill, &RMF_SYMTGT);
443                 LOGL0(new, newlen, tmp);
444         }
445 }
446
447 void mdc_getattr_pack(struct ptlrpc_request *req, __u64 valid, int flags,
448                       struct md_op_data *op_data)
449 {
450         struct mdt_body *b = req_capsule_client_get(&req->rq_pill,
451                                                     &RMF_MDT_BODY);
452
453         b->fsuid = current->fsuid;
454         b->fsgid = current->fsgid;
455         b->capability = current->cap_effective;
456         b->valid = valid;
457         if (op_data->op_bias & MDS_CHECK_SPLIT)
458                 b->valid |= OBD_MD_FLCKSPLIT;
459         if (op_data->op_bias & MDS_CROSS_REF)
460                 b->valid |= OBD_MD_FLCROSSREF;
461         b->flags = flags | MDS_BFLAG_EXT_FLAGS;
462         b->suppgid = op_data->op_suppgids[0];
463
464         b->fid1 = op_data->op_fid1;
465         b->fid2 = op_data->op_fid2;
466         b->valid |= OBD_MD_FLID;
467
468         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
469
470         if (op_data->op_name) {
471                 char *tmp = req_capsule_client_get(&req->rq_pill, &RMF_NAME);
472                 LOGL0(op_data->op_name, op_data->op_namelen, tmp);
473
474         }
475 }
476
477 void mdc_close_pack(struct ptlrpc_request *req, struct md_op_data *op_data)
478 {
479         struct mdt_epoch *epoch;
480         struct mdt_rec_setattr *rec;
481
482         epoch = req_capsule_client_get(&req->rq_pill, &RMF_MDT_EPOCH);
483         rec = req_capsule_client_get(&req->rq_pill, &RMF_REC_REINT);
484
485         mdc_setattr_pack_rec(rec, op_data);
486         mdc_pack_capa(req, &RMF_CAPA1, op_data->op_capa1);
487         mdc_epoch_pack(epoch, op_data);
488 }
489
490 static int mdc_req_avail(struct client_obd *cli, struct mdc_cache_waiter *mcw)
491 {
492         int rc;
493         ENTRY;
494         spin_lock(&cli->cl_loi_list_lock);
495         rc = list_empty(&mcw->mcw_entry);
496         spin_unlock(&cli->cl_loi_list_lock);
497         RETURN(rc);
498 };
499
500 /* We record requests in flight in cli->cl_r_in_flight here.
501  * There is only one write rpc possible in mdc anyway. If this to change
502  * in the future - the code may need to be revisited. */
503 void mdc_enter_request(struct client_obd *cli)
504 {
505         struct mdc_cache_waiter mcw;
506         struct l_wait_info lwi = { 0 };
507
508         spin_lock(&cli->cl_loi_list_lock);
509         if (cli->cl_r_in_flight >= cli->cl_max_rpcs_in_flight) {
510                 list_add_tail(&mcw.mcw_entry, &cli->cl_cache_waiters);
511                 cfs_waitq_init(&mcw.mcw_waitq);
512                 spin_unlock(&cli->cl_loi_list_lock);
513                 l_wait_event(mcw.mcw_waitq, mdc_req_avail(cli, &mcw), &lwi);
514         } else {
515                 cli->cl_r_in_flight++;
516                 spin_unlock(&cli->cl_loi_list_lock);
517         }
518 }
519
520 void mdc_exit_request(struct client_obd *cli)
521 {
522         struct list_head *l, *tmp;
523         struct mdc_cache_waiter *mcw;
524
525         spin_lock(&cli->cl_loi_list_lock);
526         cli->cl_r_in_flight--;
527         list_for_each_safe(l, tmp, &cli->cl_cache_waiters) {
528                 
529                 if (cli->cl_r_in_flight >= cli->cl_max_rpcs_in_flight) {
530                         /* No free request slots anymore */
531                         break;
532                 }
533
534                 mcw = list_entry(l, struct mdc_cache_waiter, mcw_entry);
535                 list_del_init(&mcw->mcw_entry);
536                 cli->cl_r_in_flight++;
537                 cfs_waitq_signal(&mcw->mcw_waitq);
538         }
539         /* Empty waiting list? Decrease reqs in-flight number */
540         
541         spin_unlock(&cli->cl_loi_list_lock);
542 }