Whamcloud - gitweb
Branch: b_cray
[fs/lustre-release.git] / lnet / lnet / lib-move.c
1 /* -*- mode: c; c-basic-offset: 8; indent-tabs-mode: nil; -*-
2  * vim:expandtab:shiftwidth=8:tabstop=8:
3  *
4  * lib/lib-move.c
5  * Data movement routines
6  *
7  *  Copyright (c) 2001-2003 Cluster File Systems, Inc.
8  *
9  *   This file is part of Lustre, http://www.lustre.org
10  *
11  *   Lustre is free software; you can redistribute it and/or
12  *   modify it under the terms of version 2 of the GNU General Public
13  *   License as published by the Free Software Foundation.
14  *
15  *   Lustre is distributed in the hope that it will be useful,
16  *   but WITHOUT ANY WARRANTY; without even the implied warranty of
17  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
18  *   GNU General Public License for more details.
19  *
20  *   You should have received a copy of the GNU General Public License
21  *   along with Lustre; if not, write to the Free Software
22  *   Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
23  */
24
25 #define DEBUG_SUBSYSTEM S_PORTALS
26
27 #ifndef __KERNEL__
28 # include <stdio.h>
29 #else
30 # include <libcfs/kp30.h>
31 #endif
32 #include <portals/p30.h>
33 #include <portals/lib-p30.h>
34
35 /* forward ref */
36 static void lib_commit_md (lib_nal_t *nal, lib_md_t *md, lib_msg_t *msg);
37 static ptl_err_t do_lib_parse(lib_nal_t *nal, ptl_hdr_t *hdr, 
38                               void *private, int loopback);
39
40 static lib_md_t *
41 lib_match_md(lib_nal_t *nal, int index, int op_mask,
42              ptl_nid_t src_nid, ptl_pid_t src_pid,
43              ptl_size_t rlength, ptl_size_t roffset,
44              ptl_match_bits_t match_bits, lib_msg_t *msg,
45              ptl_size_t *mlength_out, ptl_size_t *offset_out)
46 {
47         lib_ni_t         *ni = &nal->libnal_ni;
48         struct list_head *match_list = &ni->ni_portals.tbl[index];
49         struct list_head *tmp;
50         lib_me_t         *me;
51         lib_md_t         *md;
52         ptl_size_t        mlength;
53         ptl_size_t        offset;
54         ENTRY;
55
56         CDEBUG (D_NET, "Request from "LPU64".%d of length %d into portal %d "
57                 "MB="LPX64"\n", src_nid, src_pid, rlength, index, match_bits);
58
59         if (index < 0 || index >= ni->ni_portals.size) {
60                 CERROR("Invalid portal %d not in [0-%d]\n",
61                        index, ni->ni_portals.size);
62                 goto failed;
63         }
64
65         list_for_each (tmp, match_list) {
66                 me = list_entry(tmp, lib_me_t, me_list);
67                 md = me->md;
68
69                  /* ME attached but MD not attached yet */
70                 if (md == NULL)
71                         continue;
72
73                 LASSERT (me == md->me);
74
75                 /* mismatched MD op */
76                 if ((md->options & op_mask) == 0)
77                         continue;
78
79                 /* MD exhausted */
80                 if (lib_md_exhausted(md))
81                         continue;
82
83                 /* mismatched ME nid/pid? */
84                 if (me->match_id.nid != PTL_NID_ANY &&
85                     me->match_id.nid != src_nid)
86                         continue;
87
88                 CDEBUG(D_NET, "match_id.pid [%x], src_pid [%x]\n",
89                        me->match_id.pid, src_pid);
90
91                 if (me->match_id.pid != PTL_PID_ANY &&
92                     me->match_id.pid != src_pid)
93                         continue;
94
95                 /* mismatched ME matchbits? */
96                 if (((me->match_bits ^ match_bits) & ~me->ignore_bits) != 0)
97                         continue;
98
99                 /* Hurrah! This _is_ a match; check it out... */
100
101                 if ((md->options & PTL_MD_MANAGE_REMOTE) == 0)
102                         offset = md->offset;
103                 else
104                         offset = roffset;
105
106                 if ((md->options & PTL_MD_MAX_SIZE) != 0) {
107                         mlength = md->max_size;
108                         LASSERT (md->offset + mlength <= md->length);
109                 } else {
110                         mlength = md->length - offset;
111                 }
112
113                 if (rlength <= mlength) {        /* fits in allowed space */
114                         mlength = rlength;
115                 } else if ((md->options & PTL_MD_TRUNCATE) == 0) {
116                         /* this packet _really_ is too big */
117                         CERROR("Matching packet %d too big: %d left, "
118                                "%d allowed\n", rlength, md->length - offset,
119                                mlength);
120                         goto failed;
121                 }
122
123                 /* Commit to this ME/MD */
124                 CDEBUG(D_NET, "Incoming %s index %x from "LPU64"/%u of "
125                        "length %d/%d into md "LPX64" [%d] + %d\n",
126                        (op_mask == PTL_MD_OP_PUT) ? "put" : "get",
127                        index, src_nid, src_pid, mlength, rlength,
128                        md->md_lh.lh_cookie, md->md_niov, offset);
129
130                 lib_commit_md(nal, md, msg);
131                 md->offset = offset + mlength;
132
133                 /* NB Caller sets ev.type and ev.hdr_data */
134                 msg->ev.initiator.nid = src_nid;
135                 msg->ev.initiator.pid = src_pid;
136                 msg->ev.pt_index = index;
137                 msg->ev.match_bits = match_bits;
138                 msg->ev.rlength = rlength;
139                 msg->ev.mlength = mlength;
140                 msg->ev.offset = offset;
141
142                 lib_md_deconstruct(nal, md, &msg->ev.md);
143                 ptl_md2handle(&msg->ev.md_handle, nal, md);
144
145                 *offset_out = offset;
146                 *mlength_out = mlength;
147
148                 /* Auto-unlink NOW, so the ME gets unlinked if required.
149                  * We bumped md->pending above so the MD just gets flagged
150                  * for unlink when it is finalized. */
151                 if ((md->md_flags & PTL_MD_FLAG_AUTO_UNLINK) != 0 &&
152                     lib_md_exhausted(md))
153                         lib_md_unlink(nal, md);
154
155                 RETURN (md);
156         }
157
158  failed:
159         CERROR (LPU64": Dropping %s from "LPU64".%d portal %d match "LPX64
160                 " offset %d length %d: no match\n",
161                 ni->ni_pid.nid, (op_mask == PTL_MD_OP_GET) ? "GET" : "PUT",
162                 src_nid, src_pid, index, match_bits, roffset, rlength);
163         RETURN(NULL);
164 }
165
166 int lib_api_fail_nid (nal_t *apinal, ptl_nid_t nid, unsigned int threshold)
167 {
168         lib_nal_t         *nal = apinal->nal_data;
169         lib_test_peer_t   *tp;
170         unsigned long      flags;
171         struct list_head  *el;
172         struct list_head  *next;
173         struct list_head   cull;
174
175         if (threshold != 0) {
176                 /* Adding a new entry */
177                 PORTAL_ALLOC(tp, sizeof(*tp));
178                 if (tp == NULL)
179                         return PTL_NO_SPACE;
180
181                 tp->tp_nid = nid;
182                 tp->tp_threshold = threshold;
183
184                 LIB_LOCK(nal, flags);
185                 list_add_tail (&tp->tp_list, &nal->libnal_ni.ni_test_peers);
186                 LIB_UNLOCK(nal, flags);
187                 return PTL_OK;
188         }
189
190         /* removing entries */
191         CFS_INIT_LIST_HEAD (&cull);
192
193         LIB_LOCK(nal, flags);
194
195         list_for_each_safe (el, next, &nal->libnal_ni.ni_test_peers) {
196                 tp = list_entry (el, lib_test_peer_t, tp_list);
197
198                 if (tp->tp_threshold == 0 ||    /* needs culling anyway */
199                     nid == PTL_NID_ANY ||       /* removing all entries */
200                     tp->tp_nid == nid)          /* matched this one */
201                 {
202                         list_del (&tp->tp_list);
203                         list_add (&tp->tp_list, &cull);
204                 }
205         }
206
207         LIB_UNLOCK(nal, flags);
208
209         while (!list_empty (&cull)) {
210                 tp = list_entry (cull.next, lib_test_peer_t, tp_list);
211
212                 list_del (&tp->tp_list);
213                 PORTAL_FREE(tp, sizeof (*tp));
214         }
215         return PTL_OK;
216 }
217
218 int 
219 lib_api_loopback (nal_t *apinal, int set, int *enabled)
220 {
221         lib_nal_t *nal = apinal->nal_data;
222
223         if (set)
224                 nal->libnal_ni.ni_loopback = *enabled;
225         else
226                 *enabled = nal->libnal_ni.ni_loopback;
227         
228         return PTL_OK;
229 }
230
231 static int
232 fail_peer (lib_nal_t *nal, ptl_nid_t nid, int outgoing)
233 {
234         lib_test_peer_t  *tp;
235         struct list_head *el;
236         struct list_head *next;
237         unsigned long     flags;
238         struct list_head  cull;
239         int               fail = 0;
240
241         CFS_INIT_LIST_HEAD (&cull);
242
243         LIB_LOCK (nal, flags);
244
245         list_for_each_safe (el, next, &nal->libnal_ni.ni_test_peers) {
246                 tp = list_entry (el, lib_test_peer_t, tp_list);
247
248                 if (tp->tp_threshold == 0) {
249                         /* zombie entry */
250                         if (outgoing) {
251                                 /* only cull zombies on outgoing tests,
252                                  * since we may be at interrupt priority on
253                                  * incoming messages. */
254                                 list_del (&tp->tp_list);
255                                 list_add (&tp->tp_list, &cull);
256                         }
257                         continue;
258                 }
259
260                 if (tp->tp_nid == PTL_NID_ANY || /* fail every peer */
261                     nid == tp->tp_nid) {        /* fail this peer */
262                         fail = 1;
263
264                         if (tp->tp_threshold != PTL_MD_THRESH_INF) {
265                                 tp->tp_threshold--;
266                                 if (outgoing &&
267                                     tp->tp_threshold == 0) {
268                                         /* see above */
269                                         list_del (&tp->tp_list);
270                                         list_add (&tp->tp_list, &cull);
271                                 }
272                         }
273                         break;
274                 }
275         }
276
277         LIB_UNLOCK (nal, flags);
278
279         while (!list_empty (&cull)) {
280                 tp = list_entry (cull.next, lib_test_peer_t, tp_list);
281                 list_del (&tp->tp_list);
282
283                 PORTAL_FREE(tp, sizeof (*tp));
284         }
285
286         return (fail);
287 }
288
289 ptl_size_t
290 lib_iov_nob (int niov, struct iovec *iov)
291 {
292         ptl_size_t nob = 0;
293
294         while (niov-- > 0)
295                 nob += (iov++)->iov_len;
296
297         return (nob);
298 }
299
300 void
301 lib_copy_iov2buf (char *dest, int niov, struct iovec *iov,
302                   ptl_size_t offset, ptl_size_t len)
303 {
304         ptl_size_t nob;
305
306         if (len == 0)
307                 return;
308
309         /* skip complete frags before 'offset' */
310         LASSERT (niov > 0);
311         while (offset >= iov->iov_len) {
312                 offset -= iov->iov_len;
313                 iov++;
314                 niov--;
315                 LASSERT (niov > 0);
316         }
317
318         do {
319                 LASSERT (niov > 0);
320                 nob = MIN (iov->iov_len - offset, len);
321                 memcpy (dest, iov->iov_base + offset, nob);
322
323                 len -= nob;
324                 dest += nob;
325                 niov--;
326                 iov++;
327                 offset = 0;
328         } while (len > 0);
329 }
330
331 void
332 lib_copy_buf2iov (int niov, struct iovec *iov, ptl_size_t offset,
333                   char *src, ptl_size_t len)
334 {
335         ptl_size_t nob;
336
337         if (len == 0)
338                 return;
339
340         /* skip complete frags before 'offset' */
341         LASSERT (niov > 0);
342         while (offset >= iov->iov_len) {
343                 offset -= iov->iov_len;
344                 iov++;
345                 niov--;
346                 LASSERT (niov > 0);
347         }
348
349         do {
350                 LASSERT (niov > 0);
351                 nob = MIN (iov->iov_len - offset, len);
352                 memcpy (iov->iov_base + offset, src, nob);
353
354                 len -= nob;
355                 src += nob;
356                 niov--;
357                 iov++;
358                 offset = 0;
359         } while (len > 0);
360 }
361
362 int
363 lib_extract_iov (int dst_niov, struct iovec *dst,
364                  int src_niov, struct iovec *src,
365                  ptl_size_t offset, ptl_size_t len)
366 {
367         /* Initialise 'dst' to the subset of 'src' starting at 'offset',
368          * for exactly 'len' bytes, and return the number of entries.
369          * NB not destructive to 'src' */
370         ptl_size_t      frag_len;
371         int             niov;
372
373         if (len == 0)                           /* no data => */
374                 return (0);                     /* no frags */
375
376         LASSERT (src_niov > 0);
377         while (offset >= src->iov_len) {      /* skip initial frags */
378                 offset -= src->iov_len;
379                 src_niov--;
380                 src++;
381                 LASSERT (src_niov > 0);
382         }
383
384         niov = 1;
385         for (;;) {
386                 LASSERT (src_niov > 0);
387                 LASSERT (niov <= dst_niov);
388
389                 frag_len = src->iov_len - offset;
390                 dst->iov_base = ((char *)src->iov_base) + offset;
391
392                 if (len <= frag_len) {
393                         dst->iov_len = len;
394                         return (niov);
395                 }
396
397                 dst->iov_len = frag_len;
398
399                 len -= frag_len;
400                 dst++;
401                 src++;
402                 niov++;
403                 src_niov--;
404                 offset = 0;
405         }
406 }
407
408 #ifndef __KERNEL__
409 ptl_size_t
410 lib_kiov_nob (int niov, ptl_kiov_t *kiov)
411 {
412         LASSERT (0);
413         return (0);
414 }
415
416 void
417 lib_copy_kiov2buf (char *dest, int niov, ptl_kiov_t *kiov,
418                    ptl_size_t offset, ptl_size_t len)
419 {
420         LASSERT (0);
421 }
422
423 void
424 lib_copy_buf2kiov (int niov, ptl_kiov_t *kiov, ptl_size_t offset,
425                    char *src, ptl_size_t len)
426 {
427         LASSERT (0);
428 }
429
430 int
431 lib_extract_kiov (int dst_niov, ptl_kiov_t *dst,
432                   int src_niov, ptl_kiov_t *src,
433                   ptl_size_t offset, ptl_size_t len)
434 {
435         LASSERT (0);
436 }
437
438 ptl_err_t
439 lib_lo_rxkiov(lib_nal_t *nal, void *private, lib_msg_t *libmsg,
440               unsigned int niov, ptl_kiov_t *kiov,
441               size_t offset, size_t mlen, size_t rlen)
442 {
443         LASSERT (0);
444 }
445
446 ptl_err_t
447 lib_lo_txkiov (lib_nal_t *nal, void *private, lib_msg_t *libmsg,
448                ptl_hdr_t *hdr, int type, ptl_nid_t nid, ptl_pid_t pid,
449                unsigned int payload_niov, ptl_kiov_t *payload_kiov,
450                size_t payload_offset, size_t payload_nob)
451 {
452         LASSERT (0);
453 }
454
455 #else /* __KERNEL__ */
456
457 ptl_size_t
458 lib_kiov_nob (int niov, ptl_kiov_t *kiov)
459 {
460         ptl_size_t  nob = 0;
461
462         while (niov-- > 0)
463                 nob += (kiov++)->kiov_len;
464
465         return (nob);
466 }
467
468 void
469 lib_copy_kiov2buf (char *dest, int niov, ptl_kiov_t *kiov,
470                    ptl_size_t offset, ptl_size_t len)
471 {
472         ptl_size_t  nob;
473         char       *addr;
474
475         if (len == 0)
476                 return;
477
478         LASSERT (!in_interrupt ());
479
480         LASSERT (niov > 0);
481         while (offset > kiov->kiov_len) {
482                 offset -= kiov->kiov_len;
483                 kiov++;
484                 niov--;
485                 LASSERT (niov > 0);
486         }
487
488         do {
489                 LASSERT (niov > 0);
490                 nob = MIN (kiov->kiov_len - offset, len);
491
492                 addr = ((char *)cfs_kmap(kiov->kiov_page)) + kiov->kiov_offset +
493                         offset;
494                 memcpy (dest, addr, nob);
495                 cfs_kunmap (kiov->kiov_page);
496
497                 len -= nob;
498                 dest += nob;
499                 niov--;
500                 kiov++;
501                 offset = 0;
502         } while (len > 0);
503 }
504
505 void
506 lib_copy_buf2kiov (int niov, ptl_kiov_t *kiov, ptl_size_t offset,
507                    char *src, ptl_size_t len)
508 {
509         ptl_size_t  nob;
510         char       *addr;
511
512         if (len == 0)
513                 return;
514
515         LASSERT (!in_interrupt ());
516
517         LASSERT (niov > 0);
518         while (offset >= kiov->kiov_len) {
519                 offset -= kiov->kiov_len;
520                 kiov++;
521                 niov--;
522                 LASSERT (niov > 0);
523         }
524
525         do {
526                 LASSERT (niov > 0);
527                 nob = MIN (kiov->kiov_len - offset, len);
528
529                 addr = ((char *)cfs_kmap(kiov->kiov_page)) + kiov->kiov_offset +
530                         offset;
531                 memcpy (addr, src, nob);
532                 cfs_kunmap (kiov->kiov_page);
533
534                 len -= nob;
535                 src += nob;
536                 niov--;
537                 kiov++;
538                 offset = 0;
539         } while (len > 0);
540 }
541
542 int
543 lib_extract_kiov (int dst_niov, ptl_kiov_t *dst,
544                   int src_niov, ptl_kiov_t *src,
545                   ptl_size_t offset, ptl_size_t len)
546 {
547         /* Initialise 'dst' to the subset of 'src' starting at 'offset',
548          * for exactly 'len' bytes, and return the number of entries.
549          * NB not destructive to 'src' */
550         ptl_size_t      frag_len;
551         int             niov;
552
553         if (len == 0)                           /* no data => */
554                 return (0);                     /* no frags */
555
556         LASSERT (src_niov > 0);
557         while (offset >= src->kiov_len) {      /* skip initial frags */
558                 offset -= src->kiov_len;
559                 src_niov--;
560                 src++;
561                 LASSERT (src_niov > 0);
562         }
563
564         niov = 1;
565         for (;;) {
566                 LASSERT (src_niov > 0);
567                 LASSERT (niov <= dst_niov);
568
569                 frag_len = src->kiov_len - offset;
570                 dst->kiov_page = src->kiov_page;
571                 dst->kiov_offset = src->kiov_offset + offset;
572
573                 if (len <= frag_len) {
574                         dst->kiov_len = len;
575                         LASSERT (dst->kiov_offset + dst->kiov_len <= PAGE_SIZE);
576                         return (niov);
577                 }
578
579                 dst->kiov_len = frag_len;
580                 LASSERT (dst->kiov_offset + dst->kiov_len <= PAGE_SIZE);
581
582                 len -= frag_len;
583                 dst++;
584                 src++;
585                 niov++;
586                 src_niov--;
587                 offset = 0;
588         }
589 }
590
591 ptl_err_t
592 lib_lo_rxkiov(lib_nal_t    *nal,
593               void         *private,
594               lib_msg_t    *libmsg,
595               unsigned int  niov,
596               ptl_kiov_t   *kiov,
597               size_t        offset,
598               size_t        mlen,
599               size_t        rlen)
600 {
601         void          *srcaddr = NULL;
602         void          *dstaddr = NULL;
603         unsigned long  srcfrag = 0;
604         unsigned long  dstfrag = 0;
605         unsigned long  fraglen;
606         lo_desc_t     *lod = (lo_desc_t *)private;
607
608         /* I only handle unmapped->unmapped matches */
609         LASSERT(lod->lod_type == LOD_KIOV);
610
611         if (mlen == 0)
612                 return PTL_OK;
613
614         while (offset >= kiov->kiov_len) {
615                 offset -= kiov->kiov_len;
616                 kiov++;
617                 niov--;
618                 LASSERT(niov > 0);
619         }
620
621         while (lod->lod_offset >= lod->lod_iov.kiov->kiov_len) {
622                 lod->lod_offset -= lod->lod_iov.kiov->kiov_len;
623                 lod->lod_iov.kiov++;
624                 lod->lod_niov--;
625                 LASSERT(lod->lod_niov > 0);
626         }
627
628         do {
629                 /* CAVEAT EMPTOR:
630                  * I kmap 2 pages at once == slight risk of deadlock */
631                 LASSERT(niov > 0);
632                 if (dstaddr == NULL) {
633                         dstaddr = (void *)
634                                 ((unsigned long)cfs_kmap(kiov->kiov_page) +
635                                  kiov->kiov_offset + offset);
636                         dstfrag = kiov->kiov_len -  offset;
637                 }
638
639                 LASSERT(lod->lod_niov > 0);
640                 if (srcaddr == NULL) {
641                         srcaddr = (void *)
642                          ((unsigned long)cfs_kmap(lod->lod_iov.kiov->kiov_page)+
643                           lod->lod_iov.kiov->kiov_offset + lod->lod_offset);
644                         srcfrag = lod->lod_iov.kiov->kiov_len - lod->lod_offset;
645                 }
646
647                 fraglen = MIN(srcfrag, dstfrag);
648                 if (fraglen > mlen)
649                         fraglen = mlen;
650
651                 memcpy(dstaddr, srcaddr, fraglen);
652
653                 if (fraglen < dstfrag) {
654                         dstfrag -= fraglen;
655                         dstaddr = (void *)((unsigned long)dstaddr + fraglen);
656                 } else {
657                         cfs_kunmap(kiov->kiov_page);
658                         dstaddr = NULL;
659                         offset = 0;
660                         kiov++;
661                         niov--;
662                 }
663
664                 if (fraglen < srcfrag) {
665                         srcfrag -= fraglen;
666                         srcaddr = (void *)((unsigned long)srcaddr + fraglen);
667                 } else {
668                         cfs_kunmap(lod->lod_iov.kiov->kiov_page);
669                         srcaddr = NULL;
670                         lod->lod_offset = 0;
671                         lod->lod_iov.kiov++;
672                         lod->lod_niov--;
673                 }
674
675                 mlen -= fraglen;
676         } while (mlen > 0);
677
678         if (dstaddr != NULL)
679                 cfs_kunmap(kiov->kiov_page);
680
681         if (srcaddr != NULL)
682                 cfs_kunmap(lod->lod_iov.kiov->kiov_page);
683
684         lib_finalize(nal, private, libmsg, PTL_OK);
685         return PTL_OK;
686 }
687
688 ptl_err_t
689 lib_lo_txkiov (lib_nal_t    *nal,
690                void         *private,
691                lib_msg_t    *libmsg,
692                ptl_hdr_t    *hdr,
693                int           type,
694                ptl_nid_t     nid,
695                ptl_pid_t     pid,
696                unsigned int  payload_niov,
697                ptl_kiov_t   *payload_kiov,
698                size_t        payload_offset,
699                size_t        payload_nob)
700 {
701         lo_desc_t lod = {
702                 .lod_type     = LOD_KIOV,
703                 .lod_niov     = payload_niov,
704                 .lod_offset   = payload_offset,
705                 .lod_nob      = payload_nob,
706                 .lod_iov      = { .kiov = payload_kiov } };
707         ptl_err_t   rc;
708
709         rc = do_lib_parse(nal, hdr, &lod, 1);
710         if (rc == PTL_OK)
711                 lib_finalize(nal, private, libmsg, PTL_OK);
712
713         return rc;
714 }
715 #endif
716
717 ptl_err_t
718 lib_lo_rxiov(lib_nal_t    *nal,
719              void         *private,
720              lib_msg_t    *libmsg,
721              unsigned int  niov,
722              struct iovec *iov,
723              size_t        offset,
724              size_t        mlen,
725              size_t        rlen)
726 {
727         lo_desc_t *lod = (lo_desc_t *)private;
728
729         /* I only handle mapped->mapped matches */
730         LASSERT(lod->lod_type == LOD_IOV);
731         LASSERT(mlen > 0);
732
733         while (offset >= iov->iov_len) {
734                 offset -= iov->iov_len;
735                 iov++;
736                 niov--;
737                 LASSERT(niov > 0);
738         }
739
740         while (lod->lod_offset >= lod->lod_iov.iov->iov_len) {
741                 lod->lod_offset -= lod->lod_iov.iov->iov_len;
742                 lod->lod_iov.iov++;
743                 lod->lod_niov--;
744                 LASSERT(lod->lod_niov > 0);
745         }
746
747         do {
748                 int fraglen = MIN(iov->iov_len - offset,
749                                   lod->lod_iov.iov->iov_len - lod->lod_offset);
750
751                 LASSERT(niov > 0);
752                 LASSERT(lod->lod_niov > 0);
753
754                 if (fraglen > mlen)
755                         fraglen = mlen;
756
757                 memcpy((void *)((unsigned long)iov->iov_base + offset),
758                        (void *)((unsigned long)lod->lod_iov.iov->iov_base +
759                                 lod->lod_offset),
760                        fraglen);
761
762                 if (offset + fraglen < iov->iov_len) {
763                         offset += fraglen;
764                 } else {
765                         offset = 0;
766                         iov++;
767                         niov--;
768                 }
769
770                 if (lod->lod_offset + fraglen < lod->lod_iov.iov->iov_len ) {
771                         lod->lod_offset += fraglen;
772                 } else {
773                         lod->lod_offset = 0;
774                         lod->lod_iov.iov++;
775                         lod->lod_niov--;
776                 }
777
778                 mlen -= fraglen;
779         } while (mlen > 0);
780
781         lib_finalize(nal, private, libmsg, PTL_OK);
782         return PTL_OK;
783 }
784
785 ptl_err_t
786 lib_lo_txiov (lib_nal_t    *nal,
787               void         *private,
788               lib_msg_t    *libmsg,
789               ptl_hdr_t    *hdr,
790               int           type,
791               ptl_nid_t     nid,
792               ptl_pid_t     pid,
793               unsigned int  payload_niov,
794               struct iovec *payload_iov,
795               size_t        payload_offset,
796               size_t        payload_nob)
797 {
798         lo_desc_t lod = {
799                 .lod_type    = LOD_IOV,
800                 .lod_niov    = payload_niov,
801                 .lod_offset  = payload_offset,
802                 .lod_nob     = payload_nob,
803                 .lod_iov     = { .iov = payload_iov } };
804         ptl_err_t rc;
805
806         rc = do_lib_parse(nal, hdr, &lod, 1);
807         if (rc == PTL_OK)
808                 lib_finalize(nal, private, libmsg, PTL_OK);
809
810         return rc;
811 }
812
813 ptl_err_t
814 lib_lo_recv (lib_nal_t *nal, void *private, lib_msg_t *msg, lib_md_t *md,
815              ptl_size_t offset, ptl_size_t mlen, ptl_size_t rlen)
816 {
817         if (mlen == 0) {
818                 lib_finalize(nal, private, msg, PTL_OK);
819                 return PTL_OK;
820         }
821
822         if ((md->options & PTL_MD_KIOV) == 0)
823                 return lib_lo_rxiov(nal, private, msg,
824                                     md->md_niov, md->md_iov.iov,
825                                     offset, mlen, rlen);
826
827         return lib_lo_rxkiov(nal, private, msg,
828                              md->md_niov, md->md_iov.kiov,
829                              offset, mlen, rlen);
830 }
831
832 ptl_err_t
833 lib_recv (lib_nal_t *nal, void *private, lib_msg_t *msg, lib_md_t *md,
834           ptl_size_t offset, ptl_size_t mlen, ptl_size_t rlen)
835 {
836         if (mlen == 0)
837                 return (nal->libnal_recv(nal, private, msg,
838                                          0, NULL,
839                                          offset, mlen, rlen));
840
841         if ((md->options & PTL_MD_KIOV) == 0)
842                 return (nal->libnal_recv(nal, private, msg,
843                                          md->md_niov, md->md_iov.iov,
844                                          offset, mlen, rlen));
845
846         return (nal->libnal_recv_pages(nal, private, msg,
847                                        md->md_niov, md->md_iov.kiov,
848                                        offset, mlen, rlen));
849 }
850
851 ptl_err_t
852 lib_send (lib_nal_t *nal, void *private, lib_msg_t *msg,
853           ptl_hdr_t *hdr, int type, ptl_nid_t nid, ptl_pid_t pid,
854           lib_md_t *md, ptl_size_t offset, ptl_size_t len)
855 {
856         int loopback = (nal->libnal_ni.ni_loopback &&
857                         (nid == nal->libnal_ni.ni_pid.nid));
858
859         if (len == 0) {
860                 if (loopback)
861                         return lib_lo_txiov(nal, private, msg,
862                                             hdr, type, nid, pid,
863                                             0, NULL,
864                                             offset, len);
865                 else
866                         return nal->libnal_send(nal, private, msg,
867                                                 hdr, type, nid, pid,
868                                                 0, NULL,
869                                                 offset, len);
870         }
871
872         if ((md->options & PTL_MD_KIOV) == 0) {
873                 if (loopback)
874                         return lib_lo_txiov(nal, private, msg,
875                                             hdr, type, nid, pid,
876                                             md->md_niov, md->md_iov.iov,
877                                             offset, len);
878                 else
879                         return nal->libnal_send(nal, private, msg,
880                                                 hdr, type, nid, pid,
881                                                 md->md_niov, md->md_iov.iov,
882                                                 offset, len);
883         }
884
885         if (loopback)
886                 return lib_lo_txkiov(nal, private, msg,
887                                      hdr, type, nid, pid,
888                                      md->md_niov, md->md_iov.kiov,
889                                      offset, len);
890         else
891                 return nal->libnal_send_pages(nal, private, msg,
892                                               hdr, type, nid, pid,
893                                               md->md_niov, md->md_iov.kiov,
894                                               offset, len);
895 }
896
897 static void
898 lib_commit_md (lib_nal_t *nal, lib_md_t *md, lib_msg_t *msg)
899 {
900         /* ALWAYS called holding the LIB_LOCK */
901         lib_counters_t *counters = &nal->libnal_ni.ni_counters;
902
903         /* Here, we commit the MD to a network OP by marking it busy and
904          * decrementing its threshold.  Come what may, the network "owns"
905          * the MD until a call to lib_finalize() signals completion. */
906         msg->md = md;
907
908         md->pending++;
909         if (md->threshold != PTL_MD_THRESH_INF) {
910                 LASSERT (md->threshold > 0);
911                 md->threshold--;
912         }
913
914         counters->msgs_alloc++;
915         if (counters->msgs_alloc > counters->msgs_max)
916                 counters->msgs_max = counters->msgs_alloc;
917
918         list_add (&msg->msg_list, &nal->libnal_ni.ni_active_msgs);
919 }
920
921 static void
922 lib_drop_message (lib_nal_t *nal, void *private, ptl_hdr_t *hdr, int loopback)
923 {
924         unsigned long flags;
925
926         /* CAVEAT EMPTOR: this only drops messages that we've not committed
927          * to receive (init_msg() not called) and therefore can't cause an
928          * event. */
929
930         LIB_LOCK(nal, flags);
931         nal->libnal_ni.ni_counters.drop_count++;
932         nal->libnal_ni.ni_counters.drop_length += hdr->payload_length;
933         LIB_UNLOCK(nal, flags);
934
935         /* NULL msg => if NAL calls lib_finalize it will be a noop */
936         if (!loopback)
937                 (void) lib_recv(nal, private, NULL, NULL, 0, 0,
938                                 hdr->payload_length);
939 }
940
941 /*
942  * Incoming messages have a ptl_msg_t object associated with them
943  * by the library.  This object encapsulates the state of the
944  * message and allows the NAL to do non-blocking receives or sends
945  * of long messages.
946  *
947  */
948 static ptl_err_t
949 parse_put(lib_nal_t *nal, ptl_hdr_t *hdr, void *private,
950           lib_msg_t *msg, int loopback)
951 {
952         lib_ni_t        *ni = &nal->libnal_ni;
953         ptl_size_t       mlength = 0;
954         ptl_size_t       offset = 0;
955         ptl_err_t        rc;
956         lib_md_t        *md;
957         unsigned long    flags;
958
959         /* Convert put fields to host byte order */
960         hdr->msg.put.match_bits = le64_to_cpu(hdr->msg.put.match_bits);
961         hdr->msg.put.ptl_index = le32_to_cpu(hdr->msg.put.ptl_index);
962         hdr->msg.put.offset = le32_to_cpu(hdr->msg.put.offset);
963
964         LIB_LOCK(nal, flags);
965
966         md = lib_match_md(nal, hdr->msg.put.ptl_index, PTL_MD_OP_PUT,
967                           hdr->src_nid, hdr->src_pid,
968                           hdr->payload_length, hdr->msg.put.offset,
969                           hdr->msg.put.match_bits, msg,
970                           &mlength, &offset);
971         if (md == NULL) {
972                 LIB_UNLOCK(nal, flags);
973                 return (PTL_FAIL);
974         }
975
976         msg->ev.type = PTL_EVENT_PUT_END;
977         msg->ev.hdr_data = hdr->msg.put.hdr_data;
978
979         if (!ptl_is_wire_handle_none(&hdr->msg.put.ack_wmd) &&
980             !(md->options & PTL_MD_ACK_DISABLE)) {
981                 msg->ack_wmd = hdr->msg.put.ack_wmd;
982         }
983
984         ni->ni_counters.recv_count++;
985         ni->ni_counters.recv_length += mlength;
986
987         LIB_UNLOCK(nal, flags);
988
989         if (loopback)
990                 rc = lib_lo_recv(nal, private, msg, md, offset, mlength,
991                                  hdr->payload_length);
992         else
993                 rc = lib_recv(nal, private, msg, md, offset, mlength,
994                               hdr->payload_length);
995
996         if (rc != PTL_OK)
997                 CERROR(LPU64": error on receiving PUT from "LPU64": %d\n",
998                        ni->ni_pid.nid, hdr->src_nid, rc);
999
1000         return (rc);
1001 }
1002
1003 static ptl_err_t
1004 parse_get(lib_nal_t *nal, ptl_hdr_t *hdr, void *private,
1005           lib_msg_t *msg, int loopback)
1006 {
1007         lib_ni_t        *ni = &nal->libnal_ni;
1008         ptl_size_t       mlength = 0;
1009         ptl_size_t       offset = 0;
1010         lib_md_t        *md;
1011         ptl_hdr_t        reply;
1012         unsigned long    flags;
1013         int              rc;
1014
1015         /* Convert get fields to host byte order */
1016         hdr->msg.get.match_bits = le64_to_cpu(hdr->msg.get.match_bits);
1017         hdr->msg.get.ptl_index = le32_to_cpu(hdr->msg.get.ptl_index);
1018         hdr->msg.get.sink_length = le32_to_cpu(hdr->msg.get.sink_length);
1019         hdr->msg.get.src_offset = le32_to_cpu(hdr->msg.get.src_offset);
1020
1021         LIB_LOCK(nal, flags);
1022
1023         md = lib_match_md(nal, hdr->msg.get.ptl_index, PTL_MD_OP_GET,
1024                           hdr->src_nid, hdr->src_pid,
1025                           hdr->msg.get.sink_length, hdr->msg.get.src_offset,
1026                           hdr->msg.get.match_bits, msg,
1027                           &mlength, &offset);
1028         if (md == NULL) {
1029                 LIB_UNLOCK(nal, flags);
1030                 return (PTL_FAIL);
1031         }
1032
1033         msg->ev.type = PTL_EVENT_GET_END;
1034         msg->ev.hdr_data = 0;
1035
1036         ni->ni_counters.send_count++;
1037         ni->ni_counters.send_length += mlength;
1038
1039         LIB_UNLOCK(nal, flags);
1040
1041         memset (&reply, 0, sizeof (reply));
1042         reply.type     = cpu_to_le32(PTL_MSG_REPLY);
1043         reply.dest_nid = cpu_to_le64(hdr->src_nid);
1044         reply.dest_pid = cpu_to_le32(hdr->src_pid);
1045         reply.src_nid  = cpu_to_le64(ni->ni_pid.nid);
1046         reply.src_pid  = cpu_to_le32(ni->ni_pid.pid);
1047         reply.payload_length = cpu_to_le32(mlength);
1048
1049         reply.msg.reply.dst_wmd = hdr->msg.get.return_wmd;
1050
1051         /* NB call lib_send() _BEFORE_ lib_recv() completes the incoming
1052          * message.  Some NALs _require_ this to implement optimized GET */
1053
1054         rc = lib_send (nal, private, msg, &reply, PTL_MSG_REPLY,
1055                        hdr->src_nid, hdr->src_pid, md, offset, mlength);
1056         if (rc != PTL_OK)
1057                 CERROR(LPU64": Unable to send REPLY for GET from "LPU64": %d\n",
1058                        ni->ni_pid.nid, hdr->src_nid, rc);
1059
1060         /* Discard any junk after the hdr */
1061         if (!loopback)
1062                 (void) lib_recv(nal, private, NULL, NULL, 0, 0,
1063                                 hdr->payload_length);
1064
1065         return (rc);
1066 }
1067
1068 static ptl_err_t
1069 parse_reply(lib_nal_t *nal, ptl_hdr_t *hdr, void *private,
1070             lib_msg_t *msg, int loopback)
1071 {
1072         lib_ni_t        *ni = &nal->libnal_ni;
1073         lib_md_t        *md;
1074         int              rlength;
1075         int              length;
1076         unsigned long    flags;
1077         ptl_err_t        rc;
1078
1079         LIB_LOCK(nal, flags);
1080
1081         /* NB handles only looked up by creator (no flips) */
1082         md = ptl_wire_handle2md(&hdr->msg.reply.dst_wmd, nal);
1083         if (md == NULL || md->threshold == 0) {
1084                 CERROR (LPU64": Dropping REPLY from "LPU64" for %s MD "LPX64"."LPX64"\n",
1085                         ni->ni_pid.nid, hdr->src_nid,
1086                         md == NULL ? "invalid" : "inactive",
1087                         hdr->msg.reply.dst_wmd.wh_interface_cookie,
1088                         hdr->msg.reply.dst_wmd.wh_object_cookie);
1089
1090                 LIB_UNLOCK(nal, flags);
1091                 return (PTL_FAIL);
1092         }
1093
1094         LASSERT (md->offset == 0);
1095
1096         length = rlength = hdr->payload_length;
1097
1098         if (length > md->length) {
1099                 if ((md->options & PTL_MD_TRUNCATE) == 0) {
1100                         CERROR (LPU64": Dropping REPLY from "LPU64
1101                                 " length %d for MD "LPX64" would overflow (%d)\n",
1102                                 ni->ni_pid.nid, hdr->src_nid, length,
1103                                 hdr->msg.reply.dst_wmd.wh_object_cookie,
1104                                 md->length);
1105                         LIB_UNLOCK(nal, flags);
1106                         return (PTL_FAIL);
1107                 }
1108                 length = md->length;
1109         }
1110
1111         CDEBUG(D_NET, "Reply from "LPU64" of length %d/%d into md "LPX64"\n",
1112                hdr->src_nid, length, rlength,
1113                hdr->msg.reply.dst_wmd.wh_object_cookie);
1114
1115         lib_commit_md(nal, md, msg);
1116
1117         msg->ev.type = PTL_EVENT_REPLY_END;
1118         msg->ev.initiator.nid = hdr->src_nid;
1119         msg->ev.initiator.pid = hdr->src_pid;
1120         msg->ev.rlength = rlength;
1121         msg->ev.mlength = length;
1122         msg->ev.offset = 0;
1123
1124         lib_md_deconstruct(nal, md, &msg->ev.md);
1125         ptl_md2handle(&msg->ev.md_handle, nal, md);
1126
1127         ni->ni_counters.recv_count++;
1128         ni->ni_counters.recv_length += length;
1129
1130         LIB_UNLOCK(nal, flags);
1131
1132         if (loopback)
1133                 rc = lib_lo_recv(nal, private, msg, md, 0, length, rlength);
1134         else
1135                 rc = lib_recv(nal, private, msg, md, 0, length, rlength);
1136
1137         if (rc != PTL_OK)
1138                 CERROR(LPU64": error on receiving REPLY from "LPU64": %d\n",
1139                        ni->ni_pid.nid, hdr->src_nid, rc);
1140
1141         return (rc);
1142 }
1143
1144 static ptl_err_t
1145 parse_ack(lib_nal_t *nal, ptl_hdr_t *hdr, void *private, 
1146           lib_msg_t *msg, int loopback)
1147 {
1148         lib_ni_t      *ni = &nal->libnal_ni;
1149         lib_md_t      *md;
1150         unsigned long  flags;
1151
1152         /* Convert ack fields to host byte order */
1153         hdr->msg.ack.match_bits = le64_to_cpu(hdr->msg.ack.match_bits);
1154         hdr->msg.ack.mlength = le32_to_cpu(hdr->msg.ack.mlength);
1155
1156         LIB_LOCK(nal, flags);
1157
1158         /* NB handles only looked up by creator (no flips) */
1159         md = ptl_wire_handle2md(&hdr->msg.ack.dst_wmd, nal);
1160         if (md == NULL || md->threshold == 0) {
1161                 CDEBUG(D_INFO, LPU64": Dropping ACK from "LPU64" to %s MD "
1162                        LPX64"."LPX64"\n", ni->ni_pid.nid, hdr->src_nid,
1163                        (md == NULL) ? "invalid" : "inactive",
1164                        hdr->msg.ack.dst_wmd.wh_interface_cookie,
1165                        hdr->msg.ack.dst_wmd.wh_object_cookie);
1166
1167                 LIB_UNLOCK(nal, flags);
1168                 return (PTL_FAIL);
1169         }
1170
1171         CDEBUG(D_NET, LPU64": ACK from "LPU64" into md "LPX64"\n",
1172                ni->ni_pid.nid, hdr->src_nid,
1173                hdr->msg.ack.dst_wmd.wh_object_cookie);
1174
1175         lib_commit_md(nal, md, msg);
1176
1177         msg->ev.type = PTL_EVENT_ACK;
1178         msg->ev.initiator.nid = hdr->src_nid;
1179         msg->ev.initiator.pid = hdr->src_pid;
1180         msg->ev.mlength = hdr->msg.ack.mlength;
1181         msg->ev.match_bits = hdr->msg.ack.match_bits;
1182
1183         lib_md_deconstruct(nal, md, &msg->ev.md);
1184         ptl_md2handle(&msg->ev.md_handle, nal, md);
1185
1186         ni->ni_counters.recv_count++;
1187
1188         LIB_UNLOCK(nal, flags);
1189
1190         /* We have received and matched up the ack OK, create the
1191          * completion event now... */
1192         lib_finalize(nal, private, msg, PTL_OK);
1193
1194         /* ...and now discard any junk after the hdr */
1195         if (!loopback)
1196                 (void) lib_recv(nal, private, NULL, NULL, 0, 0,
1197                                 hdr->payload_length);
1198
1199        return (PTL_OK);
1200 }
1201
1202 static char *
1203 hdr_type_string (ptl_hdr_t *hdr)
1204 {
1205         switch (hdr->type) {
1206         case PTL_MSG_ACK:
1207                 return ("ACK");
1208         case PTL_MSG_PUT:
1209                 return ("PUT");
1210         case PTL_MSG_GET:
1211                 return ("GET");
1212         case PTL_MSG_REPLY:
1213                 return ("REPLY");
1214         case PTL_MSG_HELLO:
1215                 return ("HELLO");
1216         default:
1217                 return ("<UNKNOWN>");
1218         }
1219 }
1220
1221 void print_hdr(lib_nal_t *nal, ptl_hdr_t * hdr)
1222 {
1223         char *type_str = hdr_type_string (hdr);
1224
1225         CWARN("P3 Header at %p of type %s\n", hdr, type_str);
1226         CWARN("    From nid/pid "LPX64"/%u", hdr->src_nid, hdr->src_pid);
1227         CWARN("    To nid/pid "LPX64"/%u\n", hdr->dest_nid, hdr->dest_pid);
1228
1229         switch (hdr->type) {
1230         default:
1231                 break;
1232
1233         case PTL_MSG_PUT:
1234                 CWARN("    Ptl index %d, ack md "LPX64"."LPX64", "
1235                       "match bits "LPX64"\n",
1236                       hdr->msg.put.ptl_index,
1237                       hdr->msg.put.ack_wmd.wh_interface_cookie,
1238                       hdr->msg.put.ack_wmd.wh_object_cookie,
1239                       hdr->msg.put.match_bits);
1240                 CWARN("    Length %d, offset %d, hdr data "LPX64"\n",
1241                       hdr->payload_length, hdr->msg.put.offset,
1242                       hdr->msg.put.hdr_data);
1243                 break;
1244
1245         case PTL_MSG_GET:
1246                 CWARN("    Ptl index %d, return md "LPX64"."LPX64", "
1247                       "match bits "LPX64"\n", hdr->msg.get.ptl_index,
1248                       hdr->msg.get.return_wmd.wh_interface_cookie,
1249                       hdr->msg.get.return_wmd.wh_object_cookie,
1250                       hdr->msg.get.match_bits);
1251                 CWARN("    Length %d, src offset %d\n",
1252                       hdr->msg.get.sink_length,
1253                       hdr->msg.get.src_offset);
1254                 break;
1255
1256         case PTL_MSG_ACK:
1257                 CWARN("    dst md "LPX64"."LPX64", "
1258                       "manipulated length %d\n",
1259                       hdr->msg.ack.dst_wmd.wh_interface_cookie,
1260                       hdr->msg.ack.dst_wmd.wh_object_cookie,
1261                       hdr->msg.ack.mlength);
1262                 break;
1263
1264         case PTL_MSG_REPLY:
1265                 CWARN("    dst md "LPX64"."LPX64", "
1266                       "length %d\n",
1267                       hdr->msg.reply.dst_wmd.wh_interface_cookie,
1268                       hdr->msg.reply.dst_wmd.wh_object_cookie,
1269                       hdr->payload_length);
1270         }
1271
1272 }                               /* end of print_hdr() */
1273
1274
1275 ptl_err_t
1276 lib_parse(lib_nal_t *nal, ptl_hdr_t *hdr, void *private)
1277 {
1278         return do_lib_parse(nal, hdr, private, 0);
1279 }
1280
1281 ptl_err_t
1282 do_lib_parse(lib_nal_t *nal, ptl_hdr_t *hdr, void *private, int loopback)
1283 {
1284         unsigned long  flags;
1285         ptl_err_t      rc;
1286         lib_msg_t     *msg;
1287
1288         /* NB we return PTL_OK if we manage to parse the header and believe
1289          * it looks OK.  Anything that goes wrong with receiving the
1290          * message after that point is the responsibility of the NAL */
1291
1292         /* convert common fields to host byte order */
1293         hdr->type = le32_to_cpu(hdr->type);
1294         hdr->src_nid = le64_to_cpu(hdr->src_nid);
1295         hdr->src_pid = le32_to_cpu(hdr->src_pid);
1296         hdr->dest_pid = le32_to_cpu(hdr->dest_pid);
1297         hdr->payload_length = le32_to_cpu(hdr->payload_length);
1298
1299         switch (hdr->type) {
1300         case PTL_MSG_HELLO: {
1301                 /* dest_nid is really ptl_magicversion_t */
1302                 ptl_magicversion_t *mv = (ptl_magicversion_t *)&hdr->dest_nid;
1303
1304                 mv->magic = le32_to_cpu(mv->magic);
1305                 mv->version_major = le16_to_cpu(mv->version_major);
1306                 mv->version_minor = le16_to_cpu(mv->version_minor);
1307
1308                 if (mv->magic == PORTALS_PROTO_MAGIC &&
1309                     mv->version_major == PORTALS_PROTO_VERSION_MAJOR &&
1310                     mv->version_minor == PORTALS_PROTO_VERSION_MINOR) {
1311                         CWARN (LPU64": Dropping unexpected HELLO message: "
1312                                "magic %d, version %d.%d from "LPD64"\n",
1313                                nal->libnal_ni.ni_pid.nid, mv->magic,
1314                                mv->version_major, mv->version_minor,
1315                                hdr->src_nid);
1316
1317                         /* it's good but we don't want it */
1318                         lib_drop_message(nal, private, hdr, loopback);
1319                         return PTL_OK;
1320                 }
1321
1322                 /* we got garbage */
1323                 CERROR (LPU64": Bad HELLO message: "
1324                         "magic %d, version %d.%d from "LPD64"\n",
1325                         nal->libnal_ni.ni_pid.nid, mv->magic,
1326                         mv->version_major, mv->version_minor,
1327                         hdr->src_nid);
1328                 return PTL_FAIL;
1329         }
1330
1331         case PTL_MSG_ACK:
1332         case PTL_MSG_PUT:
1333         case PTL_MSG_GET:
1334         case PTL_MSG_REPLY:
1335                 hdr->dest_nid = le64_to_cpu(hdr->dest_nid);
1336                 if (hdr->dest_nid != nal->libnal_ni.ni_pid.nid) {
1337                         CERROR(LPU64": BAD dest NID in %s message from"
1338                                LPU64" to "LPU64" (not me)\n",
1339                                nal->libnal_ni.ni_pid.nid, hdr_type_string (hdr),
1340                                hdr->src_nid, hdr->dest_nid);
1341                         return PTL_FAIL;
1342                 }
1343                 break;
1344
1345         default:
1346                 CERROR(LPU64": Bad message type 0x%x from "LPU64"\n",
1347                        nal->libnal_ni.ni_pid.nid, hdr->type, hdr->src_nid);
1348                 return PTL_FAIL;
1349         }
1350
1351         /* We've decided we're not receiving garbage since we can parse the
1352          * header.  We will return PTL_OK come what may... */
1353
1354         if (!list_empty (&nal->libnal_ni.ni_test_peers) && /* normally we don't */
1355             fail_peer (nal, hdr->src_nid, 0))      /* shall we now? */
1356         {
1357                 CERROR(LPU64": Dropping incoming %s from "LPU64
1358                        ": simulated failure\n",
1359                        nal->libnal_ni.ni_pid.nid, hdr_type_string (hdr),
1360                        hdr->src_nid);
1361                 lib_drop_message(nal, private, hdr, loopback);
1362                 return PTL_OK;
1363         }
1364
1365         msg = lib_msg_alloc(nal);
1366         if (msg == NULL) {
1367                 CERROR(LPU64": Dropping incoming %s from "LPU64
1368                        ": can't allocate a lib_msg_t\n",
1369                        nal->libnal_ni.ni_pid.nid, hdr_type_string (hdr),
1370                        hdr->src_nid);
1371                 lib_drop_message(nal, private, hdr, loopback);
1372                 return PTL_OK;
1373         }
1374
1375         switch (hdr->type) {
1376         case PTL_MSG_ACK:
1377                 rc = parse_ack(nal, hdr, private, msg, loopback);
1378                 break;
1379         case PTL_MSG_PUT:
1380                 rc = parse_put(nal, hdr, private, msg, loopback);
1381                 break;
1382         case PTL_MSG_GET:
1383                 rc = parse_get(nal, hdr, private, msg, loopback);
1384                 break;
1385         case PTL_MSG_REPLY:
1386                 rc = parse_reply(nal, hdr, private, msg, loopback);
1387                 break;
1388         default:
1389                 LASSERT(0);
1390                 rc = PTL_FAIL;                  /* no compiler warning please */
1391                 break;
1392         }
1393
1394         if (rc != PTL_OK) {
1395                 if (msg->md != NULL) {
1396                         /* committed... */
1397                         lib_finalize(nal, private, msg, rc);
1398                 } else {
1399                         LIB_LOCK(nal, flags);
1400                         lib_msg_free(nal, msg); /* expects LIB_LOCK held */
1401                         LIB_UNLOCK(nal, flags);
1402
1403                         lib_drop_message(nal, private, hdr, loopback);
1404                 }
1405         }
1406
1407         return PTL_OK;
1408         /* That's "OK I can parse it", not "OK I like it" :) */
1409 }
1410
1411 int
1412 lib_api_put(nal_t *apinal, ptl_handle_md_t *mdh,
1413             ptl_ack_req_t ack, ptl_process_id_t *id,
1414             ptl_pt_index_t portal, ptl_ac_index_t ac,
1415             ptl_match_bits_t match_bits,
1416             ptl_size_t offset, ptl_hdr_data_t hdr_data)
1417 {
1418         lib_nal_t        *nal = apinal->nal_data;
1419         lib_ni_t         *ni = &nal->libnal_ni;
1420         lib_msg_t        *msg;
1421         ptl_hdr_t         hdr;
1422         lib_md_t         *md;
1423         unsigned long     flags;
1424         int               rc;
1425
1426         if (!list_empty (&ni->ni_test_peers) && /* normally we don't */
1427             fail_peer (nal, id->nid, 1))           /* shall we now? */
1428         {
1429                 CERROR("Dropping PUT to "LPU64": simulated failure\n",
1430                        id->nid);
1431                 return PTL_PROCESS_INVALID;
1432         }
1433
1434         msg = lib_msg_alloc(nal);
1435         if (msg == NULL) {
1436                 CERROR(LPU64": Dropping PUT to "LPU64": ENOMEM on lib_msg_t\n",
1437                        ni->ni_pid.nid, id->nid);
1438                 return PTL_NO_SPACE;
1439         }
1440
1441         LIB_LOCK(nal, flags);
1442
1443         md = ptl_handle2md(mdh, nal);
1444         if (md == NULL || md->threshold == 0) {
1445                 lib_msg_free(nal, msg);
1446                 LIB_UNLOCK(nal, flags);
1447
1448                 return PTL_MD_INVALID;
1449         }
1450
1451         CDEBUG(D_NET, "PtlPut -> "LPX64"\n", id->nid);
1452
1453         memset (&hdr, 0, sizeof (hdr));
1454         hdr.type     = cpu_to_le32(PTL_MSG_PUT);
1455         hdr.dest_nid = cpu_to_le64(id->nid);
1456         hdr.dest_pid = cpu_to_le32(id->pid);
1457         hdr.src_nid  = cpu_to_le64(ni->ni_pid.nid);
1458         hdr.src_pid  = cpu_to_le32(ni->ni_pid.pid);
1459         hdr.payload_length = cpu_to_le32(md->length);
1460
1461         /* NB handles only looked up by creator (no flips) */
1462         if (ack == PTL_ACK_REQ) {
1463                 hdr.msg.put.ack_wmd.wh_interface_cookie = ni->ni_interface_cookie;
1464                 hdr.msg.put.ack_wmd.wh_object_cookie = md->md_lh.lh_cookie;
1465         } else {
1466                 hdr.msg.put.ack_wmd = PTL_WIRE_HANDLE_NONE;
1467         }
1468
1469         hdr.msg.put.match_bits = cpu_to_le64(match_bits);
1470         hdr.msg.put.ptl_index = cpu_to_le32(portal);
1471         hdr.msg.put.offset = cpu_to_le32(offset);
1472         hdr.msg.put.hdr_data = hdr_data;
1473
1474         lib_commit_md(nal, md, msg);
1475
1476         msg->ev.type = PTL_EVENT_SEND_END;
1477         msg->ev.initiator.nid = ni->ni_pid.nid;
1478         msg->ev.initiator.pid = ni->ni_pid.pid;
1479         msg->ev.pt_index = portal;
1480         msg->ev.match_bits = match_bits;
1481         msg->ev.rlength = md->length;
1482         msg->ev.mlength = md->length;
1483         msg->ev.offset = offset;
1484         msg->ev.hdr_data = hdr_data;
1485
1486         lib_md_deconstruct(nal, md, &msg->ev.md);
1487         ptl_md2handle(&msg->ev.md_handle, nal, md);
1488
1489         ni->ni_counters.send_count++;
1490         ni->ni_counters.send_length += md->length;
1491
1492         LIB_UNLOCK(nal, flags);
1493
1494         rc = lib_send (nal, NULL, msg, &hdr, PTL_MSG_PUT,
1495                        id->nid, id->pid, md, 0, md->length);
1496         if (rc != PTL_OK) {
1497                 CERROR("Error sending PUT to "LPX64": %d\n",
1498                        id->nid, rc);
1499                 lib_finalize (nal, NULL, msg, rc);
1500         }
1501
1502         /* completion will be signalled by an event */
1503         return PTL_OK;
1504 }
1505
1506 lib_msg_t *
1507 lib_create_reply_msg (lib_nal_t *nal, ptl_nid_t peer_nid, lib_msg_t *getmsg)
1508 {
1509         /* The NAL can DMA direct to the GET md (i.e. no REPLY msg).  This
1510          * returns a msg for the NAL to pass to lib_finalize() when the sink
1511          * data has been received.
1512          *
1513          * CAVEAT EMPTOR: 'getmsg' is the original GET, which is freed when
1514          * lib_finalize() is called on it, so the NAL must call this first */
1515
1516         lib_ni_t        *ni = &nal->libnal_ni;
1517         lib_msg_t       *msg = lib_msg_alloc(nal);
1518         lib_md_t        *getmd = getmsg->md;
1519         unsigned long    flags;
1520
1521         LIB_LOCK(nal, flags);
1522
1523         LASSERT (getmd->pending > 0);
1524
1525         if (msg == NULL) {
1526                 CERROR ("Dropping REPLY from "LPU64": can't allocate msg\n",
1527                         peer_nid);
1528                 goto drop;
1529         }
1530
1531         if (getmd->threshold == 0) {
1532                 CERROR ("Dropping REPLY from "LPU64" for inactive MD %p\n",
1533                         peer_nid, getmd);
1534                 goto drop_msg;
1535         }
1536
1537         LASSERT (getmd->offset == 0);
1538
1539         CDEBUG(D_NET, "Reply from "LPU64" md %p\n", peer_nid, getmd);
1540
1541         lib_commit_md (nal, getmd, msg);
1542
1543         msg->ev.type = PTL_EVENT_REPLY_END;
1544         msg->ev.initiator.nid = peer_nid;
1545         msg->ev.initiator.pid = 0;      /* XXX FIXME!!! */
1546         msg->ev.rlength = msg->ev.mlength = getmd->length;
1547         msg->ev.offset = 0;
1548
1549         lib_md_deconstruct(nal, getmd, &msg->ev.md);
1550         ptl_md2handle(&msg->ev.md_handle, nal, getmd);
1551
1552         ni->ni_counters.recv_count++;
1553         ni->ni_counters.recv_length += getmd->length;
1554
1555         LIB_UNLOCK(nal, flags);
1556
1557         return msg;
1558
1559  drop_msg:
1560         lib_msg_free(nal, msg);
1561  drop:
1562         nal->libnal_ni.ni_counters.drop_count++;
1563         nal->libnal_ni.ni_counters.drop_length += getmd->length;
1564
1565         LIB_UNLOCK (nal, flags);
1566
1567         return NULL;
1568 }
1569
1570 int
1571 lib_api_get(nal_t *apinal, ptl_handle_md_t *mdh, ptl_process_id_t *id,
1572             ptl_pt_index_t portal, ptl_ac_index_t ac,
1573             ptl_match_bits_t match_bits, ptl_size_t offset)
1574 {
1575         lib_nal_t        *nal = apinal->nal_data;
1576         lib_ni_t         *ni = &nal->libnal_ni;
1577         lib_msg_t        *msg;
1578         ptl_hdr_t         hdr;
1579         lib_md_t         *md;
1580         unsigned long     flags;
1581         int               rc;
1582
1583         if (!list_empty (&ni->ni_test_peers) && /* normally we don't */
1584             fail_peer (nal, id->nid, 1))           /* shall we now? */
1585         {
1586                 CERROR("Dropping PUT to "LPX64": simulated failure\n",
1587                        id->nid);
1588                 return PTL_PROCESS_INVALID;
1589         }
1590
1591         msg = lib_msg_alloc(nal);
1592         if (msg == NULL) {
1593                 CERROR("Dropping GET to "LPU64": ENOMEM on lib_msg_t\n",
1594                        id->nid);
1595                 return PTL_NO_SPACE;
1596         }
1597
1598         LIB_LOCK(nal, flags);
1599
1600         md = ptl_handle2md(mdh, nal);
1601         if (md == NULL || !md->threshold) {
1602                 lib_msg_free(nal, msg);
1603                 LIB_UNLOCK(nal, flags);
1604
1605                 return PTL_MD_INVALID;
1606         }
1607
1608         CDEBUG(D_NET, "PtlGet -> %Lu: %lu\n", (unsigned long long)id->nid,
1609                (unsigned long)id->pid);
1610
1611         memset (&hdr, 0, sizeof (hdr));
1612         hdr.type     = cpu_to_le32(PTL_MSG_GET);
1613         hdr.dest_nid = cpu_to_le64(id->nid);
1614         hdr.dest_pid = cpu_to_le32(id->pid);
1615         hdr.src_nid  = cpu_to_le64(ni->ni_pid.nid);
1616         hdr.src_pid  = cpu_to_le32(ni->ni_pid.pid);
1617         hdr.payload_length = 0;
1618
1619         /* NB handles only looked up by creator (no flips) */
1620         hdr.msg.get.return_wmd.wh_interface_cookie = ni->ni_interface_cookie;
1621         hdr.msg.get.return_wmd.wh_object_cookie = md->md_lh.lh_cookie;
1622
1623         hdr.msg.get.match_bits = cpu_to_le64(match_bits);
1624         hdr.msg.get.ptl_index = cpu_to_le32(portal);
1625         hdr.msg.get.src_offset = cpu_to_le32(offset);
1626         hdr.msg.get.sink_length = cpu_to_le32(md->length);
1627
1628         lib_commit_md(nal, md, msg);
1629
1630         msg->ev.type = PTL_EVENT_SEND_END;
1631         msg->ev.initiator = ni->ni_pid;
1632         msg->ev.pt_index = portal;
1633         msg->ev.match_bits = match_bits;
1634         msg->ev.rlength = md->length;
1635         msg->ev.mlength = md->length;
1636         msg->ev.offset = offset;
1637         msg->ev.hdr_data = 0;
1638
1639         lib_md_deconstruct(nal, md, &msg->ev.md);
1640         ptl_md2handle(&msg->ev.md_handle, nal, md);
1641
1642         ni->ni_counters.send_count++;
1643
1644         LIB_UNLOCK(nal, flags);
1645
1646         rc = lib_send (nal, NULL, msg, &hdr, PTL_MSG_GET,
1647                        id->nid, id->pid, NULL, 0, 0);
1648         if (rc != PTL_OK) {
1649                 CERROR(LPU64": error sending GET to "LPU64": %d\n",
1650                        ni->ni_pid.nid, id->nid, rc);
1651                 lib_finalize (nal, NULL, msg, rc);
1652         }
1653
1654         /* completion will be signalled by an event */
1655         return PTL_OK;
1656 }
1657
1658 void lib_assert_wire_constants (void)
1659 {
1660         /* Wire protocol assertions generated by 'wirecheck'
1661          * running on Linux mdevi 2.4.21-p4smp-55chaos #1 SMP Tue Jun 8 14:38:44 PDT 2004 i686 i686 i
1662          * with gcc version 3.2.3 20030502 (Red Hat Linux 3.2.3-34) */
1663
1664
1665         /* Constants... */
1666         LASSERT (PORTALS_PROTO_MAGIC == 0xeebc0ded);
1667         LASSERT (PORTALS_PROTO_VERSION_MAJOR == 1);
1668         LASSERT (PORTALS_PROTO_VERSION_MINOR == 0);
1669         LASSERT (PTL_MSG_ACK == 0);
1670         LASSERT (PTL_MSG_PUT == 1);
1671         LASSERT (PTL_MSG_GET == 2);
1672         LASSERT (PTL_MSG_REPLY == 3);
1673         LASSERT (PTL_MSG_HELLO == 4);
1674
1675         /* Checks for struct ptl_handle_wire_t */
1676         LASSERT ((int)sizeof(ptl_handle_wire_t) == 16);
1677         LASSERT ((int)offsetof(ptl_handle_wire_t, wh_interface_cookie) == 0);
1678         LASSERT ((int)sizeof(((ptl_handle_wire_t *)0)->wh_interface_cookie) == 8);
1679         LASSERT ((int)offsetof(ptl_handle_wire_t, wh_object_cookie) == 8);
1680         LASSERT ((int)sizeof(((ptl_handle_wire_t *)0)->wh_object_cookie) == 8);
1681
1682         /* Checks for struct ptl_magicversion_t */
1683         LASSERT ((int)sizeof(ptl_magicversion_t) == 8);
1684         LASSERT ((int)offsetof(ptl_magicversion_t, magic) == 0);
1685         LASSERT ((int)sizeof(((ptl_magicversion_t *)0)->magic) == 4);
1686         LASSERT ((int)offsetof(ptl_magicversion_t, version_major) == 4);
1687         LASSERT ((int)sizeof(((ptl_magicversion_t *)0)->version_major) == 2);
1688         LASSERT ((int)offsetof(ptl_magicversion_t, version_minor) == 6);
1689         LASSERT ((int)sizeof(((ptl_magicversion_t *)0)->version_minor) == 2);
1690
1691         /* Checks for struct ptl_hdr_t */
1692         LASSERT ((int)sizeof(ptl_hdr_t) == 72);
1693         LASSERT ((int)offsetof(ptl_hdr_t, dest_nid) == 0);
1694         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->dest_nid) == 8);
1695         LASSERT ((int)offsetof(ptl_hdr_t, src_nid) == 8);
1696         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->src_nid) == 8);
1697         LASSERT ((int)offsetof(ptl_hdr_t, dest_pid) == 16);
1698         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->dest_pid) == 4);
1699         LASSERT ((int)offsetof(ptl_hdr_t, src_pid) == 20);
1700         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->src_pid) == 4);
1701         LASSERT ((int)offsetof(ptl_hdr_t, type) == 24);
1702         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->type) == 4);
1703         LASSERT ((int)offsetof(ptl_hdr_t, payload_length) == 28);
1704         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->payload_length) == 4);
1705         LASSERT ((int)offsetof(ptl_hdr_t, msg) == 32);
1706         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg) == 40);
1707
1708         /* Ack */
1709         LASSERT ((int)offsetof(ptl_hdr_t, msg.ack.dst_wmd) == 32);
1710         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.ack.dst_wmd) == 16);
1711         LASSERT ((int)offsetof(ptl_hdr_t, msg.ack.match_bits) == 48);
1712         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.ack.match_bits) == 8);
1713         LASSERT ((int)offsetof(ptl_hdr_t, msg.ack.mlength) == 56);
1714         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.ack.mlength) == 4);
1715
1716         /* Put */
1717         LASSERT ((int)offsetof(ptl_hdr_t, msg.put.ack_wmd) == 32);
1718         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.put.ack_wmd) == 16);
1719         LASSERT ((int)offsetof(ptl_hdr_t, msg.put.match_bits) == 48);
1720         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.put.match_bits) == 8);
1721         LASSERT ((int)offsetof(ptl_hdr_t, msg.put.hdr_data) == 56);
1722         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.put.hdr_data) == 8);
1723         LASSERT ((int)offsetof(ptl_hdr_t, msg.put.ptl_index) == 64);
1724         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.put.ptl_index) == 4);
1725         LASSERT ((int)offsetof(ptl_hdr_t, msg.put.offset) == 68);
1726         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.put.offset) == 4);
1727
1728         /* Get */
1729         LASSERT ((int)offsetof(ptl_hdr_t, msg.get.return_wmd) == 32);
1730         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.get.return_wmd) == 16);
1731         LASSERT ((int)offsetof(ptl_hdr_t, msg.get.match_bits) == 48);
1732         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.get.match_bits) == 8);
1733         LASSERT ((int)offsetof(ptl_hdr_t, msg.get.ptl_index) == 56);
1734         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.get.ptl_index) == 4);
1735         LASSERT ((int)offsetof(ptl_hdr_t, msg.get.src_offset) == 60);
1736         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.get.src_offset) == 4);
1737         LASSERT ((int)offsetof(ptl_hdr_t, msg.get.sink_length) == 64);
1738         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.get.sink_length) == 4);
1739
1740         /* Reply */
1741         LASSERT ((int)offsetof(ptl_hdr_t, msg.reply.dst_wmd) == 32);
1742         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.reply.dst_wmd) == 16);
1743
1744         /* Hello */
1745         LASSERT ((int)offsetof(ptl_hdr_t, msg.hello.incarnation) == 32);
1746         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.hello.incarnation) == 8);
1747         LASSERT ((int)offsetof(ptl_hdr_t, msg.hello.type) == 40);
1748         LASSERT ((int)sizeof(((ptl_hdr_t *)0)->msg.hello.type) == 4);
1749 }