Whamcloud - gitweb
499c535c5c6bdf85299a162cb1eda062d51bda61
[fs/lustre-release.git] / lustre / ChangeLog
1 tbd  Sun Microsystems, Inc.
2        * version 2.0.0
3        * Support for kernels:
4         2.6.16.60-0.27 (SLES 10),
5         2.6.18-92.1.10.el5 (RHEL 5),
6         2.6.22.14 vanilla (kernel.org).
7        * Client support for unpatched kernels:
8         (see http://wiki.lustre.org/index.php?title=Patchless_Client)
9         2.6.16 - 2.6.21 vanilla (kernel.org)
10        * Recommended e2fsprogs version: 1.40.11-sun1
11        * Note that reiserfs quotas are disabled on SLES 10 in this kernel.
12        * RHEL 4 and RHEL 5/SLES 10 clients behaves differently on 'cd' to a
13         removed cwd "./" (refer to Bugzilla 14399).
14
15 Severity   : major
16 Bugzilla   : 16561
17 Description: Hitting mdc_commit_close() ASSERTION
18 Details    : Properly handle request reference release in
19              ll_release_openhandle().
20
21 Severity   : normal
22 Bugzilla   : 15975
23 Frequency  : only patchless client
24 Description: add workaround for race between add/remove dentry from hash
25
26 Severity   : enhancement
27 Bugzilla   : 16845
28 Description: Allow OST glimpses to return PW locks
29
30 Severity   : minor
31 Bugzilla   : 16717
32 Description: LBUG when llog conf file is full
33 Details    : When llog bitmap is full, ENOSPC should be returned for plain
34              log.
35
36 Severity   : normal
37 Bugzilla   : 16907
38 Description: Prevent import from entering FULL state when server in recovery
39
40 Severity   : major
41 Bugzilla   : 16750
42 Description: service mount cannot take device name with ":"
43 Details    : Only when device name contains ":/" will mount treat it as
44              client mount.
45
46 Severity   : normal
47 Bugzilla   : 15927
48 Frequency  : rare
49 Description: replace ptlrpcd with the statahead thread to interpret the async
50              statahead RPC callback
51
52 Severity   : normal
53 Bugzilla   : 16611
54 Frequency  : on recovery
55 Description: I/O failures after umount during fail back
56 Details    : if client reconnected to restarted server we need join to recovery
57              instead of find server handler is changed and process self eviction
58              with cancel all locks.
59
60 Severity   : enhancement
61 Bugzilla   : 16633
62 Description: Update to RHEL5 kernel-2.6.18-92.1.10.el5.
63
64 Severity   : enhancement
65 Bugzilla   : 16547
66 Description: Update to SLES10 SP2 kernel-2.6.16.60-0.27.
67
68 Severity   : enhancement
69 Bugzilla   : 16566
70 Description: Upcall on Lustre log has been dumped
71 Details    : Allow for a user mode script to be called once a Lustre log has
72              been dumped. It passes the filename of the dumped log to the
73              script, the location of the script can be specified via
74              /proc/sys/lnet/debug_log_upcall.
75
76 Severity   : minor
77 Bugzilla   : 16583
78 Frequency  : rare
79 Description: avoid idr_remove called for id which is not allocated.
80 Details    : Move assigment s_dev for clustered nfs to end of initialization,
81              to avoid problem with error handling.
82
83 Severity   : minor
84 Bugzilla   : 16109
85 Frequency  : rare
86 Description: avoid Already found the key in hash [CONN_UNUSED_HASH] messages
87 Details    : When connection is reused this not moved from CONN_UNUSED_HASH
88              into CONN_USED_HASH and this prodice warning when put connection
89              again in unused hash.
90
91 Severity   : enhancement
92 Bugzilla   : 16573
93 Description: Export bytes_read/bytes_write count on OSC/OST.
94
95 Severity   : normal
96 Bugzilla   : 16237
97 Description: Early reply size mismatch, MGC loses connection
98 Details    : Apply the MGS_CONNECT_SUPPORTED mask at reconnect time so
99              the connect flags are properly negotiated.
100
101 Severity   : normal
102 Bugzilla   : 16006
103 Description: Properly propagate oinfo flags from lov to osc for statfs
104 Details    : restore missing copy oi_flags to lov requests.
105
106 Severity   : enhancement
107 Bugzilla   : 16581
108 Description: Add man pages for llobdstat(8), llstat(8), plot-llstat(8),
109            : l_getgroups(8), lst(8), routerstat(8)
110 Details    : included man pages for llobdstat(8), llstat(8),
111            : plot-llstat(8), l_getgroups(8), lst(8), routerstat(8)
112
113 Severity   : enhancement
114 Bugzilla   : 16091
115 Description: configure's --enable-quota should check the
116            : kernel .config for CONFIG_QUOTA
117 Details    : configure is terminated if --enable-quota is passed but
118            : no quota support is in kernel
119
120 Severity   : normal
121 Bugzilla   : 13139
122 Description: Remove portals compatibility
123 Details    : Remove portals compatibility, not interoperable with releases
124              before 1.4.6
125
126 Severity   : normal
127 Bugzilla   : 15576
128 Description: Resolve device initialization race
129 Details    : Prevent proc handler from accessing devices added to the
130              obd_devs array but yet be intialized.
131
132 Severity   : enhancement
133 Bugzilla   : 15308
134 Description: Update to SLES10 SP2 kernel-2.6.16.60-0.23.
135
136 Severity   : enhancement
137 Bugzilla   : 16190
138 Description: Update to RHEL5 kernel-2.6.18-92.1.6.el5.
139
140 Severity   : normal
141 Bugzilla   : 12975
142 Frequency  : rare
143 Description: Using wrong pointer in osc_brw_prep_request
144 Details    : Access to array[-1] can produce panic if kernel compiled with
145              CONFIG_PAGE_ALLOC enabled
146
147 Severity   : normal
148 Bugzilla   : 16037
149 Description: Client runs out of low memory
150 Details    : Consider only lowmem when counting initial number of llap pages
151
152 Severity   : normal
153 Bugzilla   : 15625
154 Description: *optional* service tags registration
155 Details    : if the "service tags" package is installed on a Lustre node
156              When the filesystem is mounted, a local-node service tag will
157              be created.  See http://inventory.sun.com/ for more information
158              about the Service Tags asset management system.
159
160 Severity   : normal
161 Bugzilla   : 15825
162 Description: Kernel BUG tries to release flock
163 Details    : Lustre does not destroy flock lock before last reference goes
164              away. So always drop flock locks when client is evicted and
165              perform unlock regardless of successfulness of speaking to MDS.
166
167 Severity   : normal
168 Bugzilla   : 15210
169 Description: add recount protection for osc callbacks, so avoid panic on shutdown
170
171 Severity   : normal
172 Bugzilla   : 12653
173 Description: sanity test 65a fails if stripecount of -1 is set
174 Details    : handle -1 striping on filesystem in ll_dirstripe_verify
175
176 Severity   : normal
177 Bugzilla   : 14742
178 Frequency  : rare
179 Description: ASSERTION(CheckWriteback(page,cmd)) failed
180 Details    : badly clear PG_Writeback bit in ll_ap_completion can produce false
181              positive assertion.
182
183 Severity   : enhancement
184 Bugzilla   : 15865
185 Description: Update to RHEL5 kernel-2.6.18-53.1.21.el5.
186
187 Severity   : major
188 Bugzilla   : 15924
189 Description: do not process already freed flock
190 Details    : flock can possibly be freed by another thread before it reaches
191              to ldlm_flock_completion_ast.
192
193 Severity   : normal
194 Bugzilla   : 14480
195 Description: LBUG during stress test
196 Details    : Need properly lock accesses the flock deadlock detection list.
197
198 Severity   : minor
199 Bugzilla   : 15837
200 Description: oops in page fault handler
201 Details    : kernel page fault handler can return two special 'pages' in error case, don't
202              try dereference NOPAGE_SIGBUS and NOPAGE_OMM.
203
204 Severity   : minor
205 Bugzilla   : 15716
206 Description: timeout with invalidate import.
207 Details    : ptlrpcd_check call obd_zombie_impexp_cull and wait request which should be
208              handled by ptlrpcd. This produce long age waiting and -ETIMEOUT
209              ptlrpc_invalidate_import and as result LASSERT.
210
211 Severity   : enhancement
212 Bugzilla   : 15741
213 Description: Update to RHEL5 kernel-2.6.18-53.1.19.el5.
214
215 Severity   : major
216 Bugzilla   : 14134
217 Description: enable MGS and MDT services start separately
218 Details    : add a 'nomgs' option in mount.lustre to enable start a MDT with
219              a co-located MGS without starting the MGS, which is a complement
220              to 'nosvc' mount option.
221
222 Severity   : normal
223 Bugzilla   : 14835
224 Frequency  : after recovery
225 Description: precreate to many object's after del orphan.
226 Details    : del orphan st in oscc last_id == next_id and this triger growing
227              count of precreated objects. Set flag LOW to skip increase count
228              of precreated objects.
229
230 Severity   : normal
231 Bugzilla   : 15139
232 Frequency  : rare, on clear nid stats
233 Description: ASSERTION(client_stat->nid_exp_ref_count == 0)
234 Details    : when clean nid stats sometimes try destroy live entry,
235              and this produce panic in free.
236
237 Severity   : major
238 Bugzilla   : 15575
239 Description: Stack overflow during MDS log replay
240              ease stack pressure by using a thread dealing llog_process.
241
242 Severity   : normal
243 Bugzilla   : 15443
244 Description: wait until IO finished before start new when do lock cancel.
245 Details    : VM protocol want old IO finished before start new, in this case
246              need wait until PG_writeback is cleared until check dirty flag and
247              call writepages in lock cancel callback.
248
249 Severity   : enhancement
250 Bugzilla   : 14929
251 Description: using special macro for print time and cleanup in includes.
252
253 Severity   : normal
254 Bugzilla   : 12888
255 Description: mds_mfd_close() ASSERTION(rc == 0)
256 Details    : In mds_mfd_close(), we need protect inode's writecount change
257              within its orphan write semaphore to prevent possible races.
258
259 Severity   : minor
260 Bugzilla   : 14929
261 Description: Obsolete CURRENT_SECONDS and use cfs_time_current_sec() instead.
262
263 Severity   : minor
264 Bugzilla   : 14645
265 Frequency  : rare, on shutdown ost
266 Description: don't hit live lock with umount ost.
267 Details    : shrink_dcache_parent can be in long loop with destroy dentries,
268              use shrink_dcache_sb instead.
269
270 Severity   : minor
271 Bugzilla   : 14949
272 Description: don't panic with use echo client
273 Details    : echo client pass NULL as client nid pointer and this produce null
274              pointer dereference.
275
276 Severity   : normal
277 Bugzilla   : 15278
278 Description: fix build on ppc32
279 Details    : compile code with -m64 flag produce wrong object file for ppc32.
280
281 Severity   : normal
282 Bugzilla   : 12191
283 Description: add message levels for liblustreapi
284
285 Severity   : normal
286 Bugzilla   : 13380
287 Description: fix for occasional failure case of -ENOSPC in recovery-small tests
288 Details    : Move the 'good_osts' check before the 'total_bavail' check.  This
289              will result in an -EAGAIN and in the exit call path we call
290              alloc_rr() which will with increasing aggressiveness attempt to
291              aquire precreated objects on the minimum number of required OSCs.
292
293 Severity   : major
294 Bugzilla   : 14326
295 Description: Use old size assignment to avoid deadlock
296 Details    : This reverts the changes in bugs 2369 and bug 14138 that introduced
297              the scheduling while holding a spinlock.  We do not need locking
298              for size in ll_update_inode() because size is only updated from
299              the MDS for directories or files without objects, so there is no
300              other place to do the update, and concurrent access to such inodes
301              are protected by the inode lock.
302
303 Severity   : normal
304 Bugzilla   : 14746
305 Description: resolve "_IOWR redefined" build error on SLES10
306
307 Severity   : normal
308 Bugzilla   : 14763
309 Description: dump the memory debugging after all modules are unloaded to
310              suppress false negative in conf_sanity test 39
311
312 Severity   : enhancement
313 Bugzilla   : 15316
314 Description: build kernel-ib packages for OFED 1.3 in our release cycle
315
316 Severity   : minor
317 Bugzilla   : 13969
318 Frequency  : always
319 Description: fix SLES kernel versioning
320 Details    : the kernel version for our SLES 10 kernel did not include a "-"
321              before the "smp" at the end.  while this was not a problem in
322              general, it did mean that software trying to use the kernel
323              version to try to detect a vendor specific kernel would fail.
324              this was most evident by the OFED build scripts.
325
326 Severity   : normal
327 Bugzilla   : 14803
328 Description: Don't update lov_desc members until making sure they are valid
329 Details    : When updating lov_desc members via proc fs, need fix their
330              validities before doing the real update.
331
332 Severity   : normal
333 Bugzilla   : 15069
334 Description: don't put request into delay list while invalidate in flight.
335 Details    : ptlrpc_delay_request sometimes put in delay list while invalidate
336              import in flight. this produce timeout for invalidate and sometimes
337              can cause stale data.
338
339 Severity   : minor
340 Bugzilla   : 14856
341 Frequency  : on ppc only
342 Description: not convert ost objects for directory because it's not exist.
343 Details    : ll_dir_getstripe assume dirrectory has ost objects but this wrong.
344
345 Severity   : normal
346 Bugzilla   : 12652
347 Description: Add FMODE_EXEC file flag for SLES10 SP1 kernel.
348
349 Severity   : enhancement
350 Bugzilla   : 13397
351 Description: Update to support 2.6.22.14 vanilla kernel.
352
353 Severity   : normal
354 Bugzilla   : 14533
355 Frequency  : rare, on recovery
356 Description: read procfs can produce deadlock in some situation
357 Details    : Holding lprocfs lock which send rpc can produce block for destroy
358              obd objects and this also block reconnect with -EALREADY. This isn't
359              fix all lprocfs bugs - but make it rare.
360
361 Severity   : enhancement
362 Bugzilla   : 15152
363 Description: Update kernel to RHEL5 2.6.18-53.1.14.el5.
364
365 Severity   : major
366 Frequency  : frequent on X2 node
367 Bugzilla   : 15010
368 Description: mdc_set_open_replay_data LBUG
369 Details    : Set replay data for requests that are eligible for replay.
370
371 Severity   : normal
372 Bugzilla   : 14321
373 Description: lustre_mgs: operation 101 on unconnected MGS
374 Details    : When MGC is disconnected from MGS long enough, MGS will evict the
375              MGC, and late on MGC cannot successfully connect to MGS and a lot
376              of the error messages complaining that MGS is not connected.
377
378 Severity   : major
379 Bugzilla   : 15027
380 Frequency  : on network error
381 Description: panic with double free request if network error
382 Details    : mdc_finish_enqueue is finish request if any network error ocuring,
383              but it's true only for synchronus enqueue, for async enqueue
384              (via ptlrpcd) this incorrect and ptlrpcd want finish request
385              himself.
386
387 Severity   : enhancement
388 Bugzilla   : 11401
389 Description: client-side metadata stat-ahead during readdir(directory readahead)
390 Details    : perform client-side metadata stat-ahead when the client detects
391              readdir and sequential stat of dir entries therein
392
393 Severity   : major
394 Frequency  : on start mds
395 Bugzilla   : 14884
396 Description: Implement get_info(last_id) in obdfilter.
397
398 Severity   : normal
399 Frequency  : occasional
400 Bugzilla   : 13537
401 Description: Correctly check stale fid, not start epoch if ost not support SOM
402 Details    : open with flag O_CREATE need set old fid in op_fid3 because op_fid2
403              overwrited with new generated fid, but mds can anwer with one of these
404              two fids and both is not stale. setattr incorectly start epoch and
405              assume will be called done_writeting, but without SOM done_writing
406              never called.
407
408 Severity   : major
409 Frequency  : rare, depends on device drivers and load
410 Bugzilla   : 14529
411 Description: MDS or OSS nodes crash due to stack overflow
412 Details    : Code changes in 1.8.0 increased the stack usage of some functions.
413              In some cases, in conjunction with device drivers that use a lot
414              of stack the MDS (or possibly OSS) service threads could overflow
415              the stack.  One change which was identified to consume additional
416              stack has been reworked to avoid the extra stack usage.
417
418 Severity   : normal
419 Frequency  : occasional
420 Bugzilla   : 13730
421 Description: Do not fail import if osc_interpret_create gets -EAGAIN
422 Details    : If osc_interpret_create got -EAGAIN it immediately exits and
423              wakeup oscc_waitq.  After wakeup oscc_wait_for_objects call
424              oscc_has_objects and see OSC has no objests and call
425              oscc_internal_create to resend create request.
426
427 Severity   : enhancement
428 Bugzilla   : 14858
429 Description: Update to SLES10 SP1 latest kernel-2.6.16.54-0.2.5.
430
431 Severity   : enhancement
432 Bugzilla   : 14876
433 Description: Update to RHEL5 latest kernel-2.6.18-53.1.13.el5.
434
435 Severity   : normal
436 Frequency  : very rare
437 Bugzilla   : 3462
438 Description: Fix replay if there is an un-replied request and open
439 Details    : In some cases, older replay request will revert the
440              mcd->mcd_last_xid on MDS which is used to record the client's
441              latest sent request.
442
443 Severity   : enhancement
444 Bugzilla   : 14720
445 Description: Update to RHEL5 latest kernel-2.6.18-53.1.6.el5.
446
447 Severity   : enhancement
448 Bugzilla   : 14482
449 Description: Add rhel5 support to HEAD.
450
451 Serverity  : enhancement
452 Bugzilla   : 14793
453 Description: Update RHEL4 kernel to 2.6.9-67.0.4.
454
455 Severity   : minor
456 Frequency  : rare
457 Bugzilla   : 13196
458 Description: Don't allow skipping OSTs if index has been specified.
459 Details    : Don't allow skipping OSTs if index has been specified, make locking
460              in internal create lots better.
461
462 Severity   : normal
463 Bugzilla   : 12228
464 Description: LBUG in ptlrpc_check_set() bad phase ebc0de00
465 Details    : access to bitfield in structure is always rounded to long
466              and this produce problem with not atomic change any bit.
467
468 Severity   : normal
469 Bugzilla   : 13647
470 Description: Lustre make rpms failed.
471 Details    : Remove ldiskfs spec file to avoids rpmbuild be confused when
472              builds Lustre rpms from tarball.
473
474 Severity   : normal
475 Frequency  : rare on shutdown ost
476 Bugzilla   : 14608
477 Description: If llog cancel was not send before clean_exports phase, this can
478              produce deadlock in llog code.
479 Details    : If llog thread has last reference to obd and call class_import_put
480              this produce deadlock because llog_cleanup_commit_master wait when
481              last llog_commit_thread exited, but this never success because was
482              called from llog_commit_thread.
483
484 Severity   : normal
485 Bugzilla   : 9977
486 Description: allow userland application know is lost one of stripes.
487 Details    : fill lvb_blocks with error code on ost and return it to
488              application if error flag found.
489
490 Severity   : normal
491 Bugzilla   : 14607
492 Description: NULL lov_tgts causing MDS oops
493 Details    : more safe checks for NULL lov_tgts for avoid oops.
494
495 Severity   : enhancement
496 Bugzilla   : 14531
497 Description: Update to RHEL4 latest kernel-2.6.9-67.0.1.EL.
498
499 Severity   : normal
500 Bugzilla   : 13375
501 Descriptoin: make lov_create() will not stuck in obd_statfs_rqset()
502 Details    : If an OST is down the MDS will hang indefinitely in
503              obd_statfs_rqset() waiting for the statfs data. While for
504              MDS QOS usage of statfs, it should not stuck in waiting.
505
506 Severity   : enhancement
507 Bugzilla   : 11842
508 Description: remote_acl support
509 Details    : Support ACL-based permission check for remote user.
510              Support setfacl/getfacl for remote user with the utils
511              "lfs {l,r}{s,g}etfacl" which follow the same parameter format as
512              the system "{s,g}etfacl" utils.
513
514 Severity   : enhancement
515 Bugzilla   : 14288
516 Description: Update to RHEL4 U6 kernel-2.6.9-67.EL.
517
518 Severity   : enhancement
519 Bugzilla   : 14368
520 Description: Update to RHEL5 latest kernel-2.6.18-53.1.4.el5.
521
522 Severity   : normal
523 Bugzilla   : 14136
524 Description: make mgs_setparam() handle fsname containing dash
525 Details    : fsname containing a dash does not work with lctl conf_param
526
527 Severity   : enhancement
528 Bugzilla   : 14388
529 Description: Update to SLES10 SP1 latest kernel-2.6.16.54-0.2.3.
530
531 Severity   : enhancement
532 Bugzilla   : 14289
533 Description: Update to RHEL5 Update-1 kernel 2.6.18-53.el5.
534
535 Severity   : major
536 Bugzilla   : 14260
537 Frequency  : rare, at shutdown
538 Description: access already free / zero obd_namespace.
539 Details    : if client_disconnect_export was called without force flag set,
540              and exist connect request in flight, this can produce access to
541              NULL pointer (or already free pointer) when connect_interpret
542              store ocd flags in obd_namespace.
543
544 Severity   : minor
545 Bugzilla   : 14418
546 Frequency  : only at startup
547 Description: not alloc memory with spinlock held.
548 Details    : allocation memory with GFP_KERNEL can produce sleep deadlock,
549              if any spinlock held.
550
551 Severity   : enhancement
552 Bugzilla   : 12211
553 Description: make lustre randomly fail allocating memory
554 Details    : Make lustre randomly failed allocating memory for testing purpose.
555
556 Severity   : enhancement
557 Bugzilla   : 12702
558 Description: lost problems with lov objid file
559 Details    : Fixes some scability and access to not inited memory problems
560              in work with lov objdid file.
561
562 Severity   : major
563 Frequency  : always
564 Bugzilla   : 14270
565 Description: lfs find does not continue on file error
566 Details    : Continue other files processing when a file/dir is absent.
567
568 Severity   : normal
569 Bugzilla   : 11791
570 Description: Inconsistent usage of lustre_pack_reply()
571 Details    : Standardize the usage of lustre_pack_reply() such that it
572              always generate a CERROR on failure.
573
574 Severity   : major
575 Frequency  : occasional
576 Bugzilla   : 13917
577 Description: MDS hang or stay in waiting lock
578 Details    : If client receive lock with CBPENDING flag ldlm need send lock
579              cancel as separate rpc, to avoid situation when cancel request
580              can't processed due all i/o threads stay in wait lock.
581
582 Severity   : normal
583 Bugzilla   : 13969
584 Description: Update to RHEL5 kernel 2.6.18-8.1.15.el5.
585
586 Severity   : normal
587 Bugzilla   : 13874
588 Description: Update to SLES10 SP1 kernel 2.6.16.53-0.16
589
590 Severity   : normal
591 Bugzilla   : 13889
592 Description: Update to SLES9 kernel-2.6.5-7.287.3.
593
594 Severity   : normal
595 Bugzilla   : 14041
596 Description: Update to RHEL4 latest kernel.
597
598 Severity   : enhancement
599 Bugzilla   : 13690
600 Description: Build SLES10 patchless client fails
601 Details    : The configure was broken by run ./configure with
602              --with-linux-obj=.... argument for patchless client. When the
603              configure use --with-linux-obj, the LINUXINCLUDE= -Iinclude
604              can't search header adequately. Use absolute path such as
605              -I($LINUX)/include instead.
606
607 Severity   : normal
608 Bugzilla   : 13888
609 Description: interrupt oig_wait produce painc on resend.
610 Details    : brw_redo_request can be used for resend requests from ptlrpcd and
611              private set, and this produce situation when rq_ptlrpcd_data not
612              copyed to new allocated request and triggered LBUG on assert
613              req->rq_ptlrpcd_data != NULL. But this member used only for wakeup
614              ptlrpcd set if request is changed and can be safety changed to use
615              rq_set directly.
616
617 Severity   : normal
618 Bugzilla   : 13497
619 Description: LASSERT_{REQ,REP}SWAB macros are buggy
620 Details    : If SWAB_PARANOIA is disabled, the LASSERT_REQSWAB and
621              LASSERT_REPSWAB macros become no-ops, which is incorrect. Drop
622              these macros and replace them with their difinitions instead.
623
624 Severity   : normal
625 Bugzilla   : 13521
626 Description: Update kernel patches for SLES10 2.6.16.53-0.8.
627 Details    : Update which_patch & target file for SLES10 latest kernel.
628
629 Bugzilla   : 12411
630 Description: Remove client patches from SLES 10 kernel.
631 Details    : This causes SLES 10 clients to behave as patchless clients
632              even on a Lustre-patched (server) kernel.
633
634 Severity   : enhancement
635 Bugzilla   : 2262
636 Description: self-adjustable client's lru lists
637 Details    : use adaptive algorithm for managing client cached locks lru
638              lists according to current server load, other client's work
639              pattern, memory activities, etc. Both, server and client
640              side namespaces provide number of proc tunables for controlling
641              things
642
643 Severity   : enhancement
644 Bugzilla   : 13641
645 Description: light-weight GSS support
646 Details    : Support krb5n and krb5a mode, which keep Kerberos 5 authentication
647              and reduce performance overhead.
648
649 Severity   : enhancement
650 Bugzilla   : 11832
651 Description: Linux keyring support
652 Details    : Support using service of Linux keyring for Lustre GSS internal
653              context refresh/cache mechanism.
654
655 Severity   : normal
656 Bugzilla   : 12186
657 Description: Fix errors in lfs documentation
658 Details    : Fixes man pages
659
660 Severity   : normal
661 Bugzilla   : 12606
662 Description: don't use GFP_* in generic Lustre code.
663 Details    : Use cfs_alloc_* functions and CFS_* flags for code portability.
664
665 Severity   : normal
666 Bugzilla   : 12333
667 Description: obdclass is limited by single OBD_ALLOC(idarray)
668 Details    : replace OBD_ALLOC/OBD_FREE with OBD_VMALLOC/OBD_VFREE
669
670 Severity   : normal
671 Bugzilla   : 13006
672 Description: warnings with build patchless client with vanila 2.6.19 and up
673 Details    : change old ctl_table style and replace ctl_table/ctl_table_header
674              with cfs_sysctl_table_t/cfs_sysctl_table_header_t
675
676 Severity   : normal
677 Bugzilla   : 13177
678 Frequency  : Only for SLES
679 Description: sanity_quota fail test_1
680 Details    : There are multiple occurences of $TSTUSR in SLES's /etc/group
681              file, which makes TSTID[2] inunique.
682
683 Severity   : normal
684 Bugzilla   : 13249
685 Frequency  : Only for SLES9
686 Description: Kernel patches for SLES9 2.6.5-7.286 kernel
687 Details    : Update target/ChangeLog/which_patch .
688
689 Severity   : normal
690 Bugzilla   : 13170
691 Frequency  : Only for test_10 in sanity-quota.sh
692 Description: a bug in quota test code
693 Details    : checking a test flag in a wrong place
694
695 Severity   : normal
696 Bugzilla   : 13171
697 Frequency  : Only for test_13 in sanity-quota.sh
698 Description: a bug in quota test script
699 Details    : shouldn't check overfull allocated quota
700
701 Severity   : normal
702 Bugzilla   : 12955
703 Description: jbd statistics
704 Details    : Port older jbd statistics patch for sles10
705
706 Severity   : enhancement
707 Bugzilla   : 11721
708 Description: Add printing inode info into message about error in writepage.
709
710 Severity   : normal
711 Bugzilla   : 11974
712 Frequency  : Rare
713 Description: reply_lock_interpret crash due to race with it and lock cancel.
714 Details    : Do not replay locks that are being cancelled. Do not reference
715              locks by their address during replay, just by their handle.
716
717 Severity   : normal
718 Bugzilla   : 13103
719 Frequency  : When flocks are used.
720 Description: assertion failure in ldlm_cli_enquque_fini for non NULL lock.
721 Details    : Flock locks might destroy just granted lock if it could be merged
722              with another existing flock, this is done in completion handler,
723              so teach ldlm_cli_enquque_fini that this is a valid case for
724              flock locks.
725
726 Severity   : minor
727 Bugzilla   : 13276
728 Frequency  : rare
729 Description: Oops in read and write path when failing to allocate lock.
730 Details    : Check if lock allocation failed and return error back.
731
732 Severity   : normal
733 Bugzilla   : 11679
734 Description: lstripe command fails for valid OST index
735 Details    : The stripe offset is compared to lov->desc.ld_tgt_count
736              instead of lov->desc.ld_active_tgt_count.
737
738 Severity   : normal
739 Bugzilla   : 12584
740 Description: sanity.sh failed test 103
741 Details    : RHEL mis-interpret setfacl "-X" param, so we won't test setfacl
742              with param "-X".
743
744 Severity   : normal
745 Bugzilla   : 12743
746 Description: df doesn't work properly if diskfs blocksize != 4K
747 Details    : Choose biggest blocksize of OST's as the LOV's blocksize.
748
749 Severity   : normal
750 Bugzilla   : 12836
751 Description: lfs find on -1 stripe looping in lsm_lmm_verify_common()
752 Details    : Avoid lov_verify_lmm_common() on directory with -1 stripe count.
753
754 Severity   : enhancement
755 Bugzilla   : 3055
756 Description: Adaptive timeouts
757 Details    : RPC timeouts adapt to changing server load and network
758              conditions to reduce resend attempts and improve recovery time.
759
760 Severity   : normal
761 Bugzilla   : 12192
762 Description: llapi_file_create() does not allow some changes
763 Details    : add llapi_file_open() that allows specifying the mode and
764              open flags, and also returns an open file handle.
765
766 Severity   : normal
767 Bugzilla   : 11248
768 Description: merge and cleanup kernel patches.
769 Details    : Remove mnt_lustre_list in vfs_intent-2.6-rhel4.patch.
770
771 Severity   : normal
772 Bugzilla   : 10657
773 Description: Add journal checksum support.(Kernel part)
774 Details    : The journal checksum feature adds two new flags i.e
775              JBD2_FEATURE_INCOMPAT_ASYNC_COMMIT and
776              JBD2_FEATURE_COMPAT_CHECKSUM. JBD2_FEATURE_CHECKSUM flag
777              indicates that the commit block contains the checksum for
778              the blocks described by the descriptor blocks. Now commit
779              record can be sent to disk without waiting for descriptor
780              blocks to be written to disk. This behavior is controlled
781              using JBD2_FEATURE_ASYNC_COMMIT flag.
782
783 Severity   : minor
784 Bugzilla   : 12446
785 Description: OSS needs mutliple precreate threads
786 Details    : Add ability to start more than one create thread per OSS.
787
788 Severity   : normal
789 Bugzilla   : 13362
790 Description: Sanity.sh test_65k failed: setstripe should have succeeded
791 Details    : execute lfs setstripe on client
792
793 Severity   : major
794 Bugzilla   : 12223
795 Description: mds_obd_create error creating tmp object
796 Details    : When the user sets quota on root, llog will be affected and can't
797              create files and write files.
798
799 Severity   : normal
800 Frequency  : Always on ia64 patchless client, and possibly others.
801 Bugzilla   : 12826
802 Description: Add EXPORT_SYMBOL check for node_to_cpumask symbol.
803 Details    : This allows the patchless client to be loaded on architectures
804              without this export.
805
806 Severity   : normal
807 Bugzilla   : 13039
808 Description: RedHat Update kernel for RHEL5
809 Details    : Add the kernel config file for RHEL5.
810
811 Severity   : normal
812 Bugzilla   : 13039
813 Description: RedHat Update kernel for RHEL5
814 Details    : Modify the kernel config file more closer RHEL5.
815
816 Severity   : normal
817 Bugzilla   : 13360
818 Description: Build failure against Centos5 (RHEL5)
819 Details    : Define PAGE_SIZE when it isn't present.
820
821 Severity   : minor
822 Bugzilla   : 13363
823 Description: test_7 on sanity-quota.sh can't be used on separate machines
824 Details    : add facet to handle it
825
826 Severity   : normal
827 Bugzilla   : 13030
828 Description: "ll_intent_file_open()) lock enqueue: err: -13" with nfs
829 Details    : with NFS, the anon dentry's parent was set to itself in
830              d_alloc_anon(), so in MDS, we use rec->ur_fid1 to find the
831              corresponding dentry other than use rec->ur_name.
832
833 Severity   : enhancement
834 Bugzilla   : 12786
835 Description: lfs setstripe enhancement
836 Details    : Make lfs setstripe understand 'k', 'm' and 'g' for stripe size.
837
838 Severity   : normal
839 Bugzilla   : 12398
840 Description: enable data checksumming by default
841 Details    : enable checksum by default, allow --disable-checksum
842              configure option and "-o nochecksum" mount option.  Checksums
843              can also be disabled at runtime via $LPROC/osc/*/checksum_pages.
844
845 Severity   : normal
846 Bugzilla   : 11802
847 Description: lustre support for RHEL5
848 Details    : Add support for RHEL5.
849
850 Severity   : normal
851 Bugzilla   : 12459
852 Description: Client eviction due to failover config
853 Details    : after a connection loss, the lustre client should attempt to
854              reconnect to the last active server first before trying the
855              other potential connections.
856
857 Severity   : minor
858 Bugzilla   : 12588
859 Description: when mds and osts use different quota unit(32bit and 64bit),
860              quota will be released repeatly.
861 Details    : void sending multiple quota reqs to mds, which will keep the
862              status between the reqs.
863
864 Severity   : normal
865 Bugzilla   : 13125
866 Description: osts not allocated evenly to files
867 Details    : change the condition to increase offset_idx
868
869 Severity   : critical
870 Frequency  : Always for filesystems larger than 2TB on 32-bit systems.
871 Bugzilla   : 13547
872 Description: Data corruption for OSTs that are formatted larger than 2TB
873              on 32-bit servers.
874 Details    : When generating the bio request for lustre file writes the
875              sector number would overflow a temporary variable before being
876              used for the IO.  The data reads correctly from Lustre (which
877              will overflow in a similar manner) but other file data or
878              filesystem metadata may be corrupted in some cases.
879
880 Severity   : normal
881 Bugzilla   : 11230
882 Description: Tune the kernel for good SCSI performance.
883 Details    : Set the value of /sys/block/{dev}/queue/max_sectors_kb
884              to the value of /sys/block/{dev}/queue/max_hw_sectors_kb
885              in mount_lustre.
886
887 Severity   : cleanup
888 Bugzilla   : 13532
889 Description: rewrite ext2-derived code in obdclass/uuid.c
890 Details    : rewrite inherited code (uuid parsing code from ext2 utils)
891              from scratch preserving functionality.
892
893 Severity   : normal
894 Bugzilla   : 13600
895 Description: "lfs find -obd UUID" prints directories
896 Details    : "lfs find -obd UUID" will return all directory names instead
897              of just file names. It is incorrect because the directories
898              do not reside on the OSTs.
899
900 Severity   : minor
901 Bugzilla   : 2369
902 Description: use i_size_read and i_size_write in 2.6 port
903 Details    : replace inode->i_size access with i_size_read/write()
904
905 Severity   : normal
906 Frequency  : when removing large files
907 Bugzilla   : 13181
908 Description: scheduling issue during removal of large Lustre files
909 Details    : Don't take the BKL in fsfilt_ext3_setattr() for 2.6 kernels.
910              It causes scheduling issues when removing large files (17TB in the
911              present case).
912
913 Severity   : normal
914 Frequency  : only with liblustre clients on XT3
915 Bugzilla   : 12418
916 Description: evictions taking too long
917 Details    : allow llrd to evict clients directly on OSTs
918
919 Severity   : normal
920 Frequency  : only on ppc
921 Bugzilla   : 12234
922 Description: /proc/fs/lustre/devices broken on ppc
923 Details    : The patch as applied to 1.6.2 doesn't look correct for all arches.
924              We should make sure the type of 'index' is loff_t and then cast
925              explicitly as needed below.  Do not assign an explicitly cast
926              loff_t to an int.
927
928 Severity   : normal
929 Frequency  : only for rhel5
930 Bugzilla   : 13616
931 Description: Kernel patches update for RHEL5 2.6.18-8.1.10.el5.
932 Details    : Modify the target file & which_kernel.
933
934 Severity   : enhancement
935 Bugzilla   : 10786
936 Description: omit set fsid for export NFS
937 Details    : fix set/restore device id for avoid EMFILE error and mark lustre fs
938              as FS_REQUIRES_DEV for avoid problems with generate fsid.
939
940 Severity   : normal
941 Bugzilla   : 13304
942 Frequency  : Always, for kernels after 2.6.16
943 Description: Fix warning idr_remove called for id=.. which is not allocated.
944 Details    : Last kernels save old s_dev before kill super and not allow
945              to restore from callback - restore it before call kill_anon_super.
946
947 Severity   : minor
948 Bugzilla   : 12948
949 Description: buffer overruns could theoretically occur
950 Details    : llapi_semantic_traverse() modifies the "path" argument by
951              appending values to the end of the origin string, and a
952              overrun may occur. Adding buffer overrun check in liblustreapi.
953
954 Severity   : normal
955 Bugzilla   : 13334
956 Description: Fix error on 'ls .' at the top of the Lustre mount.
957 Details    : Don't revalidate dentry if it is a root dentry.
958
959 Severity   : normal
960 Bugzilla   : 13518
961 Description: Kernel patches update for RHEL4 2.6.9-55.0.6.
962 Details    : Modify vm-tunables-rhel4.patch.
963
964 Severity   : normal
965 Bugzilla   : 13452
966 Description: Kernel config for 2.6.18-vanilla.
967 Details    : Modify targets/2.6-vanilla.target.in.
968              Add config file kernel-2.6.18-2.6-vanilla-i686.config.
969              Add config file kernel-2.6.18-2.6-vanilla-i686-smp.config.
970              Add config file kernel-2.6.18-2.6-vanilla-x86_64.config.
971              Add config file kernel-2.6.18-2.6-vanilla-x86_64-smp.config.
972
973 Severity   : major
974 Bugzilla   : 11710
975 Description: improve handling recoverable errors
976 Details    : if request processig with error which can be recoverable on server
977              request should be resend, otherwise page released from cache and
978              marked as error.
979
980 Severity   : critical
981 Bugzilla   : 13751
982 Description: Kernel patches update for RHEL5 2.6.18-8.1.14.el5.
983 Details    : Modify target file & which_patch.
984              A flaw was found in the IA32 system call emulation provided
985              on AMD64 and Intel 64 platforms. An improperly validated 64-bit
986              value could be stored in the %RAX register, which could trigger an
987              out-of-bounds system call table access. An untrusted local user
988              could exploit this flaw to run code in the kernel
989              (ie a root privilege escalation). (CVE-2007-4573).
990
991 Severity   : major
992 Bugzilla   : 13093
993 Description: O_DIRECT bypasses client statistics.
994 Details    : When running with O_DIRECT I/O, neither the client rpc_stats nor
995              read_ahead_stats were updated. copied the stats section from
996              osc_send_oap_rpc() into async_internal().
997
998 Severity   : normal
999 Bugzilla   : 13454
1000 Description: Add jbd statistics patch for RHEL5 and 2.6.18-vanilla
1001
1002 Severity   : minor
1003 Bugzilla   : 13732
1004 Description: change order of libsysio includes
1005 Details    : '#include sysio.h' should always come before '#include xtio.h'
1006
1007 Severity   : normal
1008 Bugzilla   : 11673
1009 Description: handle "serious error: objid * already exists" more gracefully
1010 Details    : If LAST_ID value on disk is smaller than the objects existing in
1011              the O/0/d* directories, it indicates disk corruption and causes an
1012              LBUG(). If the object is 0-length, then we should use the existing
1013              object. This will help to avoid a full fsck in most cases.
1014
1015 Severity   : enhancement
1016 Bugzilla   : 13207
1017 Description: adapt the lustre_config script to support the upgrade case
1018 Details    : Add "-u" option for lustre_config script to support upgrading 1.4
1019              server targets to 1.6 in parallel.
1020
1021 Severity   : normal
1022 Bugzilla   : 13570
1023 Description: To avoid grant space > avaible space when the disk is almost
1024              full. Without this patch you might see the error "grant XXXX >
1025              available" or some LBUG about grant, when the disk is almost
1026              full.
1027 Details    : In filter_check_grant, for non_grant cache write, we should
1028              check the left space by  if (*left > ungranted + bytes), instead
1029              of (*left > ungranted), because only we are sure the left space
1030              is enough for another "bytes", then the ungrant space should be
1031              increase. In client, we should update cl_avail_grant only there
1032              is OBD_MD_FLGRANT in the reply.
1033
1034 Severity   : critical
1035 Bugzilla   : 13748
1036 Description: Update RHEL 4 kernel to fix local root privilege escalation.
1037 Details    : Update to the latest RHEL 4 kernel to fix the vulnerability
1038              described in CVE-2007-4573.  This problem could allow untrusted
1039              local users to gain root access.
1040
1041 Severity   : normal
1042 Frequency  : when using O_DIRECT and quotas
1043 Bugzilla   : 13930
1044 Description: Incorrect file ownership on O_DIRECT output files
1045 Details    : block usage reported by 'lfs quota' does not take into account
1046              files that have been written with O_DIRECT.
1047
1048 Severity   : normal
1049 Frequency  : always
1050 Bugzilla   : 13976
1051 Description: touch file failed when fs is not full
1052 Details    : OST in recovery should not be discarded by MDS in alloc_qos(),
1053              otherwise we can get ENOSP while fs is not full.
1054
1055 Severity   : normal
1056 Bugzilla   : 11301
1057 Description: parallel lock callbacks
1058 Details    : Instead of sending blocking and completion callbacks as separated
1059              requests, adding them to a set and sending in parallel.
1060
1061 Severity   : normal
1062 Frequency  : only for Cray XT3
1063 Bugzilla   : 12829/13455
1064 Description: Changing primary group doesn't change the group lustre assigns to
1065              a file
1066 Details    : When CRAY_XT3 is defined, the fsgid supplied by the client is
1067              overridden with the primary group provided by the group upcall,
1068              whereas the supplied fsgid can be trusted if it is in the list of
1069              supplementary groups returned by the group upcall.
1070
1071 Severity   : enhancement
1072 Bugzilla   : 14398
1073 Description: Allow masking D_WARNING, D_ERROR messages from console
1074 Details    : Console messages can now be disabled via lnet.printk.
1075
1076 Severity   : normal
1077 Bugzilla   : 14614
1078 Description: User code with malformed file open parameter crashes client node
1079 Details    : Before packing join_file req, all the related reference should be
1080              checked carefully in case some malformed flags cause fake
1081              join_file req on client.
1082
1083 Severity   : normal
1084 Bugzilla   : 14225
1085 Description: LDLM_ENQUEUE races with LDLM_CP_CALLBACK
1086 Details    : ldlm_completion_ast() assumes that a lock is granted when the req
1087              mode is equal to the granted mode. However, it should also check
1088              that LDLM_FL_CP_REQD is not set.
1089
1090 Severity   : normal
1091 Bugzilla   : 14360
1092 Description: Heavy nfs access might result in deadlocks
1093 Details    : After ELC code landed, it is now improper to enqueue any mds
1094              locks under och_sem, because enqueue might want to decide to
1095              cancel open locks for same inode we are holding och_sem for.
1096
1097 Severity   : normal
1098 Bugzilla   : 13843
1099 Description: Client eviction while running blogbench
1100 Details    : A lot of unlink operations with concurrent I/O can lead to a
1101              deadlock causing evictions. To address the problem, the number of
1102              oustanding OST_DESTROY requests is now throttled to
1103              max_rpcs_in_flight per OSC and LDLM_FL_DISCARD_DATA blocking
1104              callbacks are processed in priority.
1105
1106 Severity   : normal
1107 Bugzilla   : 13829
1108 Description: enable ACLs on MDS by default
1109 Details    : ACLs must be enabled on MDS by default.
1110
1111 Severity   : normal
1112 Frequency  : PPC/PPC64 only
1113 Bugzilla   : 14845
1114 Description: conflicts between asm-ppc64/types.h and lustre_types.h
1115 Details    : fix duplicated definitions between asm-ppc64/types.h and
1116              lustre_types.h on PPC.
1117
1118 Severity   : normal
1119 Frequency  : PPC/PPC64 only
1120 Bugzilla   : 14844
1121 Description: asm-ppc/segment.h does not exist
1122 Details    : fix compile issue on PPC.
1123
1124 Severity   : normal
1125 Bugzilla   : 14864
1126 Description: better handle error messages in extents code
1127
1128 Severity   : normal
1129 Frequency  : RHEL4 only
1130 Bugzilla   : 14618
1131 Description: mkfs is very slow on IA64/RHEL4
1132 Details    : A performance regression has been discovered in the MPT Fusion
1133              driver between versions 3.02.73rh and 3.02.99.00rh. As a
1134              consequence, we have downgraded the MPT Fusion driver in the RHEL4
1135              kernel from 3.02.99.00 to 3.02.73 until this problem is fixed.
1136
1137 Severity   : enhancement
1138 Bugzilla   : 14729
1139 Description: SNMP support enhancement
1140 Details    : Adding total number of sampled request for an MDS node in snmp
1141              support.
1142
1143 Severity   : enhancement
1144 Bugzilla   : 14748
1145 Description: Optimize ldlm waiting list processing for PR extent locks
1146 Details    : When processing waiting list for read extent lock and meeting read
1147              lock that is same or wider to it that is not contended, skip
1148              processing rest of the list and immediatelly return current
1149              status of conflictness, since we are guaranteed there are no
1150              conflicting locks in the rest of the list.
1151
1152 Severity   : normal
1153 Bugzilla   : 14774
1154 Description: Time out and refuse to reconnect
1155 Details    : When the failover node is the primary node, it is possible
1156              to have two identical connections in imp_conn_list. We must
1157              compare not conn's pointers but NIDs, otherwise we can defeat
1158              connection throttling.
1159
1160 Severity   : normal
1161 Bugzilla   : 13821
1162 Description: port llog fixes from b1_6 into HEAD
1163 Details    : Port llog reference couting and some llog cleanups from b1_6
1164              (bug 10800) into HEAD, for protect from panic and access to already
1165              free llog structures.
1166
1167 Severity   : normal
1168 Bugzilla   : 14483
1169 Description: Detect stride IO mode in read-ahead
1170 Details    : When a client does stride read, read-ahead should detect that and
1171              read-ahead pages according to the detected stride pattern.
1172
1173 Severity   : normal
1174 Bugzilla   : 13805
1175 Description: data checksumming impacts single node performance
1176 Details    : add support for several checksum algorithm. Currently, only CRC32
1177              and Adler-32 are supported. The checksum type can be changed on
1178              the fly via /proc/fs/lustre/osc/*/checksum_type.
1179
1180 Severity   : normal
1181 Bugzilla   : 14648
1182 Description: use adler32 for page checksums
1183 Details    : when available, use the Adler-32 algorithm instead of CRC32 for
1184              page checksums.
1185
1186 Severity   : normal
1187 Bugzilla   : 15033
1188 Description: build for x2 fails
1189 Details    : fix compile issue on Cray systems.
1190
1191 Severity   : normal
1192 Bugzilla   : 14379
1193 Description: Properly match for duplicate locks
1194 Details    : Due to different lock order from skiplists code, we need to
1195              traverse entire list for now
1196
1197 Severity   : normal
1198 Frequency  : only on PPC/SLES10
1199 Bugzilla   : 14855
1200 Description: "BITS_PER_LONG is not 32 or 64" in linux/idr.h
1201 Details    : On SLES10/PPC, fs.h includes idr.h which requires BITS_PER_LONG to
1202              be defined. Add a hack in mkfs_lustre.c to work around this compile
1203              issue.
1204
1205 Severity   : normal
1206 Bugzilla   : 14257
1207 Description: LASSERT on MDS when client holding flock lock dies
1208 Details    : ldlm pool logic depends on number of granted locks equal to
1209              number of released locks which is not true for flock locks, so
1210              just exclude such locks from consideration.
1211
1212 Severity   : normal
1213 Bugzilla   : 15188
1214 Description: MDS deadlock with many ll_sync_lov threads and I/O stalled
1215 Details    : Use fsfilt_sync() for both the whole filesystem sync and
1216              individual file sync to eliminate dangerous inode locking
1217              with I_LOCK that can lead to a deadlock.
1218
1219 Severity   : normal
1220 Bugzilla   : 14410
1221 Description: performance in 1.6.3
1222 Details    : Force q->max_phys_segments to MAX_PHYS_SEGMENTS on SLES10 to be
1223              sure that 1MB requests are not fragmented by the block layer.
1224
1225 Severity   : enhancement
1226 Bugzilla   : 11089
1227 Description: organize the server-side client stats on per-nid basis
1228 Details    : Change the structure of stats under obdfilter and mds to
1229              New structure:
1230                 +- exports
1231                         +- nid#1
1232                         |   + stats
1233                         |   + uuids
1234                         +- nid#2...
1235                         +- clear
1236              The "uuid"s file would list the uuids of _active_ exports.
1237              And the clear entry is to clear all stats and stale nids.
1238
1239 Severity   : enhancement
1240 Bugzilla   : 11270
1241 Description: eliminate client locks in face of contention
1242 Details    : file contention detection and lockless i/o implementation
1243              for contended files.
1244
1245 Severity   : normal
1246 Bugzilla   : 15212
1247 Description: Reinitialize optind to 0 so that interactive lfs works in all cases
1248
1249 Severity   : critical
1250 Frequency  : very rare, if additional xattrs are used on kernels >= 2.6.12
1251 Bugzilla   : 15777
1252 Description: MDS may lose file striping (and hence file data) in some cases
1253 Details    : If there are additional extended attributes stored on the MDS,
1254              in particular ACLs, SELinux, or user attributes (if user_xattr
1255              is specified for the client mount options) then there is a risk
1256              of attribute loss.  Additionally, the Lustre file striping
1257              needs to be larger than default (e.g. striped over all OSTs),
1258              and an additional attribute must be stored initially in the
1259              inode and then increase in size enough to be moved to the
1260              external attribute block (e.g. ACL growing in size) for file
1261              data to be lost.
1262
1263 Severity   : normal
1264 Bugzilla   : 15346
1265 Description: skiplist implementation simplification
1266 Details    : skiplists are used to group compatible locks on granted list
1267              that was implemented as tracking first and last lock of each
1268              lock group the patch changes that to using doubly linked lists
1269
1270 Severity   : normal
1271 Bugzilla   : 15574
1272 Description: MDS LBUG: ASSERTION(!IS_ERR(dchild))
1273 Details    : Change LASSERTs to client eviction (i.e. abort client's recovery)
1274              because LASSERT on both the data supplied by a client, and the
1275              data on disk is dangerous and incorrect.
1276
1277 Severity   : enhancement
1278 Bugzilla   : 10718
1279 Description: Slow truncate/writes to huge files at high offsets.
1280 Details    : Directly associate cached pages to lock that protect those pages,
1281              this allows us to quickly find what pages to write and remove
1282              once lock callback is received.
1283
1284 Severity   : normal
1285 Bugzilla   : 15953
1286 Description: more ldlm soft lockups
1287 Details    : In ldlm_resource_add_lock(), call to ldlm_resource_dump()
1288              starve other threads from the resource lock for a long time in
1289              case of long waiting queue, so change the debug level from
1290              D_OTHER to the less frequently used D_INFO.
1291
1292 Severity   : enhancement
1293 Bugzilla   : 13128
1294 Description: add -gid, -group, -uid, -user options to lfs find
1295
1296 Severity   : normal
1297 Bugzilla   : 15950
1298 Description: Hung threads in invalidate_inode_pages2_range
1299 Details    : The direct IO path doesn't call check_rpcs to submit a new RPC once
1300              one is completed. As a result, some RPCs are stuck in the queue
1301              and are never sent.
1302
1303 Severity   : normal
1304 Bugzilla   : 14629
1305 Description: filter threads hungs on waiting journal commit
1306 Details    : Cleanup filter group llog code, then only filter group llog will
1307              be only created in the MDS/OST syncing process.
1308
1309 Severity   : normal
1310 Bugzilla   : 15684
1311 Description: Procfs and llog threads access destoryed import sometimes.
1312 Details    : Sync the import destoryed process with procfs and llog threads by
1313              the import refcount and semaphore.
1314
1315 Severity   : enhancement
1316 Bugzilla   : 14975
1317 Description: openlock cache of b1_6 port to HEAD
1318
1319 Severity   : major
1320 Frequncy   : rare
1321 Bugzilla   : 16226
1322 Description: kernel BUG at ldiskfs2_ext_new_extent_cb
1323 Details    : If insertion of an extent fails, then discard the inode
1324              preallocation and free data blocks else it can lead to duplicate
1325              blocks.
1326
1327 Severity   : normal
1328 Bugzilla   : 16199
1329 Description: don't always update ctime in ext3_xattr_set_handle()
1330 Details    : Current xattr code updates the inode ctime in ext3_xattr_set_handle.
1331              In some cases the ctime should not be updated, for example for
1332              2.0->1.8 compatibility it is necessary to delete an xattr and it
1333              should not update the ctime.
1334
1335 Severity   : major
1336 Frequency  : rare
1337 Bugzilla   : 15713/16362
1338 Description: Assertion in iopen_connect_dentry in 1.6.3
1339 Details    : looking up an inode via iopen with the wrong generation number can
1340              populate the dcache with a disconneced dentry while the inode
1341              number is in the process of being reallocated. This causes an
1342              assertion failure in iopen since the inode's dentry list contains
1343              both a connected and disconnected dentry.
1344
1345 Severity   : normal
1346 Bugzilla   : 16496
1347 Description: assertion failure in ldlm_handle2lock()
1348 Details    : fix a race between class_handle_unhash() and class_handle2object()
1349              introduced in lustre 1.6.5 by bug 13622.
1350
1351 Severity   : minor
1352 Frequency  : rare
1353 Bugzilla   : 12755
1354 Description: Kernel BUG: sd_iostats_bump: unexpected disk index
1355 Details    : remove the limit of 256 scsi disks in the sd_iostat patch
1356
1357 Severity   : minor
1358 Frequency  : rare
1359 Bugzilla   : 16494
1360 Description: oops in sd_iostats_seq_show()
1361 Details    : unloading/reloading the scsi low level driver triggers a kernel
1362              bug when trying to access the sd iostat file.
1363
1364 Severity   : major
1365 Frequency  : rare
1366 Bugzilla   : 16404
1367 Description: Kernel panics during QLogic driver reload
1368 Details    : REQ_BLOCK_PC requests are not handled properly in the sd iostat
1369              patch, causing memory corruption.
1370
1371 Severity   : minor
1372 Frequency  : rare
1373 Bugzilla   : 16140
1374 Description: journal_dev option does not work in b1_6
1375 Details    : pass mount option during pre-mount.
1376
1377 Severity   : enhancement
1378 Bugzilla   : 10555
1379 Description: Add a FIEMAP(FIle Extent MAP) ioctl
1380 Details    : FIEMAP ioctl will allow an application to efficiently fetch the
1381              extent information of a file. It can be used to map logical blocks
1382              in a file to physical blocks in the block device.
1383
1384 Severity   : normal
1385 Bugzilla   : 15198
1386 Description: LDLM soft lockups - improvement
1387 Details    : It is be possible to send the lock handle along with each read
1388              or write request because the client is already doing a lock match
1389              itself so there isn't any reason the OST should have to re-do that
1390              search.
1391
1392 Severity   : normal
1393 Frequency  : only X2
1394 Bugzilla   : 16813
1395 Description: X2 build failures
1396 Details    : fix build failures on Cray X2.
1397
1398 --------------------------------------------------------------------------------
1399
1400 2007-08-10         Cluster File Systems, Inc. <info@clusterfs.com>
1401        * version 1.6.1
1402        * Support for kernels:
1403         2.6.5-7.283 (SLES 9),
1404         2.6.9-55.EL (RHEL 4),
1405         2.6.16.46-0.14 (SLES 10),
1406         2.6.18.8 vanilla (kernel.org)
1407        * Client support for unpatched kernels:
1408         (see http://wiki.lustre.org/index.php?title=Patchless_Client)
1409         2.6.16 - 2.6.22 vanilla (kernel.org)
1410        * Due to recently discovered recovery problems, we do not recommend
1411         using patchless RHEL 4 clients with this or any earlier release.
1412        * Recommended e2fsprogs version: 1.39.cfs8
1413        * Note that reiserfs quotas are disabled on SLES 10 in this kernel.
1414        * Starting with this release, the ldiskfs backing filesystem required
1415         by Lustre is now in its own package, lustre-ldiskfs.  This package
1416         should be installed.  It is versioned separately from Lustre and
1417         may be released separately in future.
1418
1419 Severity   : minor
1420 Bugzilla   : 13147
1421 Description: block reactivating mgc import until all deactivates complete
1422 Details    : Fix race when failing back MDT/MGS to itself (testing)
1423
1424 Severity   : minor
1425 Frequency  : at statup only
1426 Bugzilla   : 12860
1427 Description: mds_lov_synchronize race leads to various problems
1428 Details    : simultaneous MDT->OST connections at startup can cause the
1429              sync to abort, leaving the OSC in a bad state.
1430
1431 Severity   : enhancement
1432 Bugzilla   : 12194
1433 Description: add optional extra BUILD_VERSION info
1434 Details    : add a new environment variable (namely LUSTRE_VERS) which allows
1435              to override the lustre version.
1436
1437 Severity   : normal
1438 Frequency  : 2.6.18 servers only
1439 Bugzilla   : 12546
1440 Description: ll_kern_mount() doesn't release the module reference
1441 Details    : The ldiskfs module reference count never drops down to 0
1442              because ll_kern_mount() doesn't release the module reference.
1443
1444 Severity   : normal
1445 Frequency  : rare
1446 Bugzilla   : 12470
1447 Description: server LBUG when using old ost_num_threads parameter
1448 Details    : Accept the old ost_num_threads parameter but warn that it
1449              is deprecated, and fix an off-by-one error that caused an LBUG.
1450
1451 Severity   : normal
1452 Frequency  : rare
1453 Bugzilla   : 11722
1454 Description: Transient SCSI error results in persistent IO issue
1455 Details    : iobuf->dr_error is not reinitialized to 0 between two
1456              uses.
1457
1458 Severity   : normal
1459 Frequency  : sometimes when underlying device returns I/O errors
1460 Bugzilla   : 11743
1461 Description: OSTs not going read-only during write failures
1462 Details    : OSTs are not remounted read-only when the journal commit threads
1463              get I/O errors because fsfilt_ext3 calls journal_start/stop()
1464              instead of the ext3 wrappers.
1465
1466 Severity   : minor
1467 Bugzilla   : 12364
1468 Description: poor connect scaling with increasing client count
1469 Details    : Don't run filter_grant_sanity_check for more than 100 exports
1470              to improve scaling for large numbers of clients.
1471
1472 Severity   : normal
1473 Frequency  : SLES10 only
1474 Bugzilla   : 12538
1475 Description: sanity-quota.sh quotacheck failed: rc = -22
1476 Details    : Quotas cannot be enabled on SLES10.
1477
1478 Severity   : normal
1479 Frequency  : liblustre clients only
1480 Bugzilla   : 12229
1481 Description: getdirentries does not give error when run on compute nodes
1482 Details    : getdirentries does not fail when the size specified as an argument
1483              is too small to contain at least one entry
1484
1485 Severity   : enhancement
1486 Bugzilla   : 11548
1487 Description: Add LNET router traceability for debug purposes
1488 Details    : If a checksum failure occurs with a router as part of the
1489              IO path, the NID of the last router that forwarded the bulk data
1490              is printed so it can be identified.
1491
1492 Severity   : normal
1493 Frequency  : rare
1494 Bugzilla   : 11315
1495 Description: OST "spontaneously" evicts client; client has imp_pingable == 0
1496 Details    : Due to a race condition, liblustre clients were occasionally
1497              evicted incorrectly.
1498
1499 Severity   : enhancement
1500 Bugzilla   : 10997
1501 Description: lfs setstripe use optional parameters instead of postional
1502              parameters.
1503
1504 Severity   : enhancement
1505 Bugzilla   : 10651
1506 Description: Nanosecond timestamp support for ldiskfs
1507 Details    : The on-disk ldiskfs filesystem has added support for nanosecond
1508              resolution timestamps.  There is not yet support for this at
1509              the Lustre filesystem level.
1510
1511 Severity   : normal
1512 Frequency  : during server recovery
1513 Bugzilla   : 11203
1514 Description: MDS failing to send precreate requests due to OSCC_FLAG_RECOVERING
1515 Details    : request with rq_no_resend flag not awake l_wait_event if they get a
1516              timeout.
1517
1518 Severity   : minor
1519 Frequency  : nfs export on patchless client
1520 Bugzilla   : 11970
1521 Description: connectathon hang when test nfs export over patchless client
1522 Details    : Disconnected dentry cannot be found with lookup, so we do not need
1523              to unhash it or make it invalid
1524
1525 Bugzilla   : 11757
1526 Description: fix llapi_lov_get_uuids() to allow many OSTs to be returned
1527 Details:   : Change llapi_lov_get_uuids() to read the UUIDs from /proc instead
1528              of using an ioctl. This allows lfsck for > 160 OSTs to succeed.
1529
1530 Severity   : minor
1531 Frequency  : rare
1532 Bugzilla   : 11546
1533 Description: open req refcounting wrong on reconnect
1534 Details    : If reconnect happened between getting open reply from server and
1535              call to mdc_set_replay_data in ll_file_open, we will schedule
1536              replay for unreferenced request that we are about to free.
1537              Subsequent close will crash in variety of ways.
1538              Check that request is still eligible for replay in
1539              mdc_set_replay_data().
1540
1541 Severity   : minor
1542 Frequency  : rare
1543 Bugzilla   : 11512
1544 Description: disable writes to filesystem when reading health_check file
1545 Details    : the default for reading the health_check proc file has changed
1546              to NOT do a journal transaction and write to disk, because this
1547              can cause reads of the /proc file to hang and block HA state
1548              checking on a healthy but otherwise heavily loaded system.  It
1549              is possible to return to the previous behaviour during configure
1550              with --enable-health-write.
1551
1552 Severity   : enhancement
1553 Bugzilla   : 10768
1554 Description: 64-bit inode version
1555 Details:   : Add a on-disk 64-bit inode version for ext3 to track changes made
1556              to the inode. This will be required for version-based recovery.
1557
1558 Severity   : normal
1559 Frequency  : rare
1560 Bugzilla   : 11818
1561 Description: MDS fails to start if a duplicate client export is detected
1562 Details    : in some rare cases it was possible for a client to connect to
1563              an MDS multiple times.  Upon recovery the MDS would detect this
1564              and fail during startup.  Handle this more gracefully.
1565
1566 Severity   : enhancement
1567 Bugzilla   : 11563
1568 Description: Add -o localflock option to simulate  old noflock
1569 behaviour.
1570 Details    : This will achieve local-only flock/fcntl locks
1571              coherentness.
1572
1573 Severity   : minor
1574 Frequency  : rare
1575 Bugzilla   : 11658
1576 Description: log_commit_thread vs filter_destroy race leads to crash
1577 Details    : Take import reference before releasing llog record semaphore
1578
1579 Severity   : normal
1580 Frequency  : rare
1581 Bugzilla   : 12477
1582 Description: Wrong request locking in request set processing
1583 Details    : ptlrpc_check_set wrongly uses req->rq_lock for proctect add to
1584              imp_delayed_list, in this place should be used imp_lock.
1585
1586 Severity   : normal
1587 Frequency  : when reconnection
1588 Bugzilla   : 11662
1589 Description: Grant Leak when osc reconnect to OST
1590 Details    : When osc reconnect ost, OST(filter) should check whether it
1591              should grant more space to client by comparing fed_grant and
1592              cl_avail_grant, and return the granted space to client instead
1593              of "new granted" space, because client will call osc_init_grant
1594              to update the client grant space info.
1595
1596 Severity   : normal
1597 Frequency  : when client reconnect to OST
1598 Bugzilla   : 11662
1599 Description: Grant Leak when osc do resend and replay bulk write
1600 Details    : When osc reconnect to OST, OST(filter)should clear grant info of
1601              bulk write request, because the grant info while be sync between
1602              OSC and OST when reconnect, and we should ignore the grant info
1603              these of resend/replay write req.
1604
1605 Severity   : normal
1606 Frequency  : rare
1607 Bugzilla   : 11662
1608 Description: Grant space more than avaiable left space sometimes.
1609 Details    : When then OST is about to be full, if two bulk writing from
1610              different clients came to OST. Accord the avaliable space of the
1611              OST, the first req should be permitted, and the second one
1612              should be denied by ENOSPC. But if the seconde arrived before
1613              the first one is commited. The OST might wrongly permit second
1614              writing, which will cause grant space > avaiable space.
1615
1616 Severity   : normal
1617 Frequency  : when client is evicted
1618 Bugzilla   : 12371
1619 Description: Grant might be wrongly erased when osc is evicted by OST
1620 Details    : when the import is evicted by server, it will fork another
1621              thread ptlrpc_invalidate_import_thread to invalidate the
1622              import, where the grant will be set to 0.  While the original
1623              thread will update the grant it got when connecting. So if
1624              the former happened latter, the grant will be wrongly errased
1625              because of this race.
1626
1627 Severity   : normal
1628 Frequency  : rare
1629 Bugzilla   : 12401
1630 Description: Checking Stale with correct fid
1631 Details    : ll_revalidate_it should uses de_inode instead of op_data.fid2
1632              to check whether it is stale, because sometimes, we want the
1633              enqueue happened anyway, and op_data.fid2 will not be initialized.
1634
1635 Severity   : enhancement
1636 Bugzilla   : 11647
1637 Description: update patchless client
1638 Details    : Add support for patchless client with 2.6.20, 2.6.21 and RHEL 5
1639
1640 Severity   : normal
1641 Frequency  : only with 2.4 kernel
1642 Bugzilla   : 12134
1643 Description: random memory corruption
1644 Details    : size of struct ll_inode_info is to big for union inode.u and this
1645              can be cause of random memory corruption.
1646
1647 Severity   : normal
1648 Frequency  : rare
1649 Bugzilla   : 10818
1650 Description: Memory leak in recovery
1651 Details    : Lov_mds_md was not free in an error handler in mds_create_object.
1652              It should also check obd_fail before fsfilt_start, otherwise if
1653              fsfilt_start return -EROFS,(failover mds during mds recovery).
1654              then the req will return with repmsg->transno = 0 and rc = EROFS.
1655              and we met hit the assert LASSERT(req->rq_reqmsg->transno ==
1656              req->rq_repmsg->transno) in ptlrpc_replay_interpret.  Fcc should
1657              be freed no matter whether fsfilt_commit success or not.
1658
1659 Severity   : minor
1660 Frequency  : only with huge count clients
1661 Bugzilla   : 11817
1662 Description: Prevents from taking the superblock lock in llap_from_page for
1663              a soon died page.
1664 Details    : using LL_ORIGIN_REMOVEPAGE origin flag instead of LL_ORIGIN_UNKNOW
1665              for llap_from_page call in ll_removepage prevents from taking the
1666              superblock lock for a soon died page.
1667
1668 Severity   : normal
1669 Frequency  : rare
1670 Bugzilla   : 11935
1671 Description: Not check open intent error before release open handle
1672 Details    : in some rare cases, the open intent error is not checked before
1673              release open handle, which may cause
1674              ASSERTION(open_req->rq_transno != 0), because it tries to release
1675              the failed open handle.
1676
1677 Severity   : normal
1678 Frequency  : rare
1679 Bugzilla   : 12556
1680 Description: Set cat log bitmap only after create log success.
1681 Details    : in some rare cases, the cat log bitmap is set too early. and it
1682              should be set only after create log success.
1683
1684 Severity   : major
1685 Bugzilla   : 11971
1686 Description: Accessing a block bevice can re-enable I/O when Lustre is
1687              tearing down a device.
1688 Details    : dev_clear_rdonly(bdev) must be called in kill_bdev() instead of
1689              blkdev_put().
1690
1691 Severity   : minor
1692 Bugzilla   : 11706
1693 Description: service threads may hog cpus when there are a lot of requests
1694 Details    : Insert cond_resched to give other threads a chance to use some CPU
1695
1696 Severity   : normal
1697 Frequency  : rare
1698 Bugzilla   : 12086
1699 Description: the cat log was not initialized in recovery
1700 Details    : When mds(mgs) do recovery, the tgt_count might be zero, so the
1701              unlink log on mds will not be initialized until mds post
1702              recovery. And also in mds post recovery, the unlink log will
1703              initialization will be done asynchronausly, so there will be race
1704              between add unlink log and unlink log initialization.
1705
1706 Severity   : normal
1707 Bugzilla   : 12597
1708 Description: brw_stats were being printed incorrectly
1709 Details    : brw_stats were being printed as log2 but all of them were not
1710              recorded as log2. Also remove some code duplication arising from
1711              filter_tally_{read,write}.
1712
1713 Severity   : normal
1714 Bugzilla   : 11674
1715 Frequency  : rare, only in recovery.
1716 Description: ASSERTION(req->rq_type != LI_POISON) failed
1717 Details    : imp_lock should be held while iterating over imp_sending_list for
1718              prevent destroy request after get timeout in ptlrpc_queue_wait.
1719
1720 Severity   : normal
1721 Bugzilla   : 12689
1722 Description: replay-single.sh test 52 fails
1723 Details    : A lock's skiplist need to be cleanup when it being unlinked
1724              from its resource list.
1725
1726 Severity   : normal
1727 Bugzilla   : 11737
1728 Description: Short directio read returns full requested size rather than
1729              actual amount read.
1730 Details    : Direct I/O operations should return actual amount of bytes
1731              transferred rather than requested size.
1732
1733 Severity   : enhancement
1734 Bugzilla   : 10589
1735 Description: metadata RPC reduction (e.g. for rm performance)
1736 Details    : decrease the amount of synchronous RPC between clients and servers
1737              by canceling conflicing lock before the operation on the client
1738              and packing thier handles into the main operation RPC to server.
1739
1740 Severity   : enhancement
1741 Bugzilla   : 4900
1742 Description: Async OSC create to avoid the blocking unnecessarily.
1743 Details    : If a OST has no remain object, system will block on the creating
1744              when need to create a new object on this OST. Now, ways use
1745              pre-created objects when available, instead of blocking on an
1746              empty osc while others are not empty.  If we must block, we block
1747              for the shortest possible period of time.
1748
1749 Severity   : major
1750 Bugzilla   : 11710
1751 Description: improve handling recoverable errors
1752 Details    : if request processig with error which can be recoverable on server
1753              request should be resend, otherwise page released from cache and
1754              marked as error.
1755
1756 Severity   : enhancement
1757 Bugzilla   : 12702
1758 Description: refine locking for avoid write wrong info into lov_objid file
1759 Details    : fix possible races with add new target and write/update data in
1760              lov_objid file.
1761
1762 --------------------------------------------------------------------------------
1763
1764 2007-05-03  Cluster File Systems, Inc. <info@clusterfs.com>
1765        * version 1.6.0.1
1766        * bug fixes
1767
1768 Severity   : normal
1769 Frequency  : on some architectures
1770 Bugzilla   : 12404
1771 Description: 1.6 client sometimes fails to mount from a 1.4 MDT
1772 Details    : Uninitialized flags sometimes cause configuration commands to
1773              be skipped.
1774
1775 Severity   : normal
1776 Frequency  : patchless clients only
1777 Bugzilla   : 12391
1778 Description: missing __iget() symbol export
1779 Details    : The __iget() symbol export is missing.  To avoid the need for
1780              this on patchless clients the deathrow inode reaper is turned
1781              off, and we depend on the VM to clean up old inodes.  This
1782              dependency was during via the fix for bug 12181.
1783         
1784 --------------------------------------------------------------------------------
1785
1786 2007-04-19  Cluster File Systems, Inc. <info@clusterfs.com>
1787        * version 1.6.0
1788        * CONFIGURATION CHANGE.  This version of Lustre WILL NOT
1789          INTEROPERATE with older versions automatically.  In many cases a
1790          special upgrade step is needed. Please read the
1791          user documentation before upgrading any part of a live system.
1792        * WIRE PROTOCOL CHANGE from previous 1.6 beta versions.  This
1793          version will not interoperate with 1.6 betas before beta5 (1.5.95).
1794        * WARNING: Lustre configuration and startup changes are required with
1795          this release.  See https://mail.clusterfs.com/wikis/lustre/MountConf
1796          for details.
1797        * bug fixes
1798
1799
1800
1801 Severity   : enhancement
1802 Bugzilla   : 8007
1803 Description: MountConf
1804 Details    : Lustre configuration is now managed via mkfs and mount
1805              commands instead of lmc and lconf.  New obd types (MGS, MGC)
1806              are added for dynamic configuration management.  See
1807              https://mail.clusterfs.com/wikis/lustre/MountConf for
1808              details.
1809
1810 Severity   : enhancement
1811 Bugzilla   : 4482
1812 Description: dynamic OST addition
1813 Details    : OSTs can now be added to a live filesystem
1814
1815 Severity   : enhancement
1816 Bugzilla   : 9851
1817 Description: startup order invariance
1818 Details    : MDTs and OSTs can be started in any order.  Clients only
1819              require the MDT to complete startup.
1820         
1821 Severity   : enhancement
1822 Bugzilla   : 4899
1823 Description: parallel, asynchronous orphan cleanup
1824 Details    : orphan cleanup is now performed in separate threads for each
1825              OST, allowing parallel non-blocking operation.
1826
1827 Severity   : enhancement
1828 Bugzilla   : 9862
1829 Description: optimized stripe assignment
1830 Details    : stripe assignments are now made based on ost space available,
1831              ost previous usage, and OSS previous usage, in order to try
1832              to optimize storage space and networking resources.
1833         
1834 Severity   : enhancement
1835 Bugzilla   : 4226
1836 Description: Permanently set tunables
1837 Details    : All writable /proc/fs/lustre tunables can now be permanently
1838              set on a per-server basis, at mkfs time or on a live system.
1839         
1840 Severity   : enhancement
1841 Bugzilla   : 10547
1842 Description: Lustre message v2
1843 Details    : Add lustre message format v2.
1844
1845 Severity   : enhancement
1846 Bugzilla   : 9866
1847 Description: client OST exclusion list
1848 Details    : Clients can be started with a list of OSTs that should be
1849              declared "inactive" for known non-responsive OSTs.
1850
1851 Severity   : minor
1852 Bugzilla   : 6062
1853 Description: SPEC SFS validation failure on NFS v2 over lustre.
1854 Details    : Changes the blocksize for regular files to be 2x RPC size,
1855              and not depend on stripe size.
1856         
1857 Severity   : enhancement
1858 Bugzilla   : 9293
1859 Description: Multiple MD RPCs in flight.
1860 Details    : Further unserialise some read-only MDS RPCs - learn about intents.
1861              To avoid overly-overloading MDS, introduce a limit on number of
1862              MDS RPCs in flight for a single client and add /proc controls
1863              to adjust this limit.
1864
1865 Severity   : enhancement
1866 Bugzilla   : 22484
1867 Description: client read/write statistics
1868 Details    : Add client read/write call usage stats for performance
1869              analysis of user processes.
1870              /proc/fs/lustre/llite/*/offset_stats shows non-sequential
1871              file access. extents_stats shows chunk size distribution.
1872              extents_stats_per_process show chunk size distribution per
1873              user process.
1874
1875 Severity   : enhancement
1876 Bugzilla   : 22486
1877 Description: mds statistics
1878 Details    : Add detailed mds operations statistics in
1879              /proc/fs/lustre/mds/*/stats.
1880
1881 Severity   : minor
1882 Bugzilla   : 10667
1883 Description: Failure of copying files with lustre special EAs.
1884 Details    : Client side always return success for setxattr call for lustre
1885              special xattr (currently only "trusted.lov").
1886
1887 Severity   : minor
1888 Frequency  : always
1889 Bugzilla   : 10345
1890 Description: Refcount LNET uuids
1891 Details    : The global LNET uuid list grew linearly with every startup;
1892              refcount repeated list entries instead of always adding to
1893              the list.
1894
1895 Severity   : enhancement
1896 Bugzilla   : 2258
1897 Description: Dynamic service threads
1898 Details    : Within a small range, start extra service threads
1899              automatically when the request queue builds up.
1900
1901 Severity   : major
1902 Frequency  : mixed-endian client/server environments
1903 Bugzilla   : 11214
1904 Description: mixed-endian crashes
1905 Details    : The new msg_v2 system had some failures in mixed-endian
1906              environments.
1907
1908 Severity   : enhancement
1909 Bugzilla   : 11229
1910 Description: Easy OST removal
1911 Details    : OSTs can be permanently deactivated with e.g. 'lctl
1912              conf_param lustre-OST0001.osc.active=0'
1913
1914 Severity   : enhancement
1915 Bugzilla   : 11335
1916 Description: MGS proc entries
1917 Details    : Added basic proc entries for the MGS showing what filesystems
1918              are served.
1919
1920 Severity   : enhancement
1921 Bugzilla   : 10998
1922 Description: provide MGS failover
1923 Details    : Added config lock reacquisition after MGS server failover.
1924
1925 Severity   : enhancement
1926 Bugzilla   : 11461
1927 Description: add Linux 2.4 support
1928 Details    : Added support for RHEL 2.4.21 kernel for 1.6 servers and clients
1929
1930 Severity   : normal
1931 Bugzilla   : 11330
1932 Description: a large application tries to do I/O to the same resource and dies
1933              in the middle of it.
1934 Details    : Check the req->rq_arrival time after the call to
1935              ost_brw_lock_get(), but before we do anything about
1936              processing it & sending the BULK transfer request. This
1937              should help move old stale pending locks off the queue as
1938              quickly as obd_timeout.
1939
1940 Severity   : major
1941 Frequency  : when an incorrect nid is specified during startup
1942 Bugzilla   : 10734
1943 Description: ptlrpc connect to non-existant node causes kernel crash
1944 Details    : LNET can't be re-entered from an event callback, which
1945              happened when we expire a message after the export has been
1946              cleaned up.  Instead, hand the zombie cleanup off to another
1947              thread.
1948
1949 Severity   : enhancement
1950 Bugzilla   : 10902
1951 Description: plain/inodebits lock performance improvement
1952 Details    : Grouping plain/inodebits in granted list by their request modes
1953              and bits policy, thus improving the performance of search through
1954              the granted list.
1955
1956 Severity   : major
1957 Frequency  : only if OST filesystem is corrupted
1958 Bugzilla   : 9829
1959 Description: client incorrectly hits assertion in ptlrpc_replay_req()
1960 Details    : for a short time RPCs with bulk IO are in the replay list,
1961              but replay of bulk IOs is unimplemented.  If the OST filesystem
1962              is corrupted due to disk cache incoherency and then replay is
1963              started it is possible to trip an assertion.  Avoid putting
1964              committed RPCs into the replay list at all to avoid this issue.
1965
1966 Severity   : major
1967 Frequency  : liblustre (e.g. catamount) on a large cluster with >= 8 OSTs/OSS
1968 Bugzilla   : 11684
1969 Description: System hang on startup
1970 Details    : This bug allowed the liblustre (e.g. catamount) client to
1971              return to the app before handling all startup RPCs.  This
1972              could leave the node unresponsive to lustre network traffic
1973              and manifested as a server ptllnd timeout.
1974
1975 Severity   : enhancement
1976 Bugzilla   : 11667
1977 Description: Add "/proc/sys/lustre/debug_peer_on_timeout"
1978 Details    : liblustre envirable: LIBLUSTRE_DEBUG_PEER_ON_TIMEOUT
1979              boolean to control whether to print peer debug info when a
1980              client's RPC times out.
1981
1982 Severity   : minor
1983 Frequency  : only for kernels with patches from Lustre below 1.4.3
1984 Bugzilla   : 11248
1985 Description: Remove old rdonly API
1986 Details    : Remove old rdonly API which unused from at least lustre 1.4.3
1987
1988 Severity   : major
1989 Frequency  : only for devices with external journals
1990 Bugzilla   : 10719
1991 Description: Set external device read-only also
1992 Details    : During a commanded failover stop, we set the disk device
1993              read-only while the server shuts down. We now also set any
1994              external journal device read-only at the same time.
1995
1996 Severity   : minor
1997 Frequency  : when upgrading from 1.4 while trying to change parameters
1998 Bugzilla   : 11692
1999 Description: The wrong (new) MDC name was used when setting parameters for
2000              upgraded MDT's.  Also allows changing of OSC (and MDC)
2001              parameters if --writeconf is specified at tunefs upgrade time.
2002
2003 Severity   : major
2004 Frequency  : when setting specific ost indicies
2005 Bugzilla   : 11149
2006 Description: QOS code breaks on skipped indicies
2007 Details    : Add checks for missing OST indicies in the QOS code, so OSTs
2008              created with --index need not be sequential.
2009
2010 Severity   : enhancement
2011 Bugzilla   : 11264
2012 Description: Add uninit_groups feature to ldiskfs2 to speed up e2fsck
2013 Details    : The uninit_groups feature works in conjunction with the kernel
2014              filesystem code (ldiskfs2 only) and e2fsprogs-1.39-cfs6 to speed
2015              up the pass1 processing of e2fsck.  This is a read-only feature
2016              in ldiskfs2 only, so older kernels and current ldiskfs cannot
2017              mount filesystems that have had this feature enabled.
2018
2019 Severity   : enhancement
2020 Bugzilla   : 10816
2021 Description: Improve multi-block allocation algorithm to avoid fragmentation
2022 Details    : The mballoc3 code (ldiskfs2 only) adds new mechanisms to improve
2023              allocation locality and avoid filesystem fragmentation.
2024
2025 ------------------------------------------------------------------------------
2026
2027 2007-04-01  Cluster File Systems, Inc. <info@clusterfs.com>
2028        * version 1.4.10
2029        * Support for kernels:
2030         2.4.21-47.0.1.EL (RHEL 3)
2031         2.6.5-7.283 (SLES 9)
2032         2.6.9-42.0.10.EL (RHEL 4)
2033         2.6.12.6 vanilla (kernel.org)
2034         2.6.16.27-0.9 (SLES 10)
2035        * Recommended e2fsprogs version: 1.39.cfs5
2036
2037        * Note that reiserfs quotas are disabled on SLES 10 in this kernel
2038        * bug fixes
2039
2040 Severity   : critical
2041 Frequency  : occasional, depends on client load and configuration
2042 Bugzilla   : 12181, 12203
2043 Description: data loss for recently-modified files
2044 Introduced : 1.4.6
2045 Details    : In some cases it is possible that recently written or created
2046              files may not be written to disk in a timely manner (this should
2047              normally be within 30s unless client IO load is very high).
2048              The problem appears as zero-length files or files that are a
2049              multiple of 1MB in size after a client crash or client eviction
2050              that are missing data at the end of the file.
2051
2052              This problem is more likely to be hit on clients where files are
2053              repeatedly created and unlinked in the same directory, clients
2054              have a large amount of RAM, have many CPUs, the filesystem has
2055              many OSTs, the clients are rebooted frequently, and/or the files
2056              are not accessed by other nodes after being written.
2057
2058              The presence of the problem can be detected by looking at
2059              /proc/sys/fs/inode-state.  If the first number (nr_inodes) is
2060              smaller than the second (nr_unused) then dirty files will not
2061              be flushed automatically to disk.  "sync; sleep 10" should be
2062              run several times on the node before unmounting it to update
2063              Lustre (this is also safe to run on nodes without this problem).
2064
2065              There is also a related kernel bug in the RHEL4 4 2.6.9 kernel
2066              that can cause this same problem, so customers using that kernel
2067              also need to update the kernel in addition to Lustre.  In order
2068              to properly fix this bug, the RHEL3 2.4.21 kernel is also updated.
2069
2070              It is normal that files written just before a client crash (less
2071              than 30s) may not yet have been flushed to disk, even for local
2072              filesystems.
2073
2074 Severity   : normal
2075 Frequency  : frequent on thin XT3 nodes
2076 Bugzilla   : 10802
2077 Description: UUID collision on thin XT3 Linux nodes
2078 Details    : UUIDs on Compute Node Linux XT3 nodes were not generated
2079              randomly, since we relied on an insufficiently-seeded PRNG.
2080
2081 Severity   : normal
2082 Frequency  : rare
2083 Bugzilla   : 11693
2084 Description: OSS hangs after "All ost request buffers busy"
2085 Details    : A deadlock between quota and journal operations caused OSS
2086              hangs after printing "All ost request buffers busy."
2087
2088 Severity   : minor
2089 Frequency  : always on liblustre builds
2090 Bugzilla   : 11175
2091 Description: Cleanup compiler warnings on liblustre
2092
2093 Severity   : minor
2094 Frequency  : always on liblustre builds on XT3
2095 Bugzilla   : 12146
2096 Description: LC_CONFIG_CDEBUG don't run while build liblustre on XT3.
2097
2098 Frequency  : always
2099 Bugzilla   : 3244
2100 Description: Addition of EXT3_FEATURE_RO_COMPAT_DIR_NLINKS flag for
2101              > 32000 subdirectories
2102 Details    : Add EXT3_FEATURE_RO_COMPAT_DIR_NLINK flag to
2103              EXT3_FEATURE_RO_COMPAT_SUPP. This flag will be set whenever
2104              subdirectory count crosses 32000. This will aid e2fsck to
2105              correctly handle more than 32000 subdirectories.
2106
2107 Severity   : major
2108 Frequency  : liblustre (e.g. catamount) on a large cluster with >= 8 OSTs/OSS
2109 Bugzilla   : 11684
2110 Description: System hang on startup
2111 Details    : This bug allowed the liblustre (e.g. catamount) client to
2112              return to the app before handling all startup RPCs.  This
2113              could leave the node unresponsive to lustre network traffic
2114              and manifested as a server ptllnd timeout.
2115
2116 Severity   : enhancement
2117 Bugzilla   : 11667
2118 Description: Add "/proc/sys/lustre/debug_peer_on_timeout"
2119              (liblustre envirable: LIBLUSTRE_DEBUG_PEER_ON_TIMEOUT)
2120              boolean to control whether to print peer debug info when a
2121              client's RPC times out.
2122
2123 Severity   : normal
2124 Frequency  : always
2125 Bugzilla   : 10214
2126 Description: make O_SYNC working on 2.6 kernels
2127 Details    : 2.6 kernels use different method for mark pages for write,
2128              so need add a code to lustre for O_SYNC work.
2129
2130 Severity   : minor
2131 Frequency  : always
2132 Bugzilla   : 11110
2133 Description: Failure to close file and release space on NFS
2134 Details    : Put inode details into lock acquired in ll_intent_file_open.
2135              Use mdc_intent_lock in ll_intent_open to properly
2136              detect all kind of errors unhandled by mdc_enqueue.
2137
2138 Severity   : major
2139 Frequency  : rare
2140 Bugzilla   : 10866
2141 Description: proc file read during shutdown sometimes raced obd removal,
2142              causing node crash
2143 Details    : Add lock to prevent obd access after proc file removal.
2144
2145 Severity   : normal
2146 Frequency  : Only for files larger than 4GB on 32-bit clients.
2147 Bugzilla   : 11237
2148 Description: improperly doing page alignment of locks
2149 Details    : Modify lustre core code to use CFS_PAGE_* defines instead of
2150              PAGE_*.  Make CFS_PAGE_MASK a 64-bit mask.
2151
2152 Severity   : normal
2153 Frequency  : rarely
2154 Bugzilla   : 11203
2155 Description: RPCs being resent when they shouldn't be
2156 Details    : Some RPCs that should not be resent are being resent.  This
2157              can cause inconsistencies in the RPC state machine.  Do not
2158              resend such requests.
2159
2160 Severity   : normal
2161 Frequency  : rare, only with NFS export
2162 Bugzilla   : 11669
2163 Description: Crash on NFS re-export node
2164 Details    : under very unusual load conditions an assertion is hit in
2165              ll_intent_file_open()
2166
2167 Severity   : major
2168 Frequency  : only if OST filesystem is corrupted
2169 Bugzilla   : 9829
2170 Description: client incorrectly hits assertion in ptlrpc_replay_req()
2171 Details    : for a short time RPCs with bulk IO are in the replay list,
2172              but replay of bulk IOs is unimplemented.  If the OST filesystem
2173              is corrupted due to disk cache incoherency and then replay is
2174              started it is possible to trip an assertion.  Avoid putting
2175              committed RPCs into the replay list at all to avoid this issue.
2176
2177 Severity   : normal
2178 Frequency  : always
2179 Bugzilla   : 10901
2180 Description: large O_DIRECT requests fail under memory pressure/fragmentation
2181 Details    : Large single O_DIRECT read and write calls can fail to allocate
2182              a sufficiently large buffer to process the request.  In case of
2183              allocation failure the allocation is retried with a smaller
2184              buffer and broken into smaller requests.
2185
2186 Severity   : enhancement
2187 Bugzilla   : 11563
2188 Description: Add -o localflock option to simulate  old noflock behaviour.
2189 Details    : This will achieve local-only flock/fcntl locks coherentness.
2190
2191 Severity   : normal
2192 Frequency  : always
2193 Bugzilla   : 11090
2194 Description: versioning check is incomplete
2195 Details    : Checking the version difference of client vs. server, report
2196              error if the gap is too big.
2197
2198 Severity   : major
2199 Bugzilla   : 11710
2200 Frequency  : always
2201 Description: add support PG_writeback bit
2202 Details    : add support for PG_writeback bit for Lustre, for more carefull
2203              work with page cache in 2.6 kernel. This also fix some deadlocks
2204              and remove hack for work O_SYNC with 2.6 kernel.
2205
2206 Severity   : enhancement
2207 Bugzilla   : 11264
2208 Description: Add uninit_groups feature to ldiskfs2 to speed up e2fsck
2209 Details    : The uninit_groups feature works in conjunction with the kernel
2210              filesystem code (ldiskfs2 only) and e2fsprogs-1.39-cfs6 to speed
2211              up the pass1 processing of e2fsck.  This is a read-only feature
2212              in ldiskfs2 only, so older kernels and current ldiskfs cannot
2213              mount filesystems that have had this feature enabled.
2214
2215 Severity   : enhancement
2216 Bugzilla   : 10816
2217 Description: Improve multi-block allocation algorithm to avoid fragmentation
2218 Details    : The mballoc3 code (ldiskfs2 only) adds new mechanisms to improve
2219              allocation locality and avoid filesystem fragmentation.
2220
2221 ------------------------------------------------------------------------------
2222
2223 2007-02-09  Cluster File Systems, Inc. <info@clusterfs.com>
2224        * version 1.4.9
2225        * Support for kernels:
2226         2.6.9-42.0.3.EL (RHEL 4)
2227         2.6.5-7.276 (SLES 9)
2228         2.4.21-47.0.1.EL (RHEL 3)
2229         2.6.12.6 vanilla (kernel.org)
2230         2.6.16.21-0.8 (SLES10)
2231        * Recommended e2fsprogs version: 1.39.cfs2-0
2232
2233        * The backwards-compatible /proc/sys/portals symlink has been removed
2234          in this release.  Before upgrading, please ensure that you change
2235          any configuration scripts or /etc/sysctl.conf files that access
2236          /proc/sys/portals/* or sysctl portals.* to use the corresponding
2237          entry in /proc/sys/lnet or sysctl lnet.*.  This change can be made
2238          in advance of the upgrade on any system running Lustre 1.4.6 or
2239          newer, since /proc/sys/lnet was added in that version.
2240        * Note that reiserfs quotas are disabled on SLES 10 in this kernel
2241        * bug fixes
2242
2243 Severity   : minor
2244 Frequency  : only when quota is used
2245 Bugzilla   : 11286
2246 Description: avoid scanning export list for quota master
2247 Details    : Change the algorithms to avoid scanning export list in order
2248              to improve the efficiency.
2249
2250 Severity   : critical
2251 Frequency  : MDS failover only, very rarely
2252 Bugzilla   : 11125
2253 Description: "went back in time" messages on mds failover
2254 Details    : The greatest transno may be lost when the current operation
2255              finishes with an error (transno==0) and the client's last_rcvd
2256              record is over-written. Save the greatest transno in the
2257              mds_last_transno for this case.
2258
2259 Severity   : minor
2260 Frequency  : always for specific kernels and striping counts
2261 Bugzilla   : 11042
2262 Description: client may get "Matching packet too big" without ACL support
2263 Details    : Clients compiled without CONFIG_FS_POSIX_ACL get an error message
2264              when trying to access files in certain configurations.  The
2265              clients should in fact be denied when mounting because they do
2266              not understand ACLs.
2267
2268 Severity   : major
2269 Frequency  : Cray XT3 with more than 4000 clients and multiple jobs
2270 Bugzilla   : 10906
2271 Description: many clients connecting with IO in progress causes connect timeouts
2272 Details    : Avoid synchronous journal commits to avoid delays caused by many
2273              clients connecting/disconnecting when bulk IO is in progress.
2274              Queue liblustre connect requests on OST_REQUEST_PORTAL instead of
2275              OST_IO_PORTAL to avoid delays behind potentially many pending
2276              slow IO requests.
2277
2278 Severity   : normal
2279 Frequency  : occasionally with multiple writers to a single file
2280 Bugzilla   : 11081
2281 Description: shared writes to file may result in wrong size reported by stat()
2282 Details    : Allow growing of kms when extent lock is cancelled
2283
2284 Severity   : minor
2285 Frequency  : always with random mmap IO to multi-striped file
2286 Bugzilla   : 10919
2287 Description: mmap write might be lost if we are writing to a 'hole' in stripe
2288 Details    : Only if the hole is at the end of OST object so that kms is too
2289              small. Fix is to increase kms accordingly in ll_nopage.
2290
2291 Severity   : normal
2292 Frequency  : rare, only if OST filesystem is inconsistent with MDS filesystem
2293 Bugzilla   : 11211
2294 Description: writes to a missing object would leak memory on the OST
2295 Details    : If there is an inconsistency between the MDS and OST filesystems,
2296              such that the MDS references an object that doesn't exist, writes
2297              to that object will leak memory due to incorrect cleanup in the
2298              error handling path, eventually running out of memory on the OST.
2299
2300 Severity   : minor
2301 Frequency  : rare
2302 Bugzilla   : 11040
2303 Description: Creating too long symlink causes lustre errors
2304 Details    : Check symlink and name lengths before sending requests to MDS.
2305
2306 Severity   : normal
2307 Frequency  : only if flock is enabled (not on by default)
2308 Bugzilla   : 11415
2309 Description: posix locks not released on fd closure on 2.6.9+
2310 Details    : We failed to add posix locks to list of inode locks on 2.6.9+
2311              kernels, this caused such locks not to be released on fd close and
2312              then assertions on fs unmount about still used locks.
2313
2314 Severity   : minor
2315 Frequency  : MDS failover only, very rarely
2316 Bugzilla   : 11277
2317 Description: clients may get ASSERTION(granted_lock != NULL)
2318 Details    : When request was taking a long time, and a client was resending
2319              a getattr by name lock request. The were multiple lock requests
2320              with the same client lock handle and
2321              mds_getattr_name->fixup_handle_for_resent_request found one of the
2322              lock handles but later failed with ASSERTION(granted_lock != NULL).
2323
2324 Severity   : major
2325 Frequency  : rare
2326 Bugzilla   : 10891
2327 Description: handle->h_buffer_credits > 0, assertion failure
2328 Details    : h_buffer_credits is zero after truncate, causing assertion
2329              failure.  This patch extends the transaction or creates a new
2330              one after truncate.
2331
2332 Severity   : normal
2333 Frequency  : NFS re-export or patchless client
2334 Bugzilla   : 11179, 10796
2335 Description: Crash on NFS re-export node (__d_move)
2336 Details    : We do not want to hash the dentry if we don't have a lock.
2337              But if this dentry is later used in d_move, we'd hit uninitialised
2338              list head d_hash, so we just do this to init d_hash field but
2339              leave dentry unhashed.
2340
2341 Severity   : normal
2342 Frequency  : NFS re-export or patchless client
2343 Bugzilla   : 11135
2344 Description: NFS exports has problem with symbolic link
2345 Details    : lustre client didn't properly install dentry when re-exported
2346              to NFS or running patchless client.
2347
2348 Severity   : normal
2349 Frequency  : NFS re-export or patchless client
2350 Bugzilla   : 10796
2351 Description: Various nfs/patchless fixes.
2352 Details    : fixes reuse disconected alias for lookup process - this fixes
2353              warning "find_exported_dentry: npd != pd",
2354              fix permission error with open files at nfs.
2355              fix apply umask when do revalidate.
2356
2357 Severity   : normal
2358 Frequency  : occasional
2359 Bugzilla   : 11191
2360 Description: Crash on NFS re-export node
2361 Details    : calling clear_page() on the wrong pointer triggered oops in
2362              generic_mapping_read().
2363
2364 Severity   : normal
2365 Frequency  : rarely, using O_DIRECT IO
2366 Bugzilla   : 10903
2367 Description: unaligned directio crashes client with LASSERT
2368 Details    : check for unaligned buffers before trying any requests.
2369
2370 Severity   : major
2371 Frequency  : rarely, using CFS RAID5 patches in non-standard kernel series
2372 Bugzilla   : 11313
2373 Description: stale data returned from RAID cache
2374 Details    : If only a small amount of IO is done to the RAID device before
2375              reading it again it is possible to get stale data from the RAID
2376              cache instead of reading it from disk.
2377
2378 Severity   : normal
2379 Frequency  : always for sles10 kernel
2380 Bugzilla   : 10947
2381 Description: sles10 support
2382 Details    : ll_follow_link: compile fixes and using of nd_set_link
2383              under newer kernels.
2384
2385 Severity   : major
2386 Frequency  : depends on arch, kernel and compiler version, always on sles10
2387              kernel and x86_64
2388 Bugzilla   : 11562
2389 Description: recursive or deep enough symlinks cause stack overflow
2390 Details    : getting rid of large stack-allocated variable in
2391              __vfs_follow_link
2392
2393 Severity   : minor
2394 Frequency  : depends on hardware
2395 Bugzilla   : 11540
2396 Description: lustre write performance loss in the SLES10 kernel
2397 Details    : the performance loss is caused by using of write barriers in the
2398              ext3 code. The SLES10 kernel turns barrier support on by
2399              default. The fix is to undo that change for ldiskfs.
2400
2401 ------------------------------------------------------------------------------
2402
2403 2006-12-09  Cluster File Systems, Inc. <info@clusterfs.com>
2404        * version 1.4.8
2405        * Support for kernels:
2406         2.6.9-42.0.3EL (RHEL 4)
2407         2.6.5-7.276 (SLES 9)
2408         2.4.21-47.0.1.EL (RHEL 3)
2409         2.6.12.6 vanilla (kernel.org)
2410        * bug fixes
2411
2412 Severity   : major
2413 Frequency  : quota enabled and large files being deleted
2414 Bugzilla   : 10707
2415 Description: releasing more than 4GB of quota at once hangs OST
2416 Details    : If a user deletes more than 4GB of files on a single OST it
2417              will cause the OST to spin in an infinite loop.  Release
2418              quota in < 4GB chunks, or use a 64-bit value for 1.4.7.1+.
2419
2420 Severity   : minor
2421 Frequency  : rare
2422 Bugzilla   : 10845
2423 Description: statfs data retrieved from /proc may be stale or zero
2424 Details    : When reading per-device statfs data from /proc, in the
2425              {kbytes,files}_{total,free,avail} files, it may appear
2426              as zero or be out of date.
2427
2428 Severity   : minor
2429 Frequency  : systems with MD RAID1 external journal devices
2430 Bugzilla   : 10832
2431 Description: lconf's call to blkid is confused by RAID1 journal devices
2432 Details    : Use the "blkid -l" flag to locate the MD RAID device instead
2433              of returning all block devices that match the journal UUID.
2434
2435 Severity   : normal
2436 Frequency  : always, for aggregate stripe size over 4GB
2437 Bugzilla   : 10725
2438 Description: "lfs setstripe" fails assertion when setting 4GB+ stripe width
2439 Details    : Using "lfs setstripe" to set stripe size * stripe count over 4GB
2440              will fail the kernel with "ASSERTION(lsm->lsm_xfersize != 0)"
2441
2442 Severity   : minor
2443 Frequency  : always if "lfs find" used on a local file/directory
2444 Bugzilla   : 10864
2445 Description: "lfs find" segfaults if used on a local file/directory
2446 Details    : The case where a directory component was not specified wasn't
2447              handled correctly.  Handle this properly.
2448
2449 Severity   : normal
2450 Frequency  : always on ppc64
2451 Bugzilla   : 10634
2452 Description: the write to an ext3 filesystem mounted with mballoc got stuck
2453 Details    : ext3_mb_generate_buddy() uses find_next_bit() which does not
2454              perform endianness conversion.
2455
2456 Severity   : major
2457 Frequency  : rarely (truncate to non-zero file size after write under load)
2458 Bugzilla   : 10730, 10687
2459 Description: Files padded with zeros to next 4K multiple
2460 Details    : With filesystems mounted using the "extents" option (2.6 kernels)
2461              it is possible that files that are truncated to a non-zero size
2462              immediately after being written are filled with zero bytes beyond
2463              the truncated size.  No file data is lost.
2464
2465 Severity   : enhancement
2466 Bugzilla   : 10452
2467 Description: Allow recovery/failover for liblustre clients.
2468 Details    : liblustre clients were unaware of failover configurations until
2469              now.
2470
2471 Severity   : enhancement
2472 Bugzilla   : 10743
2473 Description: user file locks should fail when not mounting with flock option
2474 Details    : Set up an error-returning stub in ll_file_operations.lock field
2475              to prevent incorrect behaviour when client is mounted without
2476              flock option. Also, set up properly f_op->flock field for
2477              RHEL4 kernels.
2478
2479 Severity   : minor
2480 Frequency  : always on ia64
2481 Bugzilla   : 10905
2482 Description: "lfs df" loops on printing out MDS statfs information
2483 Details    : The obd_ioctl_data was not initialized and in some systems
2484              this caused a failure during the ioctl that did not return
2485              an error.  Initialize the struct and return an error on failure.
2486
2487 Severity   : minor
2488 Frequency  : SLES 9 only
2489 Bugzilla   : 10667
2490 Description: Error of copying files with lustre special EAs as root
2491 Details    : Client side always return success for setxattr call for lustre
2492              special xattr (currently only "trusted.lov").
2493
2494 Severity   : normal
2495 Frequency  : rarely on clusters with both ia64+i386 clients
2496 Bugzilla   : 10672
2497 Description: ia64+i686 clients doing shared IO on the same file may LBUG
2498 Details    : In rare cases when both ia64+i686 (or other mixed-PAGE_SIZE)
2499              clients are doing concurrent writes to the same file it is
2500              possible that the ia64 clients may LASSERT because the OST
2501              extent locks are not PAGE_SIZE aligned.  Ensure that grown
2502              locks are always aligned on the request boundary.
2503
2504 Severity   : normal
2505 Frequency  : specific use, occasional
2506 Bugzilla   : 7040
2507 Description: Overwriting in use executable truncates on-disk binary image
2508 Details    : If one node attempts to overwrite an executable in use by
2509              another node, we now correctly return ETXTBSY instead of
2510              truncating the file.
2511
2512 Severity   : enhancement
2513 Bugzilla   : 4900
2514 Description: Async OSC create to avoid the blocking unnecessarily.
2515 Details    : If a OST has no remain object, system will block on the creating
2516              when need to create a new object on this OST. Now, ways use
2517              pre-created objects when available, instead of blocking on an
2518              empty osc while others are not empty.  If we must block, we block
2519              for the shortest possible period of time.
2520
2521 Severity   : normal
2522 Frequency  : rare
2523 Bugzilla   : 2707
2524 Description: chmod on Lustre root is propagated to other clients
2525 Details    : Re-validate root's dentry in ll_lookup_it to avoid having it
2526              invalid by the follow_mount time.
2527
2528 Severity   : minor
2529 Frequency  : liblustre clients only
2530 Bugzilla   : 10883
2531 Description: Race in 'instant cancel' lock handling could lead to such locks
2532              never to be granted in case of SMP MDS
2533 Details    : Do not destroy not yet granted but cbpending locks in
2534              handle_enqueue
2535
2536 Severity   : minor
2537 Frequency  : replay/resend of open
2538 Bugzilla   : 10991
2539 Description: non null lock assetion failure in mds_intent_policy
2540 Details    : Trying to replay/resend lockless open requests resulted in
2541              mds_open() returning 0 with no lock.  Now it sets a flag if
2542              a lock is going to be returned.
2543
2544 Severity   : enhancement
2545 Bugzilla   : 10889
2546 Description: Checksum enhancements
2547 Details    : New checksum enhancements allow for resending RPCs that failed
2548              checksum checks.
2549
2550 Severity   : enhancement
2551 Bugzilla   : 7376
2552 Description: Tunables on number of dirty pages in cacche
2553 Details    : Allow to set limit on number of dirty pages cached.
2554
2555 Severity   : normal
2556 Frequency  : rare
2557 Bugzilla   : 10643
2558 Description: client crash on unmount - lock still has references
2559 Details    : In some error handling cases it was possible to leak a lock
2560              reference on a client while accessing a file.  This was not
2561              harmful to the client during operation, but would cause the
2562              client to crash when the filesystem is unmounted.
2563
2564 Severity   : normal
2565 Frequency  : specific case, rare
2566 Bugzilla   : 10921
2567 Description: ETXTBSY on mds though file not in use by client
2568 Details    : ETXTBSY is no longer incorrectly returned when attempting to
2569              chmod or chown a directory that the user previously tried to
2570              execute or a currently-executing binary.
2571
2572 Severity   : major
2573 Frequency  : extremely rare except on liblustre-based clients
2574 Bugzilla   : 10480
2575 Description: Lustre space not freed when files are deleted
2576 Details    : Clean up open-unlinked files after client eviction.  Previously
2577              the unlink was skipped and the files remained as orphans.
2578
2579 Severity   : normal
2580 Frequency  : rare
2581 Bugzilla   : 10999
2582 Description: OST failure "would be an LBUG" in waiting_locks_callback()
2583 Details    : In some cases it was possible to send a blocking callback to
2584              a client doing a glimpse, even though that client didn't get
2585              a lock granted.  When the glimpse lock is cancelled on the OST
2586              the freed lock is left on the waiting list and corrupted the list.
2587
2588 Severity   : major
2589 Frequency  : all core dumps
2590 Bugzilla   : 11103
2591 Description: Broke core dumps to lustre
2592 Details    : Negative dentry may be unhashed if parent does not have UPDATE
2593              lock, but some callers, e.g. do_coredump, expect dentry to be
2594              hashed after successful create, hash it in ll_create_it.
2595
2596 ------------------------------------------------------------------------------
2597
2598 2006-09-13  Cluster File Systems, Inc. <info@clusterfs.com>
2599        * version 1.4.7.1
2600        * Support for kernels:
2601         2.6.9-42.0.2.EL (RHEL 4)
2602         2.6.5-7.276 (SLES 9)
2603         2.4.21-40.EL (RHEL 3)
2604         2.6.12.6 vanilla (kernel.org)
2605       * bug fix
2606
2607 Severity   : major
2608 Frequency  : always on RHEL 3
2609 Bugzilla   : 10867
2610 Description: Number of open files grows over time
2611 Details    : The number of open files grows over time, whether or not
2612              Lustre is started.  This was due to a filp leak introduced
2613              by one of our kernel patches.
2614
2615 ------------------------------------------------------------------------------
2616
2617 08-20-2006  Cluster File Systems, Inc. <info@clusterfs.com>
2618        * version 1.4.7
2619        * Support for kernels:
2620         2.6.9-42.EL (RHEL 4)
2621         2.6.5-7.276 (SLES 9)
2622         2.4.21-40.EL (RHEL 3)
2623         2.6.12.6 vanilla (kernel.org)
2624        * bug fixes
2625
2626 Severity   : major
2627 Frequency  : rare
2628 Bugzilla   : 5719, 9635, 9792, 9684
2629 Description: OST (or MDS) trips assertions in (re)connection under heavy load
2630 Details    : If a server is under heavy load and cannot reply to new
2631              connection requests before the client resends the (re)connect,
2632              the connection handling code can behave badly if two service
2633              threads are concurrently handing separate (re)connections from
2634              the same client.  Add better locking to the connection handling
2635              code, and ensure that only a single connection will be processed
2636              for a given client UUID, even if the lock is dropped.
2637
2638 Severity   : enhancement
2639 Bugzilla   : 3627
2640 Description: add TCP zero-copy support to kernel
2641 Details    : Add support to the kernel TCP stack to allow zero-copy bulk
2642              sends if the hardware supports scatter-gather and checksumming.
2643              This allows socklnd to do client-write and server-read more
2644              efficiently and reduce CPU utilization from skbuf copying.
2645
2646 Severity   : minor
2647 Frequency  : only if NFS exporting from client
2648 Bugzilla   : 10258
2649 Description: NULL pointer deref in ll_iocontrol() if chattr mknod file
2650 Details    : If setting attributes on a file created under NFS that had
2651              never been opened it would be possible to oops the client
2652              if the file had no objects.
2653
2654 Severity   : minor
2655 Frequency  : always for liblustre
2656 Bugzilla   : 10290
2657 Description: liblustre client does MDS+OSTs setattr RPC for each write
2658 Details    : When doing a write from a liblustre client, the client
2659              incorrectly issued an RPC to the MDS and each OST the file was
2660              striped over in order to update the timestamps.  When writing
2661              with small chunks and many clients this could overwhelm the MDS
2662              with RPCs.  In all cases it would slow down the write because
2663              these RPCs are unnecessary.
2664
2665 Severity   : enhancement
2666 Bugzilla   : 9340
2667 Description: allow number of MDS service threads to be changed at module load
2668 Details    : It is now possible to change the number of MDS service threads
2669              running.  Adding "options mds mds_num_threads={N}" to the MDS's
2670              /etc/modprobe.conf will set the number of threads for the next
2671              time Lustre is restarted (assuming the "mds" module is also
2672              reloaded at that time).  The default number of threads will
2673              stay the same, 32 for most systems.
2674
2675 Severity   : major
2676 Frequency  : rare
2677 Bugzilla   : 10300
2678 Description: OST crash if filesystem is unformatted or corrupt
2679 Details    : If an OST is started on a device that has never been formatted
2680              or if the filesystem is corrupt and cannot even mount then the
2681              error handling cleanup routines would dereference a NULL pointer.
2682
2683 Severity   : medium
2684 Frequency  : rare
2685 Bugzilla   : 10047
2686 Description: NULL pointer deref in llap_from_page.
2687 Details    : get_cache_page_nowait can return a page with NULL (or otherwise
2688              incorrect) mapping if the page was truncated/reclaimed while it was
2689              searched for. Check for this condition and skip such pages when
2690              doing readahead. Introduce extra check to llap_from_page() to
2691              verify page->mapping->host is non-NULL (so page is not anonymous).
2692
2693 Severity   : minor
2694 Frequency  : Sometimes when using sys_sendfile
2695 Bugzilla   : 7020
2696 Description: "page not covered by a lock" warnings from ll_readpage
2697 Details    : sendfile called ll_readpage without right page locks present.
2698              Now we introduced ll_file_sendfile that does necessary locking
2699              around call to generic_file_sendfile() much like we do in
2700              ll_file_read().
2701
2702 Severity   : medium
2703 Frequency  : with certain MDS communication failures at client mount time
2704 Bugzilla   : 10268
2705 Description: NULL pointer deref after failed client mount
2706 Details    : a client connection request may delayed by the network layer
2707              and not be sent until after the PTLRPC layer has timed out the
2708              request.  If the client fails the mount immediately it will try
2709              to clean up before the network times out the request.  Add a
2710              reference from the request import to the obd device and delay
2711              the cleanup until the network drops the request.
2712
2713 Severity   : medium
2714 Frequency  : occasionally during client (re)connect
2715 Bugzilla   : 9387
2716 Description: assertion failure during client (re)connect
2717 Details    : processing a client connection request may be delayed by the
2718              client or server longer than the client connect timeout.  This
2719              causes the client to resend the connection request.  If the
2720              original connection request is replied in this interval, the
2721              client may trip an assertion failure in ptlrpc_connect_interpret()
2722              which thought it would be the only running connect process.
2723
2724 Severity   : medium
2725 Frequency  : only with obd_echo servers and clients that are rebooted
2726 Bugzilla   : 10140
2727 Description: kernel BUG accessing uninitialized data structure
2728 Details    : When running an obd_echo server it did not start the ping_evictor
2729              thread, and when a client was evicted an uninitialized data
2730              structure was accessed.  Start the ping_evictor in the RPC
2731              service startup instead of the OBD startup.
2732
2733 Severity   : enhancement
2734 Bugzilla   : 10193 (patchless)
2735 Description: Remove dependency on various unexported kernel interfaces.
2736 Details    : No longer need reparent_to_init, exit_mm, exit_files,
2737              sock_getsockopt, filemap_populate, FMODE_EXEC, put_filp.
2738
2739 Severity   : minor
2740 Frequency  : rare (only users of deprecated and unsupported LDAP config)
2741 Bugzilla   : 9337
2742 Description: write_conf for zeroconf mount queried LDAP incorrectly for client
2743 Details    : LDAP apparently contains 'lustreName' attributes instead of
2744              'name'.  A simple remapping of the name is sufficient.
2745
2746 Severity   : major
2747 Frequency  : rare (only with non-default dump_on_timeout debug enabled)
2748 Bugzilla   : 10397
2749 Description: waiting_locks_callback trips kernel BUG if client is evicted
2750 Details    : Running with the dump_on_timeout debug flag turned on makes
2751              it possible that the waiting_locks_callback() can try to dump
2752              the Lustre kernel debug logs from an interrupt handler.  Defer
2753              this log dumping to the expired_lock_main() thread.
2754
2755 Severity   : enhancement
2756 Bugzilla   : 10420
2757 Description: Support NFS exporting on 2.6 kernels.
2758 Details    : Implement non-rawops metadata methods for NFS server to use without
2759              changing NFS server code.
2760
2761 Severity   : medium
2762 Frequency  : very rare (synthetic metadata workload only)
2763 Bugzilla   : 9974
2764 Description: two racing renames might cause an MDS thread to deadlock
2765 Details    : Running the "racer" program may cause one MDS thread to rename
2766              a file from being the source of a rename to being the target of
2767              a rename at exactly the same time that another thread is doing
2768              so, and the second thread has already enqueued these locks after
2769              doing a lookup of the target and is trying to relock them in
2770              order.  Ensure that we don't try to re-lock the same resource.
2771
2772 Severity   : major
2773 Frequency  : only very large systems with liblustre clients
2774 Bugzilla   : 7304
2775 Description: slow eviction of liblustre clients with the "evict_by_nid" RPC
2776 Details    : Use asynchronous set_info RPCs to send the "evict_by_nid" to
2777              all OSTs in parallel.  This allows the eviction of stale liblustre
2778              clients to proceed much faster than if they were done in series,
2779              and also offers similar improvements for other set_info RPCs.
2780
2781 Severity   : minor
2782 Frequency  : common
2783 Bugzilla   : 10265
2784 Description: excessive CPU usage during initial read phase on client
2785 Details    : During the initial read phase on a client, it would agressively
2786              retry readahead on the file, consuming too much CPU and impacting
2787              performance (since 1.4.5.8).  Improve the readahead algorithm
2788              to avoid this, and also improve some other common cases (read
2789              of small files in particular, where "small" is files smaller than
2790              /proc/fs/lustre/llite/*/max_read_ahead_whole_mb, 2MB by default).
2791
2792 Severity   : minor
2793 Frequency  : rare
2794 Bugzilla   : 10450
2795 Description: MDS crash when receiving packet with unknown intent.
2796 Details    : Do not LBUG in unknown intent case, just return -EFAULT
2797
2798 Severity   : enhancement
2799 Bugzilla   : 9293, 9385
2800 Description: MDS RPCs are serialised on client. This is unnecessary for some.
2801 Details    : Do not serialize getattr (non-intent version) and statfs.
2802
2803 Severity   : minor
2804 Frequency  : occasional, when OST network is overloaded/intermittent
2805 Bugzilla   : 10416
2806 Description: client evicted by OST after bulk IO timeout
2807 Details    : If a client sends a bulk IO request (read or write) the OST
2808              may evict the client if it is unresposive to its data GET/PUT
2809              request.  This is incorrect if the network is overloaded (takes
2810              too long to transfer the RPC data) or dropped the OST GET/PUT
2811              request.  There is no need to evict the client at all, since
2812              the pinger and/or lock callbacks will handle this, and the
2813              client can restart the bulk request.
2814
2815 Severity   : minor
2816 Frequency  : Always when mmapping file with no objects
2817 Bugzilla   : 10438
2818 Description: client crashes when mmapping file with no objects
2819 Details    : Check that we actually have objects in a file before doing any
2820              operations on objects in ll_vm_open, ll_vm_close and
2821              ll_glimpse_size.
2822
2823 Severity   : minor
2824 Frequency  : Rare
2825 Bugzilla   : 10484
2826 Description: Request leak when working with deleted CWD
2827 Details    : Introduce advanced request refcount tracking for requests
2828              referenced from lustre intent.
2829
2830 Severity   : Enhancement
2831 Bugzilla   : 10482
2832 Description: Cache open file handles on client.
2833 Details    : MDS now will return special lock along with openhandle, if
2834              requested and client is allowed to hold openhandle, even if unused,
2835              until such a lock is revoked. Helps NFS a lot, since NFS is opening
2836              closing files for every read/write openration.
2837
2838 Severity   : Enhancement
2839 Bugzilla   : 9291
2840 Description: Cache open negative dentries on client when possible.
2841 Details    : Guard negative dentries with UPDATE lock on parent dir, drop
2842              negative dentries on lock revocation.
2843
2844 Severity   : minor
2845 Frequency  : Always
2846 Bugzilla   : 10510
2847 Description: Remounting a client read-only wasn't possible with a zconf mount
2848 Details    : It wasn't possible to remount a client read-only with llmount.
2849
2850 Severity   : enhancement
2851 Description: Include MPICH 1.2.6 Lustre ADIO interface patch
2852 Details    : In lustre/contrib/ or /usr/share/lustre in RPM a patch for
2853              MPICH is included to add Lustre-specific ADIO interfaces.
2854              This is based closely on the UFS ADIO layer and only differs
2855              in file creation, in order to allow the OST striping to be set.
2856              This is user-contributed code and not supported by CFS.
2857
2858 Severity   : minor
2859 Frequency  : Always
2860 Bugzilla   : 9486
2861 Description: extended inode attributes (immutable, append-only) work improperly
2862              when 2.4 and 2.6 kernels are used on client/server or vice versa
2863 Details    : Introduce kernel-independent values for these flags.
2864
2865 Severity   : enhancement
2866 Frequency  : Always
2867 Bugzilla   : 10248
2868 Description: Allow fractional MB tunings for lustre in /proc/ filesystem.
2869 Details    : Many of the /proc/ tunables can only be tuned at a megabyte
2870              granularity. Now, Fractional MB granularity is be supported,
2871              this is very useful for low memory system.
2872
2873 Severity   : enhancement
2874 Bugzilla   : 9292
2875 Description: Getattr by fid
2876 Details    : Getting a file attributes by its fid, obtaining UPDATE|LOOKUP
2877              locks, avoids extra getattr rpc requests to MDS, allows '/' to
2878              have locks and avoids getattr rpc requests for it on every stat.
2879
2880 Severity   : major
2881 Frequency  : Always, for filesystems larger than 2TB
2882 Bugzilla   : 6191
2883 Description: ldiskfs crash at mount for filesystem larger than 2TB with mballoc
2884 Details    : Kenrel kmalloc limits allocations to 128kB and this prevents
2885              filesystems larger than 2TB to be mounted with mballoc enabled.
2886
2887 Severity   : critical
2888 Frequency  : Always, for 32-bit kernel without CONFIG_LBD and filesystem > 2TB
2889 Bugzilla   : 6191
2890 Description: ldiskfs crash at mount for filesystem larger than 2TB with mballoc
2891 Details    : If a 32-bit kernel is compiled without CONFIG_LBD enabled and a
2892              filesystems larger than 2TB is mounted then the kernel will
2893              silently corrupt the start of the filesystem.  CONFIG_LBD is
2894              enabled for all CFS-supported kernels, but the possibility of
2895              this happening with a modified kernel config exists.
2896
2897 Severity   : enhancement
2898 Bugzilla   : 10462
2899 Description: add client O_DIRECT support for 2.6 kernels
2900 Details    : It is now possible to do O_DIRECT reads and writes to files
2901              in the Lustre client mountpoint on 2.6 kernel clients.
2902
2903 Severity   : enhancement
2904 Bugzilla   : 10446
2905 Description: parallel glimpse, setattr, statfs, punch, destroy requests
2906 Details    : Sends glimpse, setattr, statfs, punch, destroy requests to OSTs in
2907              parallel, not waiting for response from every OST before sending
2908              a rpc to the next OST.
2909
2910 Severity   : minor
2911 Frequency  : rare
2912 Bugzilla   : 10150
2913 Description: setattr vs write race when updating file timestamps
2914 Details    : Client processes that update a file timestamp into the past
2915              right after writing to the file (e.g. tar) it is possible that
2916              the updated file modification time can be reset to the current
2917              time due to a race between processing the setattr and write RPC.
2918
2919 Severity   : enhancement
2920 Bugzilla   : 10318
2921 Description: Bring 'lfs find' closer in line with regular Linux find.
2922 Details    : lfs find util supports -atime, -mtime, -ctime, -maxdepth, -print,
2923              -print0 options and obtains all the needed info through the lustre
2924              ioctls.
2925
2926 Severity   : enhancement
2927 Bugzilla   : 6221
2928 Description: support up to 1024 configured devices on one node
2929 Details    : change obd_dev array from statically allocated to dynamically
2930              allocated structs as they are first used to reduce memory usage
2931
2932 Severity   : minor
2933 Frequency  : rare
2934 Bugzilla   : 10437
2935 Description: Flush dirty partially truncated pages during truncate
2936 Details    : Immediatelly flush partially truncated pages in filter_setattr,
2937              this way we completely avoid having any pages in page cache on OST
2938              and can retire ugly workarounds during writes to flush such pages.
2939
2940 Severity   : minor
2941 Frequency  : rare
2942 Bugzilla   : 10409
2943 Description: i_sem vs transaction deadlock in mds_obd_destroy during unlink.
2944 Details    : protect inode from truncation within vfs_unlink() context
2945              just take a reference before calling vfs_unlink() and release it
2946              when parent's i_sem is free.
2947
2948 Severity   : major
2949 Frequency  : rare
2950 Bugzilla   : 4778
2951 Description: last_id value checked outside lock on OST caused LASSERT failure
2952 Details    : If there were multiple MDS->OST object precreate requests in
2953              flight, it was possible that the OST's last object id was checked
2954              outside a lock and incorrectly tripped an assertion.  Move checks
2955              inside locks, and discard old precreate requests.
2956
2957 Severity   : minor
2958 Frequency  : always, if extents are used on OSTs
2959 Bugzilla   : 10703
2960 Description: index ei_leaf_hi (48-bit extension) is not zeroed in extent index
2961 Details    : OSTs using the extents format would not zero the high 16 bits of
2962              the index physical block number.  This is not a problem for any
2963              OST filesystems smaller than 16TB, and no kernels support ext3
2964              filesystems larger than 16TB yet.  This is fixed in 1.4.7 (all
2965              new/modified files) and can be fixed for existing filesystems
2966              with e2fsprogs-1.39-cfs1.
2967
2968 Severity   : minor
2969 Frequency  : rare
2970 Bugzilla   : 9387
2971 Description: import connection selection may be incorrect if timer wraps
2972 Details    : Using a 32-bit jiffies timer with HZ=1000 may cause backup
2973              import connections to be ignored if the 32-bit jiffies counter
2974              wraps.  Use a 64-bit jiffies counter.
2975
2976 Severity   : minor
2977 Frequency  : very large clusters immediately after boot
2978 Bugzilla   : 10083
2979 Description: LNET request buffers exhausted under heavy short-term load
2980 Details    : If a large number of client requests are generated on a service
2981              that has previously never seen so many requests it is possible
2982              that the request buffer growth cannot keep up with the spike in
2983              demand.  Instead of dropping incoming requests, they are held in
2984              the LND until the RPC service can accept more requests.
2985
2986 Severity   : minor
2987 Frequency  : Sometimes during replay
2988 Bugzilla   : 9314
2989 Description: Assertion failure in ll_local_open after replay.
2990 Details    : If replay happened on an open request reply before we were able
2991              to set replay handler, reply will become not swabbed tripping the
2992              assertion in ll_local_open. Now we set the handler right after
2993              recognising of open request
2994
2995 Severity   : trivial
2996 Frequency  : very rare
2997 Bugzilla   : 10584
2998 Description: kernel reports "badness in vsnprintf"
2999 Details    : Reading from the "recovery_status" /proc file in small chunks
3000              may cause a negative length in lprocfs_obd_rd_recovery_status()
3001              call to vsnprintf() (which is otherwise harmless).  Exit early
3002              if there is no more space in the output buffer.
3003
3004 Severity   : enhancement
3005 Bugzilla   : 2259
3006 Description: clear OBD RPC statistics by writing to them
3007 Details    : It is now possible to clear the OBD RPC statistics by writing
3008              to the "stats" file.
3009
3010 Severity   : minor
3011 Frequency  : rare
3012 Bugzilla   : 10641
3013 Description: Client mtime is not the same on different clients after utimes
3014 Details    : In some cases, the client was using the utimes() syscall on
3015              a file cached on another node.  The clients now validate the
3016              ctime from the MDS + OSTs to determine which one is right.
3017
3018 Severity   : minor
3019 Frequency  : always
3020 Bugzilla   : 10611
3021 Description: Inability to activate failout mode
3022 Details    : lconf script incorrectly assumed that in pythong string's numeric
3023              value is used in comparisons.
3024
3025 Severity   : minor
3026 Frequency  : always with multiple stripes per file
3027 Bugzilla   : 10671
3028 Description: Inefficient object allocation for mutli-stripe files
3029 Details    : When selecting which OSTs to stripe files over, for files with
3030              a stripe count that divides evenly into the number of OSTs,
3031              the MDS is always picking the same starting OST for each file.
3032              Return the OST selection heuristic to the original design.
3033
3034 Severity   : trivial
3035 Frequency  : rare
3036 Bugzilla   : 10673
3037 Description: mount failures may take full timeout to return an error
3038 Details    : Under some heavy load conditions it is possible that a
3039              failed mount can wait for the full obd_timeout interval,
3040              possibly several minutes, before reporting an error.
3041              Instead return an error as soon as the status is known.
3042 Severity   : major
3043 Frequency  : quota enabled and large files being deleted
3044 Bugzilla   : 10707
3045 Description: releasing more than 4GB of quota at once hangs OST
3046 Details    : If a user deletes more than 4GB of files on a single OST it
3047              will cause the OST to spin in an infinite loop.  Release
3048              quota in < 4GB chunks, or use a 64-bit value for 1.4.7.1+.
3049
3050 Severity   : trivial
3051 Frequency  : rare
3052 Bugzilla   : 10845
3053 Description: statfs data retrieved from /proc may be stale or zero
3054 Details    : When reading per-device statfs data from /proc, in the
3055              {kbytes,files}_{total,free,avail} files, it may appear
3056              as zero or be out of date.
3057
3058 Severity   : trivial
3059 Frequency  : systems with MD RAID1 external journal devices
3060 Bugzilla   : 10832
3061 Description: lconf's call to blkid is confused by RAID1 journal devices
3062 Details    : Use the "blkid -l" flag to locate the MD RAID device instead
3063              of returning all block devices that match the journal UUID.
3064
3065 Severity   : normal
3066 Frequency  : always, for aggregate stripe size over 4GB
3067 Bugzilla   : 10725
3068 Description: assertion fails when trying to use 4GB stripe size
3069 Details    : Use "setstripe" to set stripe size over 4GB will fail the kernel,
3070              complaining "ASSERTION(lsm->lsm_xfersize != 0)"
3071
3072 Severity   : normal
3073 Frequency  : always on ppc64
3074 Bugzilla   : 10634
3075 Description: the first write on an ext3 filesystem with mballoc got stuck
3076 Details    : ext3_mb_generate_buddy() uses find_next_bit() which does not
3077              perform endianness conversion.
3078
3079 ------------------------------------------------------------------------------
3080
3081 02-14-2006  Cluster File Systems, Inc. <info@clusterfs.com>
3082        * version 1.4.6
3083        * WIRE PROTOCOL CHANGE.  This version of Lustre networking WILL NOT
3084          INTEROPERATE with older versions automatically.  Please read the
3085          user documentation before upgrading any part of a live system.
3086        * WARNING: Lustre networking configuration changes are required with
3087          this release.  See https://bugzilla.clusterfs.com/show_bug.cgi?id=10052
3088          for details.
3089        * bug fixes
3090        * Support for kernels:
3091         2.6.9-22.0.2.EL (RHEL 4)
3092         2.6.5-7.244 (SLES 9)
3093         2.6.12.6 vanilla (kernel.org)
3094
3095
3096 Severity   : enhancement
3097 Bugzilla   : 7981/8208
3098 Description: Introduced Lustre Networking (LNET)
3099 Details    : LNET is new networking infrastructure for Lustre, it includes
3100              a reorganized network configuration mode (see the user
3101              documentation for full details) as well as support for routing
3102              between different network fabrics.  Lustre Networking Devices
3103              (LNDs) for the supported network fabrics have also been
3104              created for this new infrastructure.
3105
3106 Severity   : enhancement
3107 Description: Introduced Access control lists
3108 Details    : clients can set ACLs on files and directories in order to have
3109              more fine-grained permissions than the standard Unix UGO+RWX.
3110              The MDS must be started with the "-o acl" mount option.
3111
3112 Severity   : enhancement
3113 Description: Introduced filesystem quotas
3114 Details    : Administrators may now establish per-user quotas on the
3115              filesystem.
3116
3117 Severity   : enhancement
3118 Bugzilla   : 7982
3119 Description: Configuration change for the XT3
3120              The PTLLND is now used to run Lustre over Portals on the XT3
3121              The configure option(s) --with-cray-portals are no longer used.
3122              Rather --with-portals=<path-to-portals-includes> is used to
3123              enable building on the XT3.  In addition to enable XT3 specific
3124              features the option --enable-cray-xt3 must be used.
3125         
3126 Severity   : major
3127 Frequency  : rare
3128 Bugzilla   : 7407
3129 Description: Running on many-way SMP OSTs can trigger oops in llcd_send()
3130 Details    : A race between allocating a new llcd and re-getting the llcd_lock
3131              allowed another thread to grab newly-allocated llcd.
3132
3133 Severity   : enhancement
3134 Bugzilla   : 7116
3135 Description: 2.6 OST async journal commit and locking fix to improve performance
3136 Details    : The filter_direct_io()+filter_commitrw_write() journal commits for
3137              2.6 kernels are now async as they already were in 2.4 kernels so
3138              that they can commit concurrently with the network bulk transfer.
3139              For block-allocated files the filter allocation semaphore is held
3140              to avoid filesystem fragmentation during allocation.  BKL lock
3141              removed for 2.6 xattr operations where it is no longer needed.
3142
3143 Severity   : minor
3144 Frequency  : rare
3145 Bugzilla   : 8320
3146 Description: lconf incorrectly determined whether two IP networks could talk
3147 Details    : In some more complicated routing and multiple-network
3148              configurations, lconf will avoid trying to make a network
3149              connection to a disjoint part of the IP space.  It was doing the
3150              math incorrectly for one set of cases.
3151
3152 Severity   : major
3153 Frequency  : rare
3154 Bugzilla   : 7359
3155 Description: Fix for potential infinite loop processing records in an llog.
3156 Details    : If an llog record is corrupted/zeroed, it is possible to loop
3157              forever in llog_process().  Validate the llog record length
3158              and skip the remainder of the block on error.
3159
3160 Severity   : minor
3161 Frequency  : occasional (liblustre only)
3162 Bugzilla   : 6363
3163 Description: liblustre could not open files whose last component is a symlink
3164 Details    : sysio_path_walk() would incorrectly pass the open intent to
3165              intermediate path components.
3166
3167 Severity   : minor
3168 Frequency  : rare (liblustre only with non-standard tuning)
3169 Bugzilla   : 7201 (7350)
3170 Description: Tuning the MDC DLM LRU size to zero triggers client LASSERT
3171 Details    : llu_lookup_finish_locks() tries to set lock data on a lock
3172              after it has been released, only do this for referenced locks
3173
3174 Severity   : enhancement
3175 Bugzilla   : 7328
3176 Description: specifying an (invalid) directory default stripe_size of -1
3177              would reset the directory default striping
3178 Details    : stripe_size -1 was used internally to signal directory stripe
3179              removal, now use "all default" to signal dir stripe removal
3180              as a directory striping of "all default" is not useful
3181
3182 Severity   : minor
3183 Frequency  : common for large clusters running liblustre clients
3184 Bugzilla   : 7198
3185 Description: doing an ls when liblustre clients are running is slow
3186 Details    : sending a glimpse AST to a liblustre client waits for every AST
3187              to time out, as liblustre clients will not respond.  Since they
3188              cannot cache data we refresh the OST lock LVB from disk instead.
3189
3190 Severity   : enhancement
3191 Bugzilla   : 7198
3192 Description: doing an ls at the same time as file IO can be slow
3193 Details    : enqueue and other "small" requests can be blocked behind many
3194              large IO requests.  Create a new OST IO portal for non-IO
3195              requests so they can be processed faster.
3196
3197 Severity   : minor
3198 Frequency  : rare (only HPUX clients mounting unsupported re-exported NFS vol)
3199 Bugzilla   : 5781
3200 Description: an HPUX NFS client would get -EACCESS when ftruncate()ing a newly
3201              created file with mode 000
3202 Details    : the Linux NFS server relies on an MDS_OPEN_OWNEROVERRIDE hack to
3203              allow an ftruncate() as a non-root user to a file with mode 000.
3204              Lustre now respects this flag to disable mode checks when
3205              truncating a file owned by the user
3206
3207 Severity   : minor
3208 Frequency  : liblustre-only, when liblustre client dies unexpectedly or becomes
3209              busy
3210 Bugzilla   : 7313
3211 Description: Revoking locks from clients that went dead or catatonic might take
3212              a lot of time.
3213 Details    : New lock flags FL_CANCEL_ON_BLOCK used by liblustre makes
3214              cancellation of such locks instant on servers without waiting for
3215              any reply from clients. Clients drops these locks when cancel
3216              notification from server is received without replying.
3217
3218 Severity   : minor
3219 Frequency  : liblustre-only, when liblustre client dies or becomes busy
3220 Bugzilla   : 7311
3221 Description: Doing ls on Linux clients can take a long time with active
3222              liblustre clients
3223 Details    : Liblustre client cannot handle ASTs in timely manner, so avoid
3224              granting such locks to it in the first place if possible.  Locks
3225              are taken by proxy on the OST during the read or write and
3226              dropped immediately afterward.  Add connect flags handling, do
3227              not grant locks to liblustre clients for glimpse ASTs.
3228
3229 Severity   : enhancement
3230 Bugzilla   : 6252
3231 Description: Improve read-ahead algorithm to avoid excessive IO for random reads
3232 Details    : Existing read-ahead algorithm is tuned for the case of streamlined
3233              sequential reads and behaves badly with applications doing random
3234              reads.  Improve it by reading ahead at least read region, and
3235              avoiding excessive large RPC for small reads.
3236
3237 Severity   : enhancement
3238 Bugzilla   : 8330
3239 Description: Creating more than 1000 files for a single job may cause a load
3240              imbalance on the OSTs if there are also a large number of OSTs.
3241 Details    : qos_prep_create() uses an OST index reseed value that is an
3242              even multiple of the number of available OSTs so that if the
3243              reseed happens in the middle of the object allocation it will
3244              still utilize the OSTs as uniformly as possible.
3245
3246 Severity   : major
3247 Frequency  : rare
3248 Bugzilla   : 8322
3249 Description: OST or MDS may oops in ping_evictor_main()
3250 Details    : ping_evictor_main() drops obd_dev_lock if deleting a stale export
3251              but doesn't restart at beginning of obd_exports_timed list
3252              afterward.
3253
3254 Severity   : enhancement
3255 Bugzilla   : 7304
3256 Description: improve by-nid export eviction on the MDS and OST
3257 Details    : allow multiple exports with the same NID to be evicted at one
3258              time without re-searching the exports list.
3259
3260 Severity   : major
3261 Frequency  : rare, only with supplementary groups enabled on SMP 2.6 kernels
3262 Bugzilla   : 7273
3263 Description: MDS may oops in groups_free()
3264 Details    : in rare race conditions a newly allocated group_info struct is
3265              freed again, and this can be NULL.  The 2.4 compatibility code
3266              for groups_free() checked for a NULL pointer, but 2.6 did not.
3267
3268 Severity   : minor
3269 Frequency  : common for liblustre clients doing little filesystem IO
3270 Bugzilla   : 9352, 7313
3271 Description: server may evict liblustre clients accessing contended locks
3272 Details    : if a client is granted a lock or receives a completion AST
3273              with a blocking AST already set it would not reply to the AST
3274              for LDLM_FL_CANCEL_ON_BLOCK locks.  It now replies to such ASTs.
3275
3276 Severity   : minor
3277 Frequency  : lfs setstripe, only systems with more than 160 OSTs
3278 Bugzilla   : 9440
3279 Description: unable to set striping with a starting offset beyond OST 160
3280 Details    : llapi_create_file() incorrectly limited the starting stripe
3281              index to the maximum single-file stripe count.
3282
3283 Severity   : minor
3284 Frequency  : LDAP users only
3285 Bugzilla   : 6163
3286 Description: lconf did not handle in-kernel recovery with LDAP properly
3287 Details    : lconf/LustreDB get_refs() is searching the wrong namespace
3288
3289 Severity   : enhancement
3290 Bugzilla   : 7342
3291 Description: bind OST threads to NUMA nodes to improve performance
3292 Details    : all OST threads are uniformly bound to CPUs on a single NUMA
3293              node and do their allocations there to localize memory access
3294
3295 Severity   : enhancement
3296 Bugzilla   : 7979
3297 Description: llmount can determine client NID directly from Myrinet (GM)
3298 Details    : the client NID code from gmnalnid was moved directly into
3299              llmount, removing the need to use this or specifying the
3300              client NID explicitly when mounting GM clients with zeroconf
3301
3302 Severity   : minor
3303 Frequency  : if client is started with down MDS
3304 Bugzilla   : 7184
3305 Description: if client is started with down MDS mount hangs in ptlrpc_queue_wait
3306 Details    : Having an LWI_INTR() wait event (interruptible, but no timeout)
3307              will wait indefinitely in ptlrpc_queue_wait->l_wait_event() after
3308              ptlrpc_import_delayed_req() because we didn't check if the
3309              request was interrupted, and we also didn't break out of the
3310              event loop if there was no timeout
3311
3312 Severity   : major
3313 Frequency  : rare
3314 Bugzilla   : 5047
3315 Description: data loss during non-page-aligned writes to a single file from
3316              both multiple nodes and multiple threads on one node at same time
3317 Details    : updates to KMS and lsm weren't protected by common lock. Resulting
3318              inconsistency led to false short-reads, that were cached and later
3319              used by ->prepare_write() to fill in partially written page,
3320              leading to data loss.
3321
3322 Severity   : minor
3323 Frequency  : always, if lconf --abort_recovery used
3324 Bugzilla   : 7047
3325 Description: lconf --abort_recovery fails with 'Operation not supported'
3326 Details    : lconf was attempting to abort recovery on the MDT device and not
3327              the MDS device
3328
3329 Severity   : enhancement
3330 Bugzilla   : 9445
3331 Description: remove cleanup logs
3332 Details    : replace lconf-generated cleanup logs with lustre internal
3333              cleanup routines.  Eliminates the need for client-cleanup and
3334              mds-cleanup logs.
3335
3336 Severity   : enhancement
3337 Bugzilla   : 8592
3338 Description: add support for EAs (user and system) on lustre filesystems
3339 Details    : it is now possible to store extended attributes in the Lustre
3340              client filesystem, and with the user_xattr mount option it
3341              is possible to allow users to store EAs on their files also
3342
3343 Severity   : enhancement
3344 Bugzilla   : 7293
3345 Description: Add possibility (config option) to show minimal available OST free
3346              space.
3347 Details    : When compiled with --enable-mindf configure option, statfs(2)
3348              (and so, df) will return least minimal free space available from
3349              all OSTs as amount of free space on FS, instead of summary of
3350              free spaces of all OSTs.
3351
3352 Severity   : enhancement
3353 Bugzilla   : 7311
3354 Description: do not expand extent locks acquired on OST-side
3355 Details    : Modify ldlm_extent_policy() to not expand local locks, acquired
3356              by server: they are not cached anyway.
3357
3358 Severity   : major
3359 Frequency  : when mmap is used/binaries executed from Lustre
3360 Bugzilla   : 9482
3361 Description: Unmmap pages before throwing them away from read cache.
3362 Details    : llap_shrink cache now attempts to unmap pages before discarding
3363              them (if unmapping failed - do not discard).  SLES9 kernel has
3364              extra checks that trigger if this unmapping is not done first.
3365
3366 Severity   : minor
3367 Frequency  : rare
3368 Bugzilla   : 6034
3369 Description: lconf didn't resolve symlinks before checking to see whether a
3370              given mountpoint was already in use
3371
3372 Severity   : minor
3373 Frequency  : when migrating failover services
3374 Bugzilla   : 6395, 9514
3375 Description: When migrating a subset of services from a node (e.g. failback
3376              from a failover service node) the remaining services would
3377              time out and evict clients.
3378 Details    : lconf --force (implied by --failover) sets the global obd_timeout
3379              to 5 seconds in order to quickly disconnect, but this caused
3380              other RPCs to time out too quickly.  Do not change the global
3381              obd_timeout for force cleanup, only set it for DISCONNECT RPCs.
3382
3383 Severity   : enhancement
3384 Frequency  : if MDS is started with down OST
3385 Bugzilla   : 9439,5706
3386 Description: Allow startup/shutdown of an MDS without depending on the
3387              availability of the OSTs.
3388 Details    : Asynchronously call mds_lov_synchronize during MDS startup.
3389              Add appropriate locking and lov-osc refcounts for safe
3390              cleaning.  Add osc abort_inflight calls in case the
3391              synchronize never started.
3392
3393 Severity   : minor
3394 Frequency  : occasional (Cray XT3 only)
3395 Bugzilla   : 7305
3396 Description: root not authorized to access files in CRAY_PORTALS environment
3397 Details    : The client process capabilities were not honoured on the MDS in
3398              a CRAY_PORTALS/CRAY_XT3 environment.  If the file had previously
3399              been accessed by an authorized user then root was able to access
3400              the file on the local client also.  The root user capabilities
3401              are now allowed on the MDS, as this environment has secure UID.
3402
3403 Severity   : minor
3404 Frequency  : occasional
3405 Bugzilla   : 6449
3406 Description: ldiskfs "too long searching" message happens too often
3407 Details    : A debugging message (otherwise harmless) prints too often on
3408              the OST console.  This has been reduced to only happen when
3409              there are fragmentation problems on the filesystem.
3410
3411 Severity   : minor
3412 Frequency  : rare
3413 Bugzilla   : 9598
3414 Description: Division by zero in statfs when all OSCs are inactive
3415 Details    : lov_get_stripecnt() returns zero due to incorrect order of checks,
3416              lov_statfs divides by value returned by lov_get_stripecnt().
3417
3418 Severity   : minor
3419 Frequency  : common
3420 Bugzilla   : 9489, 3273
3421 Description: First write from each client to each OST was only 4kB in size,
3422              to initialize client writeback cache, which caused sub-optimal
3423              RPCs and poor layout on disk for the first writen file.
3424 Details    : Clients now request an initial cache grant at (re)connect time
3425              and so that they can start streaming writes to the cache right
3426              away and always do full-sized RPCs if there is enough data.
3427              If the OST is rebooted the client also re-establishes its grant
3428              so that client cached writes will be honoured under the grant.
3429
3430 Severity   : minor
3431 Frequency  : common
3432 Bugzilla   : 7198
3433 Description: Slow ls (and stat(2) syscall) on files residing on IO-loaded OSTs
3434 Details    : Now I/O RPCs go to different portal number and (presumably) fast
3435              lock requests (and glimses) and other RPCs get their own service
3436              threads pool that should be able to service those RPCs
3437              immediatelly.
3438
3439 Severity   : enhancement
3440 Bugzilla   : 7417
3441 Description: Ability to exchange lustre version between client and servers and
3442              issue warnings at client side if client is too old. Also for
3443              liblustre clients there is ability to refuse connection of too old
3444              clients.
3445 Details    : New 'version' field is added to connect data structure that is
3446              filled with version info. That info is later checked by server and
3447              by client.
3448
3449 Severity   : minor
3450 Frequency  : rare, liblustre only.
3451 Bugzilla   : 9296, 9581
3452 Description: Two simultaneous writes from liblustre at offset within same page
3453              might proceed at the same time overwriting eachother with stale
3454              data.
3455 Details    : I/O lock withing llu_file_prwv was released too early, before data
3456              actually was hitting the wire. Extended lock-holding time until
3457              server acknowledges receiving data.
3458
3459 Severity   : minor
3460 Frequency  : extremely rare. Never observed in practice.
3461 Bugzilla   : 9652
3462 Description: avoid generating lustre_handle cookie of 0.
3463 Details    : class_handle_hash() generates handle cookies by incrementing
3464              global counter, and can hit 0 occasionaly (this is unlikely, but
3465              not impossible, because initial value of cookie counter is
3466              selected randonly). Value of 0 is used as a sentinel meaning
3467              "unassigned handle" --- avoid it. Also coalesce two critical
3468              sections in this function into one.
3469
3470 Severity   : enhancement
3471 Bugzilla   : 9528
3472 Description: allow liblustre clients to delegate truncate locking to OST
3473 Details    : To avoid overhead of locking, liblustre client instructs OST to
3474              take extent lock in ost_punch() on client's behalf. New connection
3475              flag is added to handle backward compatibility.
3476
3477 Severity   : enhancement
3478 Bugzilla   : 4928, 7341, 9758
3479 Description: allow number of OST service threads to be specified
3480 Details    : a module parameter allows the number of OST service threads
3481              to be specified via "options ost ost_num_threads={N}" in the
3482              OSS's /etc/modules.conf or /etc/modprobe.conf.
3483
3484 Severity   : major
3485 Frequency  : rare
3486 Bugzilla   : 6146, 9635, 9895
3487 Description: servers crash with bad pointer in target_handle_connect()
3488 Details    : In rare cases when a client is reconnecting it was possible that
3489              the connection request was the last reference for that export.
3490              We would temporarily drop the export reference and get a new
3491              one, but this may have been the last reference and the export
3492              was just destroyed.  Get new reference before dropping old one.
3493
3494 Severity   : enhancement
3495 Frequency  : if client is started with failover MDS
3496 Bugzilla   : 9818
3497 Description: Allow multiple MDS hostnames in the mount command
3498 Details    : Try to read the configuration from all specified MDS
3499              hostnames during a client mount in case the "primary"
3500              MDS is down.
3501
3502 Severity   : enhancement
3503 Bugzilla   : 9297
3504 Description: Stop sending data to evicted clients as soon as possible.
3505 Details    : Check if the client we are about to send or are sending data to
3506              was evicted already. (Check is done every second of waiting,
3507              for which l_wait_event interface was extended to allow checking
3508              of exit condition at specified intervals).
3509
3510 Severity   : minor
3511 Frequency  : rare, normally only when NFS exporting is done from client
3512 Bugzilla   : 9301
3513 Description: 'bad disk LOV MAGIC: 0x00000000' error when chown'ing files
3514              without objects
3515 Details    : Make mds_get_md() recognise empty md case and set lmm size to 0.
3516
3517 Severity   : minor
3518 Frequency  : always, if srand() is called before liblustre initialization
3519 Bugzilla   : 9794
3520 Description: Liblustre uses system PRNG disturbing its usage by user application
3521 Details    : Introduce internal to lustre fast and high-quality PRNG for
3522              lustre usage and make liblustre and some other places in generic
3523              lustre code to use it.
3524
3525 Severity   : enhancement
3526 Bugzilla   : 9477, 9557, 9870
3527 Description: Verify that the MDS configuration logs are updated when xml is
3528 Details    : Check if the .xml configuration logs are newer than the config
3529              logs stored on the MDS and report an error if this is the case.
3530              Request --write-conf, or allow starting with --old_conf.
3531
3532 Severity   : enhancement
3533 Bugzilla   : 6034
3534 Description: Handle symlinks in the path when checking if Lustre is mounted.
3535 Details    : Resolve intermediate symlinks when checking if a client has
3536              mounted a filesystem to avoid duplicate client mounts.
3537
3538 Severity   : minor
3539 Frequency  : rare
3540 Bugzilla   : 9309
3541 Description: lconf can hit an error exception but still return success.
3542 Details    : The lconf command catches the Command error exception at the top
3543              level script context and will exit with the associated exit
3544              status, but doesn't ensure that this exit status is non-zero.
3545
3546 Severity   : minor
3547 Frequency  : rare
3548 Bugzilla   : 9493
3549 Description: failure of ptlrpc thread startup can cause oops
3550 Details    : Starting a ptlrpc service thread can fail if there are a large
3551              number of threads or the server memory is very fragmented.
3552              Handle this without oopsing.
3553
3554 Severity   : minor
3555 Frequency  : always, only if liblustre and non-default acceptor port was used
3556 Bugzilla   : 9933
3557 Description: liblustre cannot connect to servers with non-default acceptor port
3558 Details    : tcpnal_set_default_params() was not called and was therefore
3559              ignoring the environment varaible TCPNAL_PORT, as well as other
3560              TCPNAL_ environment variables
3561
3562 Severity   : minor
3563 Frequency  : rare
3564 Bugzilla   : 9923
3565 Description: two objects could be created on the same OST for a single file
3566 Details    : If an OST is down, in some cases it was possible to create two
3567              objects on a single OST for a single file.  No problems other
3568              than potential performance impact and spurious error messages.
3569
3570 Severity   : minor
3571 Frequency  : rare
3572 Bugzilla   : 5681, 9562
3573 Description: Client may oops in ll_unhash_aliases
3574 Details    : Client dcache may become inconsistent in race condition.
3575              In some cases "getcwd" can fail if the current directory is
3576              modified.
3577
3578 Severity   : minor
3579 Frequency  : always
3580 Bugzilla   : 9942
3581 Description: Inode refcounting problems in NFS export code
3582 Details    : link_raw functions used to call d_instantiate without obtaining
3583              extra inode reference first.
3584
3585 Severity   : minor
3586 Frequency  : rare
3587 Bugzilla   : 9942, 9903
3588 Description: Referencing freed requests leading to crash, memleaks with NFS.
3589 Details    : We used to require that call to ll_revalidate_it was always
3590              followed by ll_lookup_it. Also with revalidate_special() it is
3591              possible to call ll_revalidate_it() twice for the same dentry
3592              even if first occurence returned success. This fix changes semantic
3593              between DISP_ENQ_COMPLETE disposition flag to mean there is extra
3594              reference on a request referred from the intent.
3595              ll_intent_release() then releases such a request.
3596
3597 Severity   : minor
3598 Frequency  : rare, normally benchmark loads only
3599 Bugzilla   : 1443
3600 Description: unlinked inodes were kept in memory on the client
3601 Details    : If a client is repeatedly creating and unlinking files it
3602              can accumulate a lot of stale inodes in the inode slab cache.
3603              If there is no other client load running this can cause the
3604              client node to run out of memory.  Instead flush old inodes
3605              from client cache that have the same inode number as a new inode.
3606
3607 Severity   : minor
3608 Frequency  : SLES9 2.6.5 kernel and long filenames only
3609 Bugzilla   : 9969, 10379
3610 Description: utime reports stale NFS file handle
3611 Details    : SLES9 uses out-of-dentry names in some cases, which confused
3612              the lustre dentry revalidation.  Change it to always use the
3613              in-dentry qstr.
3614
3615 Severity   : major
3616 Frequency  : rare, unless heavy write-truncate concurrency is continuous
3617 Bugzilla   : 4180, 6984, 7171, 9963, 9331
3618 Description: OST becomes very slow and/or deadlocked during object unlink
3619 Details    : filter_destroy() was holding onto the parent directory lock
3620              while truncating+unlinking objects.  For very large objects this
3621              may block other threads for a long time and slow overall OST
3622              responsiveness.  It may also be possible to get a lock ordering
3623              deadlock in this case, or run out of journal credits because of
3624              the combined truncate+unlink.  Solution is to do object truncate
3625              first in one transaction without parent lock, and then do the
3626              final unlink in a new transaction with the parent lock.  This
3627              reduces the lock hold time dramatically.
3628
3629 Severity   : major
3630 Frequency  : rare, 2.4 kernels only
3631 Bugzilla   : 9967
3632 Description: MDS or OST cleanup may trip kernel BUG when dropping kernel lock
3633 Details    : mds_cleanup() and filter_cleanup() need to drop the kernel lock
3634              before unmounting their filesystem in order to avoid deadlock.
3635              The kernel_locked() function in 2.4 kernels only checks whether
3636              the kernel lock is held, not whether it is this process that is
3637              holding it as 2.6 kernels do.
3638
3639 Severity   : major
3640 Frequency  : rare
3641 Bugzilla   : 9635
3642 Description: MDS or OST may oops/LBUG if a client is connecting multiple times
3643 Details    : The client ptlrpc code may be trying to reconnect to a down
3644              server before a previous connection attempt has timed out.
3645              Increase the reconnect interval to be longer than the connection
3646              timeout interval to avoid sending duplicate connections to
3647              servers.
3648
3649 Severity   : minor
3650 Frequency  : echo_client brw_test command
3651 Bugzilla   : 9919
3652 Description: fix echo_client to work with OST preallocated code
3653 Details    : OST preallocation code (5137) didn't take echo_client IO path
3654              into account: echo_client calls filter methods outside of any
3655              OST thread and, hence, there is no per-thread preallocated
3656              pages and buffers to use. Solution: hijack pga pages for IO. As
3657              a byproduct, this avoids unnecessary data copying.
3658
3659 Severity   : minor
3660 Frequency  : rare
3661 Bugzilla   : 3555, 5962, 6025, 6155, 6296, 9574
3662 Description: Client can oops in mdc_commit_close() after open replay
3663 Details    : It was possible for the MDS to return an open request with no
3664              transaction number in mds_finish_transno() if the client was
3665              evicted, but without actually returning an error.  Clients
3666              would later try to replay that open and may trip an assertion
3667              Simplify the client close codepath, and always return an error
3668              from the MDS in case the open is not successful.
3669
3670 Severity   : major
3671 Frequency  : rare, 2.6 OSTs only
3672 Bugzilla   : 10076
3673 Description: OST may deadlock under high load on fragmented files
3674 Details    : If there was a heavy load and highly-fragmented OST filesystems
3675              it was possible to have all the OST threads deadlock waiting on
3676              allocation of biovecs, because the biovecs were not released
3677              until the entire RPC IO was completed.  Instead, release biovecs
3678              as soon as they are complete to ensure forward IO progress.
3679
3680 Severity   : enhancement
3681 Bugzilla   : 9578
3682 Description: Support for specifying external journal device at mount
3683 Details    : If an OST or MDS device is formatted with an external journal
3684              device, this device major/minor is stored in the ext3 superblock
3685              and may not be valid for failover.  Allow detecting and
3686              specifying the external journal at mount time.
3687
3688 Severity   : major
3689 Frequency  : rare
3690 Bugzilla   : 10235
3691 Description: Mounting an MDS with pending unlinked files may cause oops
3692 Details    : target_finish_recovery() calls mds_postrecov() which returned
3693              the number of orphans unlinked. mds_lov_connect->mds_postsetup()
3694              considers this an error and immediately begins cleaning up the
3695              lov, just after starting the mds_lov process
3696
3697 Severity   : enhancement
3698 Bugzilla   : 9461
3699 Description: Implement 'lfs df' to report actual free space on per-OST basis
3700 Details    : Add sub-command 'df' on 'lfs' to report the disk space usage of
3701              MDS/OSDs. Usage: lfs df [-i][-h]. Command Options: '-i' to report
3702              usage of objects; '-h' to report in human readable format.
3703
3704 ------------------------------------------------------------------------------
3705
3706 08-26-2005  Cluster File Systems, Inc. <info@clusterfs.com>
3707        * version 1.4.5
3708        * bug fixes
3709
3710 Severity   : major
3711 Frequency  : rare
3712 Bugzilla   : 7264
3713 Description: Mounting an ldiskfs file system with mballoc may crash OST node.
3714 Details    : ldiskfs mballoc code may reference an uninitialized buddy struct
3715              at startup during orphan unlinking.  Instead, skip buddy update
3716              before setup, as it will be regenerated after recovery is complete.
3717
3718 Severity   : minor
3719 Frequency  : rare
3720 Bugzilla   : 7039
3721 Description: If an OST is inactive, its locks might reference stale inodes.
3722 Details    : lov_change_cbdata() must iterate over all namespaces, even if
3723              they are inactive to clear inode references from the lock.
3724
3725 Severity   : enhancement
3726 Frequency  : occasional, if non-standard max_dirty_mb used
3727 Bugzilla   : 7138
3728 Description: Client will block write RPCs if not enough grant
3729 Details    : If a client has max_dirty_mb smaller than max_rpcs_in_flight,
3730              then the client will block writes while waiting for another RPC
3731              to complete instead of consuming its dirty limit.  With change
3732              we get improved performance when max_dirty_mb is small.
3733
3734 Severity   : enhancement
3735 Bugzilla   : 3389, 6253
3736 Description: Add support for supplementary groups on the MDS.
3737 Details    : The MDS has an upcall /proc/fs/lustre/mds/{mds}/group_upcall
3738              (set to /usr/sbin/l_getgroups if enabled) which will do MDS-side
3739              lookups for user supplementary groups into a cache.
3740
3741 Severity   : minor
3742 Bugzilla   : 7278
3743 Description: O_CREAT|O_EXCL open flags in liblustre always return -EEXIST
3744 Details    : Make libsysio to not enforce O_EXCL by clearing the flag,
3745              for liblustre O_EXCL is enforced by MDS.
3746
3747 Severity   : minor
3748 Bugzilla   : 6455
3749 Description: readdir never returns NULL in liblustre.
3750 Details    : Corrected llu_iop_getdirentries logic, to return offset of next
3751              dentry in struct dirent.
3752
3753 Severity   : minor
3754 Bugzilla   : 7137
3755 Frequency  : liblustre only, depends on application IO pattern
3756 Description: liblustre clients evicted if not contacting servers
3757 Details    : Don't put liblustre clients into the ping_evictor list, so
3758              they will not be evicted by the pinger ever.
3759
3760 Severity   : enhancement
3761 Bugzilla   : 6902
3762 Description: Add ability to evict clients by NID from MDS.
3763 Details    : By echoing "nid:$NID" string into
3764              /proc/fs/lustre/mds/.../evict_client client with nid that equals to
3765              $NID would be instantly evicted from this MDS and from all active
3766              OSTs connected to it.
3767
3768 Severity   : minor
3769 Bugzilla   : 7198
3770 Description: Do not query file size twice, somewhat slowing stat(2) calls.
3771 Details    : lookup_it_finish() used to query file size from OSTs that was not
3772              needed.
3773
3774 Severity   : minor
3775 Bugzilla   : 6237
3776 Description: service threads change working directory to that of init
3777 Details    : Starting lustre service threads may pin the working directory
3778              of the parent thread, making that filesystem busy.  Threads
3779              now change to the working directory of init to avoid this.
3780
3781 Severity   : minor
3782 Bugzilla   : 6827
3783 Frequency  : during shutdown only
3784 Description: shutdown with a failed MDS or OST can cause unmount to hang
3785 Details    : Don't resend DISCONNECT messages in ptlrpc_disconnect_import()
3786              if server is down.
3787
3788 Severity   : minor
3789 Bugzilla   : 7331
3790 Frequency  : 2.6 only
3791 Description: chmod/chown may include an extra supplementary group
3792 Details    : ll{,u}_mdc_pack_op_data() does not properly initialize the
3793              supplementary group and if none is specified this is used.
3794
3795 Severity   : minor
3796 Bugzilla   : 5479 (6816)
3797 Frequency  : rare
3798 Description: Racing open + rm can assert client in mdc_set_open_replay_data()
3799 Details    : If lookup is in progress on a file that is unlinked we might try
3800              to revalidate the inode and fail in revalidate after lookup is
3801              complete and ll_file_open() enqueues the open again but
3802              it_open_error() was not checking DISP_OPEN_OPEN errors correctly.
3803
3804 Severity   : minor
3805 Frequency  : always, if lconf --abort_recovery used
3806 Bugzilla   : 7047
3807 Description: lconf --abort_recovery fails with 'Operation not supported'
3808 Details    : lconf was attempting to abort recovery on the MDT device and not
3809              the MDS device
3810
3811 ------------------------------------------------------------------------------
3812
3813 2005-08-08  Cluster File Systems, Inc. <info@clusterfs.com>
3814        * version 1.4.4
3815        * bug fixes
3816
3817 Severity   : major
3818 Frequency  : rare (only unsupported configurations with a node running as an
3819              OST and a client)
3820 Bugzilla   : 6514, 5137
3821 Description: Mounting a Lustre file system on a node running as an OST could
3822              lead to deadlocks
3823 Details    : OSTs now preallocates memory needed to write out data at
3824              startup, instead of when needed, to avoid having to
3825              allocate memory in possibly low memory situations.
3826              Specifically, if the file system is mounted on on OST,
3827              memory pressure could force it to try to write out data,
3828              which it needed to allocate memory to do.  Due to the low
3829              memory, it would be unable to do so and the node would
3830              become unresponsive.
3831
3832 Severity   : enhancement
3833 Bugzilla   : 7015
3834 Description: Addition of lconf --service command line option
3835 Details    : lconf now accepts a '--service <arg>' option, which is
3836              shorthand for 'lconf --group <arg> --select <arg>=<hostname>'
3837
3838 Severity   : enhancement
3839 Bugzilla   : 6101
3840 Description: Failover mode is now the default for OSTs.
3841 Details    : By default, OSTs will now run in failover mode.  To return to
3842              the old behaviour, add '--failout' to the lmc line for OSTs.
3843
3844 Severity   : enhancement
3845 Bugzilla   : 1693
3846 Description: Health checks are now provided for MDS and OSTs
3847 Details    : Additional detailed health check information on MSD and OSTs
3848              is now provided through the procfs health_check value.
3849
3850 Severity   : minor
3851 Frequency  : occasional, depends on IO load
3852 Bugzilla   : 4466
3853 Description: Disk fragmentation on the OSTs could eventually cause slowdowns
3854              after numerous create/delete cycles
3855 Details    : The ext3 inode allocation policy would not allocate new inodes
3856              very well on the OSTs because there are no new directories
3857              being created.  Instead we look for groups with free space if
3858              the parent directories are nearly full.
3859
3860 Severity   : major
3861 Bugzilla   : 6302
3862 Frequency  : rare
3863 Description: Network or server problems during mount may cause partially
3864              mounted clients instead of returning an error.
3865 Details    : The config llog parsing code may overwrite the error return
3866              code during mount error handling, returning success instead
3867              of an error.
3868
3869 Severity   : minor
3870 Bugzilla   : 6422
3871 Frequency  : rare
3872 Description: MDS can fail to allocate large reply buffers
3873 Details    : After long uptimes the MDS can fail to allocate large reply
3874              buffers (e.g. zconf client mount config records) due to memory
3875              fragmentation or consumption by the buffer cache.  Preallocate
3876              some large reply buffers so that these replies can be sent even
3877              under memory pressure.
3878
3879 Severity   : minor
3880 Bugzilla   : 6266
3881 Frequency  : rare (liblustre)
3882 Description: fsx running with liblustre complained that using truncate() to
3883              extend the file doesn't work.  This patch corrects that issue.
3884 Details    : This is the liblustre equivalent of the fix for bug 6196.  Fixes
3885              ATTR_SIZE and lsm use in llu_setattr_raw.
3886
3887 Severity   : critical
3888 Bugzilla   : 6866
3889 Frequency  : rare, only 2.6 kernels
3890 Description: Unusual file access patterns on the MDS may result in inode
3891              data being lost in very rare circumstances.
3892 Details    : Bad interaction between the ea-in-inode patch and the "no-read"
3893              code in the 2.6 kernel caused the inode and/or EA data not to
3894              be read from disk, causing single-file corruption.
3895
3896 Severity   : critical
3897 Bugzilla   : 6998
3898 Frequency  : rare, only 2.6 filesystems using extents
3899 Description: Heavy concurrent write and delete load may cause data corruption.
3900 Details    : It was possible under high-load situations to have an extent
3901              metadata block in the block device cache from a just-unlinked
3902              file overwrite a newly-allocated data block.  We now unmap any
3903              metadata buffers that alias just-allocated data blocks.
3904
3905 Severity   : minor
3906 Bugzilla   : 7241
3907 Frequency  : filesystems with default stripe_count larger than 77
3908 Description: lconf+mke2fs fail when formatting filesystem with > 77 stripes
3909 Details    : lconf specifies an inode size of 4096 bytes when the default
3910              stripe_count is larger than 77.  This conflicts with the default
3911              inode density of 1 per 4096 bytes.  Allocate smaller inodes in
3912              this case to avoid pinning too much memory for large EAs.
3913
3914 ------------------------------------------------------------------------------
3915
3916 2005-07-07  Cluster File Systems, Inc. <info@clusterfs.com>
3917        * version 1.4.3
3918        * bug fixes
3919
3920 Severity   : minor
3921 Frequency  : rare (extremely heavy IO load with hundreds of clients)
3922 Bugzilla   : 6172
3923 Description: Client is evicted, gets IO error writing to file
3924 Details    : lock ordering changes for bug 5492 reintroduced bug 3267 and
3925              caused clients to be evicted for AST timeouts.  The fixes in
3926              bug 5192 mean we no longer need to have such short AST timeouts
3927              so ldlm_timeout has been increased.
3928
3929 Severity   : major
3930 Frequency  : occasional during --force or --failover shutdown under load
3931 Bugzilla   : 5949, 4834
3932 Description: Server oops/LBUG if stopped with --force or --failover under load
3933 Details    : a collection of import/export refcount and cleanup ordering
3934              issues fixed for safer force cleanup
3935
3936 Severity   : major
3937 Frequency  : only filesystems larger than 120 OSTs
3938 Bugzilla   : 5990, 6223
3939 Description: lfs getstripe would oops on a very large filesystem
3940 Details    : lov_getconfig used kfree on vmalloc'd memory
3941
3942 Severity   : minor
3943 Frequency  : only filesystems exporting via NFS to Solaris 10 clients
3944 Bugzilla   : 6242, 6243
3945 Description: reading from files that had been truncated to a non-zero size
3946              but never opened returned no data
3947 Details    : ll_file_read() reads zeros from no-object files to EOF
3948
3949 Severity   : major
3950 Frequency  : rare
3951 Bugzilla   : 6200
3952 Description: A bug in MDS/OSS recovery could cause the OSS to fail an assertion
3953 Details    : There's little harm in aborting MDS/OSS recovery and letting it
3954              try again, so I removed the LASSERT and return an error instead.
3955
3956 Severity   : enhancement
3957 Bugzilla   : 5902
3958 Description: New debugging infrastructure for tracking down data corruption
3959 Details    : The I/O checksum code was replaced to: (a) control it at runtime,
3960              (b) cover more of the client-side code path, and (c) try to narrow
3961              down where problems occurred
3962
3963 Severity   : major
3964 Frequency  : rare
3965 Bugzilla   : 3819, 4364, 4397, 6313
3966 Description: Racing close and eviction MDS could cause assertion in mds_close
3967 Details    : It was possible to get multiple mfd references during close and
3968              client eviction, leading to one thread referencing a freed mfd.
3969
3970 Severity:  : enhancement
3971 Bugzilla   : 3262, 6359
3972 Description: Attempts to reconnect to servers are now more aggressive.
3973 Details    : This builds on the enhanced upcall-less recovery that was added
3974              in 1.4.2.  When trying to reconnect to servers, clients will
3975              now try each server in the failover group every 10 seconds.  By
3976              default, clients would previously try one server every 25 seconds.
3977
3978 Severity   : major
3979 Frequency  : rare
3980 Bugzilla   : 6371
3981 Description: After recovery, certain operations trigger a failed
3982              assertion on a client.
3983 Details    : Failing over an mds, using lconf -d --failover, while a
3984              client was doing a readdir() call would cause the client to
3985              LBUG after recovery completed and the readdir() was resent.
3986
3987 Severity   : enhancement
3988 Bugzilla   : 6296
3989 Description: Default groups are now added by lconf
3990 Details    : You can now run lconf --group <servicename> without having to
3991              manually add groups with lmc.
3992
3993 Severity   : major
3994 Frequency  : occasional
3995 Bugzilla   : 6412
3996 Description: Nodes with an elan id of 0 trigger a failed assertion
3997
3998 Severity   : minor
3999 Frequency  : always when accessing e.g. tty/console device nodes
4000 Bugzilla   : 3790
4001 Description: tty and some other devices nodes cannot be used on lustre
4002 Details    : file's private_data field is used by device data and lustre
4003              values in there got lost. New field was added to struct file to
4004              store fs-specific private data.
4005
4006 Severity   : minor
4007 Frequency  : when exporting Lustre via NFS
4008 Bugzilla   : 5275
4009 Description: NFSD failed occasionally when looking up a path component
4010 Details    : NFSD is looking up ".." which was broken in ext3 directories
4011              that had grown large enough to become hashed.
4012
4013 Severity   : minor
4014 Frequency  : Clusters with multiple interfaces not on the same subnet
4015 Bugzilla   : 5541
4016 Description: Nodes will repeatedly try to reconnect to an interface which it
4017              cannot reach and report an error to the log.
4018 Details    : Extra peer list entries will be created by lconf with some peers
4019              unreachable.  lconf now validates the peer before adding it.
4020
4021 Severity   : major
4022 Frequency  : Only if a default stripe is set on the filesystem root.
4023 Bugzilla   : 6367
4024 Description: Setting a default stripe on the filesystem root prevented the
4025              filesystem from being remounted.
4026 Details    : The client was sending extra request flags in the root getattr
4027              request and did not allocate a reply buffer for the dir EA.
4028
4029 Severity   : major
4030 Frequency  : occasional, higher if lots of files are accessed by one client
4031 Bugzilla   : 6159, 6097
4032 Description: Client trips assertion regarding lsm mismatch/magic
4033 Details    : While revalidating inodes the VFS looks up inodes with ifind()
4034              and in rare cases can find an inode that is being freed.
4035              The ll_test_inode() code will free the lsm during ifind()
4036              when it finds an existing inode and then the VFS later attaches
4037              this free lsm to a new inode.
4038
4039 Severity   : major
4040 Frequency  : rare
4041 Bugzilla   : 6422, 7030
4042 Description: MDS deadlock between mkdir and client eviction
4043 Details    : Creating a new file via mkdir or mknod (starting a transaction
4044              and getting the ns lock) can deadlock with client eviction
4045              (gets ns lock and trying to finish a synchronous transaction).
4046
4047 Severity   : minor
4048 Frequency  : occasional
4049 Description: While starting a server, the fsfilt_ext3 module could not be
4050              loaded.
4051 Details    : CFS's improved ext3 filesystem is named ldiskfs for 2.6
4052              kernels.  Previously, lconf would still use the ext3 name
4053              when trying to load modules.  Now, it will correctly use
4054              ext3 on 2.4 and ldiskfs on 2.6.