dm6: WIP, see TODO
[dupemerge] / dm6
1 #!/usr/bin/perl
2 use warnings;
3 use strict;
4 use Digest::SHA1 qw(sha1 sha1_hex sha1_base64);
5 use Fcntl qw(:DEFAULT :flock);
6 use File::Compare;
7 use File::Path;
8 use File::Temp;
9
10 # Copyright (C) 2010 Zygo Blaxell <dm5@mailtoo.hungrycats.org>
11
12 # This program is free software; you can redistribute it and/or modify
13 # it under the terms of the GNU General Public License as published by
14 # the Free Software Foundation; either version 2 of the License, or
15 # (at your option) any later version.
16
17 # This program is distributed in the hope that it will be useful,
18 # but WITHOUT ANY WARRANTY; without even the implied warranty of
19 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
20 # GNU General Public License for more details.
21
22 # You should have received a copy of the GNU General Public License
23 # along with this program; if not, write to the Free Software
24 # Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
25
26 sub digest {
27         my ($filename) = (@_);
28         die "'$filename' is not a plain file" if (-l $filename) || ! (-f _);
29         my $ctx = Digest::SHA1->new;
30         sysopen(FILE, $filename, O_RDONLY|O_NONBLOCK) or die "open: $filename: $!";
31         binmode(FILE);          # FIXME:  Necessary?  Probably harmless...
32         $ctx->addfile(\*FILE);
33         close(FILE) or die "close: $filename: $!";
34         return $ctx->b64digest;
35 }
36
37 sub usage {
38         die <<USAGE;
39 Usage: $0 link-dir
40 Hashes a NUL-separated list of files on stdin into link-dir.
41 USAGE
42 }
43
44 # Link files
45 sub link_files {
46         my ($from, $to) = (@_);
47
48         my $inode_dir = $to;
49         my $inode_base = $to;
50         $inode_dir =~ s:[^/]*$::o;
51         $inode_base =~ s:^.*/::os;
52         my $tmp_to = File::Temp::tempnam($inode_dir, ".$inode_base.");
53         link($from, $tmp_to) or die "link: $from -> $tmp_to: $!";
54         unless (rename($tmp_to, $to)) {
55                 my $saved_bang = $!;
56                 unlink($tmp_to) or warn "unlink: $tmp_to: $!";  # Try, possibly in vain, to clean up
57                 die "rename: $tmp_to -> $from: $saved_bang";
58         }
59 }
60
61 my $link_dir = shift @ARGV;
62 (-d $link_dir) or usage;
63
64 $/ = "\0";
65 while (<STDIN>) {
66         my $file = $_;
67         eval {
68                 chomp $file;
69                 print STDERR "digest($file) = ";
70                 my $digest = digest($file);
71                 $digest =~ y:/:_:;
72                 print STDERR "$digest\n";
73                 $digest =~ s:^(.)(.)(.):$1/$2/$3:osg;
74                 my ($parent) = ($digest =~ m:^(.*/):osg);
75                 $parent = "$link_dir/$parent";
76                 mkpath($parent, { verbose => 1 });
77                 die "mkpath: $parent: $!" unless -d $parent;
78                 link_files($file, "$link_dir/$digest");
79         };
80         warn "$file: $@" if $@;
81 }
82
83 exit(0);
84
85 __END__
86
87 #################################################################################
88 #                     GNU GENERAL PUBLIC LICENSE                                #
89 #                        Version 2, June 1991                                   #
90 #                                                                               #
91 #  Copyright (C) 1989, 1991 Free Software Foundation, Inc.                      #
92 #      59 Temple Place, Suite 330, Boston, MA  02111-1307  USA                  #
93 #  Everyone is permitted to copy and distribute verbatim copies                 #
94 #  of this license document, but changing it is not allowed.                    #
95 #                                                                               #
96 #                             Preamble                                          #
97 #                                                                               #
98 #   The licenses for most software are designed to take away your               #
99 # freedom to share and change it.  By contrast, the GNU General Public          #
100 # License is intended to guarantee your freedom to share and change free        #
101 # software--to make sure the software is free for all its users.  This          #
102 # General Public License applies to most of the Free Software                   #
103 # Foundation's software and to any other program whose authors commit to        #
104 # using it.  (Some other Free Software Foundation software is covered by        #
105 # the GNU Library General Public License instead.)  You can apply it to         #
106 # your programs, too.                                                           #
107 #                                                                               #
108 #   When we speak of free software, we are referring to freedom, not            #
109 # price.  Our General Public Licenses are designed to make sure that you        #
110 # have the freedom to distribute copies of free software (and charge for        #
111 # this service if you wish), that you receive source code or can get it         #
112 # if you want it, that you can change the software or use pieces of it          #
113 # in new free programs; and that you know you can do these things.              #
114 #                                                                               #
115 #   To protect your rights, we need to make restrictions that forbid            #
116 # anyone to deny you these rights or to ask you to surrender the rights.        #
117 # These restrictions translate to certain responsibilities for you if you       #
118 # distribute copies of the software, or if you modify it.                       #
119 #                                                                               #
120 #   For example, if you distribute copies of such a program, whether            #
121 # gratis or for a fee, you must give the recipients all the rights that         #
122 # you have.  You must make sure that they, too, receive or can get the          #
123 # source code.  And you must show them these terms so they know their           #
124 # rights.                                                                       #
125 #                                                                               #
126 #   We protect your rights with two steps: (1) copyright the software, and      #
127 # (2) offer you this license which gives you legal permission to copy,          #
128 # distribute and/or modify the software.                                        #
129 #                                                                               #
130 #   Also, for each author's protection and ours, we want to make certain        #
131 # that everyone understands that there is no warranty for this free             #
132 # software.  If the software is modified by someone else and passed on, we      #
133 # want its recipients to know that what they have is not the original, so       #
134 # that any problems introduced by others will not reflect on the original       #
135 # authors' reputations.                                                         #
136 #                                                                               #
137 #   Finally, any free program is threatened constantly by software              #
138 # patents.  We wish to avoid the danger that redistributors of a free           #
139 # program will individually obtain patent licenses, in effect making the        #
140 # program proprietary.  To prevent this, we have made it clear that any         #
141 # patent must be licensed for everyone's free use or not licensed at all.       #
142 #                                                                               #
143 #   The precise terms and conditions for copying, distribution and              #
144 # modification follow.                                                          #
145 #                                                                               #
146 #                     GNU GENERAL PUBLIC LICENSE                                #
147 #    TERMS AND CONDITIONS FOR COPYING, DISTRIBUTION AND MODIFICATION            #
148 #                                                                               #
149 #   0. This License applies to any program or other work which contains         #
150 # a notice placed by the copyright holder saying it may be distributed          #
151 # under the terms of this General Public License.  The "Program", below,        #
152 # refers to any such program or work, and a "work based on the Program"         #
153 # means either the Program or any derivative work under copyright law:          #
154 # that is to say, a work containing the Program or a portion of it,             #
155 # either verbatim or with modifications and/or translated into another          #
156 # language.  (Hereinafter, translation is included without limitation in        #
157 # the term "modification".)  Each licensee is addressed as "you".               #
158 #                                                                               #
159 # Activities other than copying, distribution and modification are not          #
160 # covered by this License; they are outside its scope.  The act of              #
161 # running the Program is not restricted, and the output from the Program        #
162 # is covered only if its contents constitute a work based on the                #
163 # Program (independent of having been made by running the Program).             #
164 # Whether that is true depends on what the Program does.                        #
165 #                                                                               #
166 #   1. You may copy and distribute verbatim copies of the Program's             #
167 # source code as you receive it, in any medium, provided that you               #
168 # conspicuously and appropriately publish on each copy an appropriate           #
169 # copyright notice and disclaimer of warranty; keep intact all the              #
170 # notices that refer to this License and to the absence of any warranty;        #
171 # and give any other recipients of the Program a copy of this License           #
172 # along with the Program.                                                       #
173 #                                                                               #
174 # You may charge a fee for the physical act of transferring a copy, and         #
175 # you may at your option offer warranty protection in exchange for a fee.       #
176 #                                                                               #
177 #   2. You may modify your copy or copies of the Program or any portion         #
178 # of it, thus forming a work based on the Program, and copy and                 #
179 # distribute such modifications or work under the terms of Section 1            #
180 # above, provided that you also meet all of these conditions:                   #
181 #                                                                               #
182 #     a) You must cause the modified files to carry prominent notices           #
183 #     stating that you changed the files and the date of any change.            #
184 #                                                                               #
185 #     b) You must cause any work that you distribute or publish, that in        #
186 #     whole or in part contains or is derived from the Program or any           #
187 #     part thereof, to be licensed as a whole at no charge to all third         #
188 #     parties under the terms of this License.                                  #
189 #                                                                               #
190 #     c) If the modified program normally reads commands interactively          #
191 #     when run, you must cause it, when started running for such                #
192 #     interactive use in the most ordinary way, to print or display an          #
193 #     announcement including an appropriate copyright notice and a              #
194 #     notice that there is no warranty (or else, saying that you provide        #
195 #     a warranty) and that users may redistribute the program under             #
196 #     these conditions, and telling the user how to view a copy of this         #
197 #     License.  (Exception: if the Program itself is interactive but            #
198 #     does not normally print such an announcement, your work based on          #
199 #     the Program is not required to print an announcement.)                    #
200 #                                                                               #
201 # These requirements apply to the modified work as a whole.  If                 #
202 # identifiable sections of that work are not derived from the Program,          #
203 # and can be reasonably considered independent and separate works in            #
204 # themselves, then this License, and its terms, do not apply to those           #
205 # sections when you distribute them as separate works.  But when you            #
206 # distribute the same sections as part of a whole which is a work based         #
207 # on the Program, the distribution of the whole must be on the terms of         #
208 # this License, whose permissions for other licensees extend to the             #
209 # entire whole, and thus to each and every part regardless of who wrote it.     #
210 #                                                                               #
211 # Thus, it is not the intent of this section to claim rights or contest         #
212 # your rights to work written entirely by you; rather, the intent is to         #
213 # exercise the right to control the distribution of derivative or               #
214 # collective works based on the Program.                                        #
215 #                                                                               #
216 # In addition, mere aggregation of another work not based on the Program        #
217 # with the Program (or with a work based on the Program) on a volume of         #
218 # a storage or distribution medium does not bring the other work under          #
219 # the scope of this License.                                                    #
220 #                                                                               #
221 #   3. You may copy and distribute the Program (or a work based on it,          #
222 # under Section 2) in object code or executable form under the terms of         #
223 # Sections 1 and 2 above provided that you also do one of the following:        #
224 #                                                                               #
225 #     a) Accompany it with the complete corresponding machine-readable          #
226 #     source code, which must be distributed under the terms of Sections        #
227 #     1 and 2 above on a medium customarily used for software interchange; or,  #
228 #                                                                               #
229 #     b) Accompany it with a written offer, valid for at least three            #
230 #     years, to give any third party, for a charge no more than your            #
231 #     cost of physically performing source distribution, a complete             #
232 #     machine-readable copy of the corresponding source code, to be             #
233 #     distributed under the terms of Sections 1 and 2 above on a medium         #
234 #     customarily used for software interchange; or,                            #
235 #                                                                               #
236 #     c) Accompany it with the information you received as to the offer         #
237 #     to distribute corresponding source code.  (This alternative is            #
238 #     allowed only for noncommercial distribution and only if you               #
239 #     received the program in object code or executable form with such          #
240 #     an offer, in accord with Subsection b above.)                             #
241 #                                                                               #
242 # The source code for a work means the preferred form of the work for           #
243 # making modifications to it.  For an executable work, complete source          #
244 # code means all the source code for all modules it contains, plus any          #
245 # associated interface definition files, plus the scripts used to               #
246 # control compilation and installation of the executable.  However, as a        #
247 # special exception, the source code distributed need not include               #
248 # anything that is normally distributed (in either source or binary             #
249 # form) with the major components (compiler, kernel, and so on) of the          #
250 # operating system on which the executable runs, unless that component          #
251 # itself accompanies the executable.                                            #
252 #                                                                               #
253 # If distribution of executable or object code is made by offering              #
254 # access to copy from a designated place, then offering equivalent              #
255 # access to copy the source code from the same place counts as                  #
256 # distribution of the source code, even though third parties are not            #
257 # compelled to copy the source along with the object code.                      #
258 #                                                                               #
259 #   4. You may not copy, modify, sublicense, or distribute the Program          #
260 # except as expressly provided under this License.  Any attempt                 #
261 # otherwise to copy, modify, sublicense or distribute the Program is            #
262 # void, and will automatically terminate your rights under this License.        #
263 # However, parties who have received copies, or rights, from you under          #
264 # this License will not have their licenses terminated so long as such          #
265 # parties remain in full compliance.                                            #
266 #                                                                               #
267 #   5. You are not required to accept this License, since you have not          #
268 # signed it.  However, nothing else grants you permission to modify or          #
269 # distribute the Program or its derivative works.  These actions are            #
270 # prohibited by law if you do not accept this License.  Therefore, by           #
271 # modifying or distributing the Program (or any work based on the               #
272 # Program), you indicate your acceptance of this License to do so, and          #
273 # all its terms and conditions for copying, distributing or modifying           #
274 # the Program or works based on it.                                             #
275 #                                                                               #
276 #   6. Each time you redistribute the Program (or any work based on the         #
277 # Program), the recipient automatically receives a license from the             #
278 # original licensor to copy, distribute or modify the Program subject to        #
279 # these terms and conditions.  You may not impose any further                   #
280 # restrictions on the recipients' exercise of the rights granted herein.        #
281 # You are not responsible for enforcing compliance by third parties to          #
282 # this License.                                                                 #
283 #                                                                               #
284 #   7. If, as a consequence of a court judgment or allegation of patent         #
285 # infringement or for any other reason (not limited to patent issues),          #
286 # conditions are imposed on you (whether by court order, agreement or           #
287 # otherwise) that contradict the conditions of this License, they do not        #
288 # excuse you from the conditions of this License.  If you cannot                #
289 # distribute so as to satisfy simultaneously your obligations under this        #
290 # License and any other pertinent obligations, then as a consequence you        #
291 # may not distribute the Program at all.  For example, if a patent              #
292 # license would not permit royalty-free redistribution of the Program by        #
293 # all those who receive copies directly or indirectly through you, then         #
294 # the only way you could satisfy both it and this License would be to           #
295 # refrain entirely from distribution of the Program.                            #
296 #                                                                               #
297 # If any portion of this section is held invalid or unenforceable under         #
298 # any particular circumstance, the balance of the section is intended to        #
299 # apply and the section as a whole is intended to apply in other                #
300 # circumstances.                                                                #
301 #                                                                               #
302 # It is not the purpose of this section to induce you to infringe any           #
303 # patents or other property right claims or to contest validity of any          #
304 # such claims; this section has the sole purpose of protecting the              #
305 # integrity of the free software distribution system, which is                  #
306 # implemented by public license practices.  Many people have made               #
307 # generous contributions to the wide range of software distributed              #
308 # through that system in reliance on consistent application of that             #
309 # system; it is up to the author/donor to decide if he or she is willing        #
310 # to distribute software through any other system and a licensee cannot         #
311 # impose that choice.                                                           #
312 #                                                                               #
313 # This section is intended to make thoroughly clear what is believed to         #
314 # be a consequence of the rest of this License.                                 #
315 #                                                                               #
316 #   8. If the distribution and/or use of the Program is restricted in           #
317 # certain countries either by patents or by copyrighted interfaces, the         #
318 # original copyright holder who places the Program under this License           #
319 # may add an explicit geographical distribution limitation excluding            #
320 # those countries, so that distribution is permitted only in or among           #
321 # countries not thus excluded.  In such case, this License incorporates         #
322 # the limitation as if written in the body of this License.                     #
323 #                                                                               #
324 #   9. The Free Software Foundation may publish revised and/or new versions     #
325 # of the General Public License from time to time.  Such new versions will      #
326 # be similar in spirit to the present version, but may differ in detail to      #
327 # address new problems or concerns.                                             #
328 #                                                                               #
329 # Each version is given a distinguishing version number.  If the Program        #
330 # specifies a version number of this License which applies to it and "any       #
331 # later version", you have the option of following the terms and conditions     #
332 # either of that version or of any later version published by the Free          #
333 # Software Foundation.  If the Program does not specify a version number of     #
334 # this License, you may choose any version ever published by the Free Software  #
335 # Foundation.                                                                   #
336 #                                                                               #
337 #   10. If you wish to incorporate parts of the Program into other free         #
338 # programs whose distribution conditions are different, write to the author     #
339 # to ask for permission.  For software which is copyrighted by the Free         #
340 # Software Foundation, write to the Free Software Foundation; we sometimes      #
341 # make exceptions for this.  Our decision will be guided by the two goals       #
342 # of preserving the free status of all derivatives of our free software and     #
343 # of promoting the sharing and reuse of software generally.                     #
344 #                                                                               #
345 #                             NO WARRANTY                                       #
346 #                                                                               #
347 #   11. BECAUSE THE PROGRAM IS LICENSED FREE OF CHARGE, THERE IS NO WARRANTY    #
348 # FOR THE PROGRAM, TO THE EXTENT PERMITTED BY APPLICABLE LAW.  EXCEPT WHEN      #
349 # OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND/OR OTHER PARTIES        #
350 # PROVIDE THE PROGRAM "AS IS" WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESSED    #
351 # OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF          #
352 # MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE.  THE ENTIRE RISK AS     #
353 # TO THE QUALITY AND PERFORMANCE OF THE PROGRAM IS WITH YOU.  SHOULD THE        #
354 # PROGRAM PROVE DEFECTIVE, YOU ASSUME THE COST OF ALL NECESSARY SERVICING,      #
355 # REPAIR OR CORRECTION.                                                         #
356 #                                                                               #
357 #   12. IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING   #
358 # WILL ANY COPYRIGHT HOLDER, OR ANY OTHER PARTY WHO MAY MODIFY AND/OR           #
359 # REDISTRIBUTE THE PROGRAM AS PERMITTED ABOVE, BE LIABLE TO YOU FOR DAMAGES,    #
360 # INCLUDING ANY GENERAL, SPECIAL, INCIDENTAL OR CONSEQUENTIAL DAMAGES ARISING   #
361 # OUT OF THE USE OR INABILITY TO USE THE PROGRAM (INCLUDING BUT NOT LIMITED     #
362 # TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY      #
363 # YOU OR THIRD PARTIES OR A FAILURE OF THE PROGRAM TO OPERATE WITH ANY OTHER    #
364 # PROGRAMS), EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE         #
365 # POSSIBILITY OF SUCH DAMAGES.                                                  #
366 #                                                                               #
367 #                      END OF TERMS AND CONDITIONS                              #
368 #                                                                               #
369 #             How to Apply These Terms to Your New Programs                     #
370 #                                                                               #
371 #   If you develop a new program, and you want it to be of the greatest         #
372 # possible use to the public, the best way to achieve this is to make it        #
373 # free software which everyone can redistribute and change under these terms.   #
374 #                                                                               #
375 #   To do so, attach the following notices to the program.  It is safest        #
376 # to attach them to the start of each source file to most effectively           #
377 # convey the exclusion of warranty; and each file should have at least          #
378 # the "copyright" line and a pointer to where the full notice is found.         #
379 #                                                                               #
380 #     <one line to give the program's name and a brief idea of what it does.>   #
381 #     Copyright (C) <year>  <name of author>                                    #
382 #                                                                               #
383 #     This program is free software; you can redistribute it and/or modify      #
384 #     it under the terms of the GNU General Public License as published by      #
385 #     the Free Software Foundation; either version 2 of the License, or         #
386 #     (at your option) any later version.                                       #
387 #                                                                               #
388 #     This program is distributed in the hope that it will be useful,           #
389 #     but WITHOUT ANY WARRANTY; without even the implied warranty of            #
390 #     MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the             #
391 #     GNU General Public License for more details.                              #
392 #                                                                               #
393 #     You should have received a copy of the GNU General Public License         #
394 #     along with this program; if not, write to the Free Software               #
395 #     Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA #
396 #                                                                               #
397 #                                                                               #
398 # Also add information on how to contact you by electronic and paper mail.      #
399 #                                                                               #
400 # If the program is interactive, make it output a short notice like this        #
401 # when it starts in an interactive mode:                                        #
402 #                                                                               #
403 #     Gnomovision version 69, Copyright (C) year  name of author                #
404 #     Gnomovision comes with ABSOLUTELY NO WARRANTY; for details type `show w'. #
405 #     This is free software, and you are welcome to redistribute it             #
406 #     under certain conditions; type `show c' for details.                      #
407 #                                                                               #
408 # The hypothetical commands `show w' and `show c' should show the appropriate   #
409 # parts of the General Public License.  Of course, the commands you use may     #
410 # be called something other than `show w' and `show c'; they could even be      #
411 # mouse-clicks or menu items--whatever suits your program.                      #
412 #                                                                               #
413 # You should also get your employer (if you work as a programmer) or your       #
414 # school, if any, to sign a "copyright disclaimer" for the program, if          #
415 # necessary.  Here is a sample; alter the names:                                #
416 #                                                                               #
417 #   Yoyodyne, Inc., hereby disclaims all copyright interest in the program      #
418 #   `Gnomovision' (which makes passes at compilers) written by James Hacker.    #
419 #                                                                               #
420 #   <signature of Ty Coon>, 1 April 1989                                        #
421 #   Ty Coon, President of Vice                                                  #
422 #                                                                               #
423 # This General Public License does not permit incorporating your program into   #
424 # proprietary programs.  If your program is a subroutine library, you may       #
425 # consider it more useful to permit linking proprietary applications with the   #
426 # library.  If this is what you want to do, use the GNU Library General         #
427 # Public License instead of this License.                                       #
428 #################################################################################