编程珠玑第一章课后题9——第一次访问向量项时初始化为0

博客介绍了如何使用两个数组from和to以及一个变量top来判断向量项是否已被初始化。通过记录向量项初始化顺序和索引关系,可以有效地检测初始化状态。这种方法通过反证法证明了其正确性,确保了在未初始化的向量项中不会出现误判。

此题第一眼看上去好像无解,无论怎么想都是使用某个标志标识向量项是否是第一次被访问,但是无论用什么标识都有可能未初始化前就已经为对应的值,然而答案给了一个很神奇的方法,使用两个数组fromto和表示当前访问元素个数的变量top

工作原理

假定向量为data,给定向量项的索引i,如果from[i]<top并且to[from[i]]=idata[i]已经被初始化,否则没有。当第一次遇到索引i时,

from[i] = top
to[top] = i
top++

正确性证明

证明逆否命题:如果data[j]没有被初始化,那么from[i]<top并且to[from[i]]=i不可能同时成立,再用反证法证明这个命题成立:
如果某个未被初始化的向量项data[j],有from[j]=c<top,那么一定存在某个已经初始化的向量项data[i]from[i]=c,那么to[from[i]]=i≠jto[from[i]]=i\neq jto[from[i]]=i=j,又from[j]=from[i]from[j]=from[i]from[j]=from[i],因此to[from[j]]≠jto[from[j]]\neq jto[from[j]]=j,这与反证法的假设矛盾,故原逆否命题成立,原命题成立。

实质

实质上from[i]记录的是索引为i的向量项是第几个被初始化的,to是为了防止多个向量项同时声称是被第m个初始化的,因此to[m]记录了第m个被初始化的向量项的索引为多少,两个数组一起保证了向量项是否被初始化能被正确判断。

### 编程珠玑第一:磁盘排序实现方法 对于大规模数据的排序问,尤其是当可用内存有限而数据量远超内存容量,《编程珠玑》中的经典案例提供了一种分治策略来解决问。以下是针对此问的具体分析和解决方案。 #### 背景描述 在实际应用中,如果需要对一个包含大量记录(如10,000,000条记录)的磁盘文件进行排序,并且每条记录是一个7位整数,同仅有1MB的内存可供使用,则传统的基于内存的排序算法无法直接适用。此需考虑外部排序技术[^2]。 #### 外部排序的核心思想 由于内存限制,整个文件不可能一次性加载到内存中完成排序操作。因此,通常会采取如下步骤: 1. **分割文件** 将大文件划分为若干个小文件,使得每个小文件都可以完全载入内存并利用内部排序算法对其进行排序。例如,在本例中可将原始文件分成多个子集,每个子集中包含一定数量的记录以便于它们能够被读取至内存中处理。 2. **内部排序** 对每一个单独的小文件执行高效的内部排序算法(比如快速排序或者归并排序)。这些经过初步整理后的有序片段会被写回到硬盘上形成临文件。 3. **多路归并** 当所有的部分都已各自排好序之后,最后一步便是把这些已经排序好的小文件通过一种称为“k-way merge”的过程组合成最终的一个整体有序的大文件。这一阶段可能还需要额外的技术支持以优化性能,像优先队列可以帮助管理来自不同源流的数据比较工作。 #### 示例代码展示 下面给出一段伪代码用于说明上述逻辑流程的一部分——即如何创建初始的那些小型有序文件以及简单的两路归并演示: ```python def sort_large_file(input_filename, output_filename, memory_limit=1e6): import os # 假设每条记录占用固定字节数 size_per_record size_per_record = 8 # 字节大小估计值 records_in_memory = int(memory_limit / size_per_record) temp_files = [] with open(input_filename, &#39;r&#39;) as infile: while True: lines = list(islice(infile, records_in_memory)) if not lines: break sorted_lines = sorted(lines, key=lambda line: int(line.strip())) temp_fd, temp_path = tempfile.mkstemp() with os.fdopen(temp_fd, &#39;w&#39;) as tmpfile: tmpfile.writelines(sorted_lines) temp_files.append(temp_path) k_way_merge(temp_files, output_filename) def two_way_merge(file_a, file_b, out_file): """简单版本的双路合并""" with open(file_a, &#39;r&#39;) as fa, \ open(file_b, &#39;r&#39;) as fb, \ open(out_file, &#39;w&#39;) as fo: a_line = next(fa, None) b_line = next(fb, None) while a_line is not None or b_line is not None: if (b_line is None) or ((a_line is not None) and int(a_line.strip()) <= int(b_line.strip())): fo.write(a_line) a_line = next(fa, None) else: fo.write(b_line) b_line = next(fb, None) ``` 以上仅为简化版示意程序;真实场景下还需注意边界条件、错误检测等问。 #### 总结 综上所述,面对超出内存容量的大规模数据排序需求,“先分解再逐步聚合”的思路非常有效。这种方法不仅适用于《编程珠玑》所讨论的情况,也广泛应用于其他大数据领域内的各种挑战之中。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值