CS107 Programming Paradigms (Stanford University) by Jerry Cain (22-27)学习笔记

最新推荐文章于 2020-09-19 13:59:57 发布

原创最新推荐文章于 2020-09-19 13:59:57 发布 · 1.9k 阅读

CC 4.0 BY-SA版权

本文深入探讨了函数式编程语言Scheme和Haskell的特点与应用，包括递归函数的设计技巧、内存管理和垃圾回收机制，以及Scheme和Haskell在实际开发中的对比。文章还介绍了Python中的字典、类和对象的实现，以及Python在XML解析与Internet编程方面的应用。

Lecture22

写一个名为power_set的函数, 它将生成包含输入集合所有子集的集合.

例:

> ( power_set '(1 2 3) )

( () (2) (3) (2 3) (1) (1 2) (1 3) (1 2 3)) // 注意:　是组合, 不是排列.

以上结果可以看成是由两部分组成：cons '(() (2) (3) (2 3)) '((1) (1 2) (1 3) (1 2 3))

另外：

> (power_set '())

(())

定义：

(define (ps set)

( if (null?set) '(())

( append ( ps (cdr set ) ) // 1

( map ( lambda ( subset)

( cons (car set) subset ) )　　// lambda中的函数用于map 操作时, 对列表中每个元素进行运算．

( ps ( cdr set ) ) ) ) ) ) // 2 本行产生map操作的列表

以上代码中, 1/2两处的set指向同一个集合对象 Scheme中通过变量名来向对象是唯一的方法．

//--------------------------------------------------------

写递归函数的技巧：

A. 最简值中抽出规则：1. 尾元素+ 剩余元素 2. 列出几个头元素的具体生成

B. 给出最简时的值：初值．　采用A中获得的递归规则进行叠加．

C. 写递归函数时往往是从给定的n开始，反向递减．

在Scheme语言中, 没有循环, 一般用递归函数来代替循环．

//--------------------------------------------------------

( define ( ps set )

( if ( null ? set) '(())

( let ( ( ps_rest ( ps ( cdr set ) ) ) ) // 使得只作一次cdr运算, 运算结果可以在let 范围内各处使用, 从而节省时间.

( append ps_rest

( map ( lambda ( subset)

( cons ( car set) subset ) )

ps_rest ) ) ) ) )

此定义与上定义等价，但运行效率高许多.

//--------------------------------------------------------

let 表达式：

( let ( ( x expv1)

( y expv2)

( z expv3) )

... )

实际上：

( let ( ( x ...)

( y ...) )

( a x y ) )

等价于：

(( lambda ( x y )

( a x y )) ... ...)

let 是换一种不同的方式将一些应用函数表示成一些有待评估的表达式．

//------------------------------------------------------------------------

写一个名为permate 的函数．它能输出列表的全部6种排列．

> (permate '( 1 2 3))

( ( 1 2 3 ) ( 1 3 2 ) // 以1 打头

( 2 1 3 ) ( 2 3 1)　 // 以2打头

( 3 1 2 ) ( 3 2 1) )　// 以3打头

接收一个长度为n的列表，输出的是一个长度为 n! 的列表．

( define ( permate items)

( if ( null?items ) '(())

( apply append

( map ( lambda (elem)

( map ( lambda ( permatation )

( cons elem permatation ) )

( permatation ( remove items elem ) ) ) )

items ) )

//------------------------------------------------

Scheme程序编写技巧：

其程序可看作由一部分一部分拼起来，在写的过程中，可以不按程序运算的逻辑顺序来写．( 可以先写后面的再写前面的, 先写中间的再写两头的等等. )

Scheme的许多内置函数后面都维护着一个数据结构，因此用户只需要调用内置函数，而无需自已再根据应用来分配、调度和管理内存；无需用户自已来维护相应的数据结构。

Scheme的程序运行的执行过程，可以分为三个步骤：输入－评估－打印.

不论用户输入的数据是什么类型，Scheme都会在后台产生一个链表，接收输入的数据后将其填写到链表相应的结点中，并标明数据类型，最后返回这个链表的首地址，为后面的评估过程作准备。

> '(1 2 3)

( 1 2 3 )

> ( cons 1 ( cons 2 ( cons 3 '() ) ) )

( 1 2 3 )

以上两段代码是等价的。

cons作为Scheme的一个符号是依附在一段代码上的，解释器很熟悉，解释器遇到cons后就知道怎么分配一段内存给相关的数据，分配好后，它还要知道在各已分配内存空间中需要放入什么数据。

以上为Scheme的基本工作原理，可以用C++模拟写一个min版的Scheme解释器。

Lecture23

Scheme的内存分配和管理

> ( define seq '(1 2 3) ) // 此定义将名为seq的变量与结点值域分别为1, 2, 3的链表关联起来. seq 为一个全局变量.

> ( car seq ) // car 评估并获取全局变量seq 所指身的链表的首结点的数据域的值.

> ( cons '(1 2 3) '(4 5 6) )

((1 2 3 ) 4 5 6)

在cons运算之前, 系统会生成两个链表,一个链表的结点分别为: 1 2 3. 另一个链表的结点分别为 : 4 5 6. cons运算后, 会生成一个新结点. 结点的值域保存链表 1 2 3 的首地址, 结点的指针域保存链表 4 5 6 的首地址.

> ( cons '(1 2) '(1 2) ) // 1

( ( lambda (x) ( cons x x ) ) '( 1 2 ) ) // 2

由于打印函数对内存管理视若无睹. 打印函数只简单地要求打印列表的car部分和cdr部分. 所以以上两个函数的打印结果是一样的. 但实际上,两个函数的内存分布是不一样的.第二个函数产生的只有三个结点的链表,第二和第三个结点分别保存值1 2. 而首结点的值域和指针域同时指向第二结点.

//--------------------------------------------------------------

> ( map car '( (1 2) (3 4) (5 6 7) ) ) // map 可带任意个参数

(1 3 5)

> ( map + '(1 2) '(10 20) '(100 400) )

(111 422)

> ( map * '(1) '(2) '(3) '(4) '(5) )

(120)

实现:

( define ( unary-map fn seq ) ) // 比较Lecture21中的my_unary_map

( if ( null ? seq) ()

( cons ( fn (car seq) )

( unary-map fn ( cdr seq ) ) ) ) )

因为:

( define ( bar a b c . d)

( list a b c d ) )

> ( bar 1 2 3 4 5 6 )

( 1 2 3 ( 4 5 6 ))

> ( bar 1 2 3 )

( 1 2 3 ())

也就是说点"." 表示其后无论有多少个参数, 都将被收集起来放到参数列表中.

所以map的定义为:

( define ( map fn first-list other-list)

( if ( null ? first-list) '()

( cons ( apply fn

( cons ( car first-list )

( unary-map car other-list ) ) )

( apply map

( cons fn

( cons ( cdr first-list )

( unary-map cdr other-list ) ) ) ) ) ) )

map 底层是依靠cons来帮助它分配空间的. cons调用时Scheme会自动生成一个cons区域.

当打印输出完成后, 之前cons分配得到的cons内存区域就会被回收.

例子:

>( define x '(1 2 3) ) // 变量x与链表( 1 2 3 )关联起来了.

>( define y (cdr x) )

>( define x '(4 5) ) // 这样一来结点结点 1 就无变量指向了. 某些系统会给每个结点设一个计数器, 当计数器为0时, 由垃圾回收器自动回收.

Scheme的垃圾回收机制:

所有变量(如: x, y)放在Symbal map集中, 系统自动生成的链表结点放在mast cons set集中, 每个单元结点都可以被单独释放. 然后根据define的定义将变量与链表结点关联起来.

系统会根据算法, 在需要的时候对Symbal map中的所有变量作一次搜索. 对mast cons set中与之有关联的结点作上标记. 然后令mast cons set收回其集中所有未做标记的结点.

//-----------------------------------------------------------------

ML 是Scheme的增强版

Harkll

Erlang 优势: 并行处理

Lecture24
C语言是由写unix的人发明的, 目的是使写操作系统更容易.
C++在70年代末~80年代初开始出现.
Python从2000年开始流行.
循环的一轮被称为一次迭代, 所谓用迭代来代替递归, 就是用循环来代替递归. 反过来, 递归也可以用来替换迭代. 如scheme语言所示.
"hello there".statswith("...")
"hello there".capitalize()
"Hello There".istitle()
"[ ]" 表列表且此列表可变.
//--------------------------------
smallnum = [ 1, 2, 3, 4, 5, 6]
len( smallnum )
smallnum[ -2 ]
smallnum[ len( smallnum ) - 1 ]
smallnum[ 1 : 3 ]
smallnum[ 0 : 3 ]
smallnum[ 0 : 0 ]
smallnum[ -2 : ]
smallnum[ 1 : -1 ]
smallnum[ 1 : 0 ]
smallnum[ 1 : ]
"hello there"[ 4 : 7 ]
//--------------------------------
seq = [ 0, 1, 2, 3, 5, 6, 7, 8]
seq[ 4 : 4 ] = [ 4 ]
seq
//--------------------------------
seq = [ 5, 9, 2, 0 ]
seq
seq[ 0 ] = 14
seq
//--------------------------------
seq = ( 1, 2, 3, 4 )
seq[ 1 ] = 14
//--------------------------------
seq = [ "a", "b", "c"]
seq.append( "d" )
seq
//----------------------------------------------
在名为 divisors.py 的文件中作如下定义:
def getherDivisors( number ) :
divisors = []
for div in range( 1, number+1 ) :
if number % div == 0:
divisors.append( div )
return divisors
每一行的缩进靠制表符设定.
三重引号对表注释字符串将出现在多行中.
在其它模块中引用函数getherDivisors的方式有两种.
方法1:
>>> import divisors
>>> divisors.getherDivisors( 24 )
方法2:
>>> from divisors import getherDivisors
>>> getherDivisors( 24 )
//--------------------------------------------------
字典
>>> student = {} // 大括号对描述一个字典常量的所有内容.
>>> student
{}
>>> student["name"] = "Linda"
...
>>> student["gpa"] = 3.56
>>> student
...
>>> student["gpa"]
...
>>> student["gpa"] = 4.5
...
Python中的所有对象( 如: 列表, 字典等 )都是通过引用传递的.
>>> student["friends"] = ["aa", "bb", "cc"]
>>> student
...
>>> student["ideas"] = {}
>>> student
...
>>> playground = { }
>>> playground[ 4 ] = "think"
>>> playground
...

Lecture25

字典是Python的基础

grammar = { '<start>' : [ [ 'This', '<object>', 'is here.' ] ],

'<object>' : [ [ 'computer' ],

[ 'car' ],

[ 'assignment' ] ] };

在Scheme中可以用序列化的对象结构来表达数据.

本例中:

grammar在内存中的字典有两个key分别是 start 和 object. 它们各自分别映射到一个list的列表. start对应的列表长度为1, object对应的列表长度为3.

import sys

from random import choice, seed

def expand( symbol )

if symbol.startswith( '<' ): // '<' 表尖括号

definitions = grammar[ symbol ]

expansion = choice( definitions ) // 实际上以一个整数或一个列表作为参数, choice是内置函数, 用以获得随机数. 若输入n, 则choice返回一个介于0与n之间的随机数 // 若输入一个列表, 则choice等概率地随机选取一个此列表的元素, 并返回此元素.

map( expand, expansion ) // 用递归而非迭代的方法来得到所有值.

else

sys.out.write(symbol)

运行:

>>> seed()

>>> expand( '<start>' )

若将grammar作为参数则上例可改为

def expand( symbol, grammar )

if symbol.startswith( '<' ):

definitions = grammar[ symbol ]

expansion = choice( definitions )

map( expand, expansion ) // map 只能映射带一个参数的一元函数.

// lambdas 实际上在Python中也存在, 此句也可表达为:

map( lambdas, item: expand ( item, grammar ), expansion )

else

sys.out.write(symbol)

运行:

>>> seed()

>>> expand( '<start>', grammar )

//---------------------------------------------------------------

Python中的各种对象实际上是通过引用( 别名 )被四处传递的.
>>> x = [1, 2, 3]
>>> x
[1, 2, 3]
>>> y = x
>>> y
[1, 2, 3]
>>> x.append(4)
>>> x
[1, 2, 3, 4]
>>> y
[1, 2, 3, 4]
>>> z = [10, 12, 14]
>>> z
[10, 12, 14]
>>> w = [z, z]
>>> w
[ [10, 12, 14], [10, 12, 14] ]
>>> z .append( 17 )
>>> z
[10, 12, 14, 17]
>>> w
[[10, 12, 14, 17], [[10, 12, 14, 17]]

若不想通过引用, 而对赋值变量分配新的内存空间, 则需要使用浅拷贝或深度copy贝.
from copy import copy, deepcopy
>>> x = [14, 15, 21]
>>> x
[14, 15, 21]
>>> y = x
>>> y
[14, 15, 21]
>>> x is y // is 为内置
True
>>> z = copy( x ) // 只进行浅拷贝( 一层拷贝 )
>>> z
[14, 15, 21]
>>> z is x
False

>>> m = [ 1, 2, 3 ] // 内存中生成三个结点组成的链表, 链表首地址赋给m, 结点的值域中的值分别为1, 2, 3.
>>> n = [m, m] // 内存中生成两个结点组成的链表, 链表首地址赋给n, 两个结点的值域都指向链表m
>>> p = deepcopy( n ) //

//------------------------------------------------------------

Python 中的类和对象.
Python中的类和对象的实现都是以字典为基础的. 从内存的角度看, Python中类与字典的实现机制是一样的. Python, Object-C等语言都是把类( 或结构 )中的field作为字符串储存在字典中的.
lex.py 文件:
class lexicon:
def __init__( self, filename = 'words' ) : // self 是从Object-C中" 借来"的
infile = open( filename, 'r' )
words = infile.readlines()
self.words = [ ] // Python对象的内存最初被初始化为空, 当调用此self.words = ... 时就会为其中添加一个名为words的成员. 这一点与C/C++等在语言是不同的后者在为对象分配完内存空间后, 此空间包含哪些成员变量, 它们又是如何分布的就已经确定了.
for word in words :
length = len( word ) - 1
self.words.append( word[ : length ] )

def ContainsWord( self, word ) :
return self.words[ bisect( self.words, word ) - 1 ] == word
Python实际类对象通过一个字典来建模, C/C++的所有事情都是在编译时完成的.
使用:
>>> from lex import lexicon
>>> el = lexicon()
>>> lexicon.__dict__ // 此句可以得到与lexicon相对应的字典内存分布说明. 其含有所有嵌入在内部的符号的列表.
>>> el.words = [ ] // Python 无"私有成员变量" 或 "私有成员函数" 的概念. 此句清空了lexicon类对象el的self.world成员变量, 此成员变量在__init__函数中曾被初始化.
>>> el.__dict__
[ 'words' : [ ] ]
//-------------------------------------------------------------

>>> o = object() // Python将自动产生一个Object对象
>>> o
<...>
>>> o.__dict__
{ }
>>> o.a = 17 // o.__dict__[ 'a' ] = 17
>>> o.b = "hello" // o.__dict__[ 'b' ] = "hello"
>>> o.c = False // o.__dict__[ 'c' ] = False
>>> o.__dict__
{ 'a':17, 'b':"hello", 'c':False }
Python所使用的对象是动态可扩展的, C/C++ , Java的所有任何代码其对象大小在对象一产生后就已经确定了.
Python是一种动态执行可扩展语言, 在C/C++中函数调用要借助Activation Record, 但Python则无此机制.