Linux的cpufreq(动态变频)技术

Linux的cpufreq(动态变频)技术

linux低功耗研究也有一段时间了,基本把低功耗的实现方式想清楚了(主要分成机制和策略),这段时间的工作主要在机制上。暂时想实现的主要的机制有:cpu级,设备驱动级,系统平台级。管理颗粒度不断递增,形成三驾马车齐驱的形势。

 

cpu级:主要实现比较容易的在系统处于目标在于频繁发生、更高粒度的电源状态改变,主要的实现方式为idle,包括今天的主要想讲的动态主频。

设备驱动级:主要实现对单个设备驱动的管理(suspend,resume等),通过系统监测将闲置的设备,通过从用户态对sys文件目录动态进行单个驱动设备的管理

,置于省电模式。

系统平台级:目标在于管理较大的、非常见的重大电源状态改变,用于减少产品设备在长时间的空闲之后,减少电源消耗 。主要实现方式是依托linux内核所支持的apm技术,实现整个系统的睡眠/恢复(sleep)

 

这几个层次其实并不是相互独立的,都是相互交叉的,比如系统平台级的睡眠不可避免会涉及到cpu的sleep模式和设备驱动的挂起,而动态主频的实现除了cpu本身的支持也需要外围驱动随着主频变化做出相应的适应活动。因此这里的分级只是一种粗范围的,逻辑上的分层。

 

前段时间还调研了一下IBM和Monta Vista搞得那套DPM(Dynamic Power Management)机制,看了不少论文和观点,总的感觉就是太过复杂而且也不是很实用,感觉噱头大过实际功效,(因此这套机制始终还不能进入内核的mainline),言归正传,还是重点讲述下cpufreq技术。

 

1.为什么要cpufreq?

 

关于要不要实现cpufreq技术,我也纠结过,一个原因是:当时对内核如何提供这么一套动态变频的机制还不了解,只觉得应该非常麻烦,因为涉及到外围驱动的参数更新,另外一个原因是:在SEP4020这种体量的处理器上跑linux,即使运行在最高频率时的处理能力可能也不是很富余,我再给它降频还有没有意义?挣扎之后还是觉得要实现它,我也给自己列了这么几条原因:

n      虽然cpu在板级中已不是主要的耗电源,但是仍然占着举足轻重的位置,功耗机制到最后就是几毫安几毫安的扣了,降频肯定能在一定程序上节约功耗那我为什么不采用?

n      细化功耗管理的颗粒度,为应用程序提供更多的功耗节省机制

n      对普通的应用,系统可以运行在维持平台运作的最低频率,在有处理任务时,变频机制会自动切换到合适的高主频,并且在任务结束时重回省电的低主频,这样就解决了我之前的第二个疑惑。

Ø        SEP4020在运行在88M时板级功耗为:222mA

Ø        SEP4020在运行在56M时板级功耗为:190mA,降低14%

Ø        SEP4020在运行在32M时板级功耗为:160mA,降低28%

n      实现的一些工作是我们一直需要去做但是一直没有动力做的

Ø        变频会涉及到大量模块的参数的重新配置,作为cpu原厂,我们需要把这些参数彻底掌握

Ø        对这些参数的充分理解,能对现有系统进行优化,提升整体系统的效率,比如使用发现一些参数还是太过保守(sdram,nand),我们的通用配置在系统降为32M时仍能正常工作。

n      可行性论证没有问题:偶然看到armkiller同志提供的nand驱动代码中有变频的实现(这里非常感谢armkiller),网上这方面的文章很少,于是翻阅了linux内核源码中自带的/documentation/cpufreq后,对这种机制大概有一定的了解(linux中的documentation是个好东东),也看到了一些处理器厂商为自己的cpu已经实现了的代码,如sa1100,pxa系列。

 

2. 内核所提供的这种cpufreq技术的机制

n      目的:

变频技术是指CPU硬件本身支持在不同的频率下运行,系统在运行过程中可以根据随时可能发生变化的系统负载情况动态在这些不同的运行频率之间进行切换,从而达到对性能和功耗做到二者兼顾的目的。

n      来源:

虽然多个处理器生产厂家都提供了对变频技术的支持,但是其硬件实现和使用方法必然存在着细微甚至巨大的差别。这就使得每个处理器生产厂家都需要按照其特殊的硬件实现和使用方法向内核中添加代码,从而让自己产品中的变频技术在Linux 中得到支持和使用。然而,这种内核开发模式所导致的后果是各个厂家的实现代码散落在 Linux 内核代码树的各个角落里,各种不同的实现之间没有任何代码是共享的,这给内核的维护以及将来添加对新的产品的支持都带来了巨大的开销,并直接导致了 cpufreq 内核子系统的诞生。

n      管理策略:

Linux内部共有五种对频率的管理策略userspace,conservative,ondemand,powersave 和 performance

Ø         1.performance :CPU会固定工作在其支持的最高运行频率上;

Ø         2.powersave :CPU会固定工作在其支持的最低运行频率上。因此这两种 governors 都属于静态 governor ,即在使用它们时 CPU 的运行频率不会根据系统运行时负载的变化动态作出调整。这两种 governors 对应的是两种极端的应用场景,使用 performance governor 体现的是对系统高性能的最大追求,而使用 powersave governor 则是对系统低功耗的最大追求。

Ø        3.Userspace:最早的 cpufreq 子系统通过 userspace governor 为用户提供了这种灵活性。系统将变频策略的决策权交给了用户态应用程序,并提供了相应的接口供用户态应用程序调节 CPU 运行频率使用。 (可以使用Dominik 等人开发了cpufrequtils 工具包 )

Ø        4.ondemand :userspace是内核态的检测,效率低。而ondemand正是人们长期以来希望看到的一个完全在内核态下工作并且能够以更加细粒度的时间间隔对系统负载情况进行采样分析的 governor。

Ø        5.conservative : ondemand governor 的最初实现是在可选的频率范围内调低至下一个可用频率。这种降频策略的主导思想是尽量减小对系统性能的负面影响,从而不会使得系统性能在短时间内迅速降低以影响用户体验。但是在 ondemand governor 的这种最初实现版本在社区发布后,大量用户的使用结果表明这种担心实际上是多余的, ondemand governor在降频时对于目标频率的选择完全可以更加激进。因此最新的 ondemand governor 在降频时会在所有可选频率中一次性选择出可以保证 CPU 工作在 80% 以上负荷的频率,当然如果没有任何一个可选频率满足要求的话则会选择 CPU 支持的最低运行频率。大量用户的测试结果表明这种新的算法可以在不影响系统性能的前提下做到更高效的节能。在算法改进后, ondemand governor 的名字并没有改变,而 ondemand governor 最初的实现也保存了下来,并且由于其算法的保守性而得名 conservative 。

Ondemand降频更加激进,conservative降频比较缓慢保守,事实使用ondemand的效果也是比较好的。

 

n      Cpufreq在用户态所呈现的接口:

Ø        cpuinfo_max_freq  cpuinfo_min_freq: 分别给出了 CPU 硬件所支持的最高运行频率及最低运行频率,

Ø        cpuinfo_cur_freq 则会从 CPU 硬件寄存器中读取 CPU 当前所处的运行频率。

Ø        Governor在选择合适的运行频率时只会在 scaling_max_freq 和 scaling_min_freq 所确定的频率范围内进行选择

Ø        scaling_cur_freq 返回的是 cpufreq 模块缓存的 CPU 当前运行频率,而不会对 CPU 硬件寄存器进行检查。

Ø        scaling_available_governors 会告诉用户当前有哪些 governors 可供用户使用

Ø         scaling_driver 则会显示该 CPU 所使用的变频驱动程序

Ø        Scaling_governor 则会显示当前的管理策略,往这个上echo其他类型会有相应的转变。

Ø        scaling_setspeed:需将governor类型切换为userspace,才会出现,往这个文件echo数值,会切换主频

 

以下是将governor切换为ondemand后生成的ondemand文件夹下出现的配置文件。(conservative就不说了,不准备使用)

Ø        sampling_rate:当前使用的采样间隔 ,单位:微秒

Ø        sampling_rate_min:允许使用的最短采样间隔

Ø        sampling_rate_max:允许使用的最长采样间隔

Ø        up_threshold :表明了系统负载超过什么百分比时 ondemand governor 会自动提高 CPU 的运行频率

Ø        ignore_nice_load:ignore_nice_load 文件可以设置为 0 或 1(0 是默认设置)。当这个参数设置为 1 时,任何具有 “nice”值的处理器不计入总处理器利用率。在设置为 0 时,所有处理器都计入利用率。

Ø        sampling_down_factor:

 

n      使用方法:

Ø        cd sys/devices/system/cpu/cpu0/cpufreq/目录

echo 32000 > scaling_min_freq 设置最小工作频率(khz,32000~88000)

//若想使用userspace策略

# echo userspace > scaling_governor切换工作方式为userspace

echo 64000 > scaling_setspeed  设置成想要的工作频率(khz)

//若想使用ondemand策略

# echo ondemand > scaling_governor切换工作方式为ondemand

 

3.如何实现?

       首先需要干一些杂活,修改kconfig makefile把系统屏蔽的cpufreq打开,对于我们来说主要的核心有两部分:

系统相关:主要有cpu,timer(变了频率一定要更新系统timer,否则系统时间就不准了),sdram等。

主要就是实现下面这个结构体:

static struct cpufreq_driver sep4020_driver =

{

       .flags      = CPUFREQ_STICKY,

       .verify     = sep4020_verify_speed,

       .target     = sep4020_target,

       .get         = sep4020_getspeed,

       .init         = sep4020_cpu_init,

       .name            = "SEP4020 Freq",

};

代码还是很简陋,很多细节都没考虑,所以具体的暂时先不讲了,大家可以先参考pxa和sa1100的实现。

 

然后就是收频率影响的驱动:

简单的来说就是:系统在变化cpu主频的时候会调用cpufreq_notify_transition(&freqs, CPUFREQ_POSTCHANGE);函数,响挂载在这个cpu上所有的驱动发出一个信号,驱动接收到这个信号则调用相应的处理函数。

这里把串口部分的实现简化,如下:

#ifdef CONFIG_CPU_FREQ

 

static int sep4020_serial_cpufreq_transition(struct notifier_block *nb, unsigned long val, void *data)

{

   //      printk("in the serial cpufreq_transition/n");

       int pmcr_pre;

       unsigned long cpu_clk,baud,baudh,baudl;

       pmcr_pre = *(volatile unsigned long*)PMU_PMCR_V;

              if(pmcr_pre > 0x4000)

              cpu_clk = (pmcr_pre-0x4000)*8000000;

       else

              cpu_clk = (pmcr_pre)*4000000;

 

       baud = cpu_clk/16/115200;      

       baudh = baud >>8;

       baudl = baud&0xff;    

 

       *(volatile unsigned char*)UART0_LCR_V |= (0x80);

       *(volatile unsigned char*)UART0_DLBL_V   = baudl;

       *(volatile unsigned char*)UART0_DLBH_V   = baudh;

       *(volatile unsigned char*)UART0_LCR_V &= ~(0x80);

       printk("in the serial cpufreq_transition/n");

    return 0;

}

 

static inline int sep4020_serial_cpufreq_register(void)

{

    sep4020_serial_freq_transition.notifier_call = sep4020_serial_cpufreq_transition;

 

    return cpufreq_register_notifier(&sep4020_serial_freq_transition,

                     CPUFREQ_TRANSITION_NOTIFIER);

}

 

static inline void sep4020_serial_cpufreq_deregister(void)

{

    cpufreq_unregister_notifier(&sep4020_serial_freq_transition,

                    CPUFREQ_TRANSITION_NOTIFIER);

}

 

#else

#endif

 

4.效果

在sys下开启ondeman模式,串上电流表:

1.      板级电流从220mA调至160mA(因为此时内核检测系统无负载,降频)

2.      执行一个nandflash的拷贝命令,拷贝一个5M左右的文件到其他文件夹,

3.      在拷贝执行时间在3秒时(我给内核设的扫描周期为2.5秒)系统发现有负载,升频,电流从160mA变为220mA(可见已是系统最高主频)

4.      此后的拷贝的整个过程中电流保持为220mA

5.      在拷贝结束后不久(2-3s内),系统电流又跳变至160mA。



/---------------------------------------------------------------------------------------------------------------------------------------------------

管理策略:


Linux 内部共有五种对频率的管理策略 userspace , conservative , ondemand , powersave  和  performance

Ø           1.performance  : CPU 会固定工作在其支持的最高运行频率上;

Ø           2.powersave  : CPU 会固定工作在其支持的最低运行频率上。因此这两种  governors  都属于静态  governor  ,即在使用它们时  CPU  的运行频率不会根据系统运行时负载的变化动态作出调整。这两种  governors  对应的是两种极端的应用场景,使用  performance governor  体现的是对系统高性能的最大追求,而使用  powersave governor  则是对系统低功耗的最大追求。

Ø         3.Userspace :最早的  cpufreq  子系统通过  userspace governor  为用户提供了这种灵活性。系统将变频策略的决策权交给了用户态应用程序,并提供了相应的接口供用户态应用程序调节  CPU  运行频率使用。   (可以使用 Dominik  等人开发了 cpufrequtils  工具包   )

Ø         4.ondemand  : userspace 是内核态的检测,效率低。而 ondemand 正是人们长期以来希望看到的一个完全在内核态下工作并且能够以更加细粒度的时间间隔对系统负载情况进行采样分析的  governor 。

Ø         5.conservative  :  ondemand governor  的最初实现是在可选的频率范围内调低至下一个可用频率。这种降频策略的主导思想是尽量减小对系统性能的负面影响,从而不会使得系统性能在短时间内迅速降低以影响用户体验。但是在  ondemand governor  的这种最初实现版本在社区发布后,大量用户的使用结果表明这种担心实际上是多余的,  ondemand governor 在降频时对于目标频率的选择完全可以更加激进。因此最新的  ondemand governor  在降频时会在所有可选频率中一次性选择出可以保证  CPU  工作在  80%  以上负荷的频率,当然如果没有任何一个可选频率满足要求的话则会选择  CPU  支持的最低运行频率。大量用户的测试结果表明这种新的算法可以在不影响系统性能的前提下做到更高效的节能。在算法改进后,  ondemand governor  的名字并没有改变,而  ondemand governor  最初的实现也保存了下来,并且由于其算法的保守性而得名  conservative  。

Ondemand 降频更加激进, conservative 降频比较缓慢保守,事实使用 ondemand 的效果也是比较好的。



n       Cpufreq 在用户态所呈现的接口:

Ø         cpuinfo_max_freq   cpuinfo_min_freq :   分别给出了  CPU  硬件所支持的最高运行频率及最低运行频率,

Ø         cpuinfo_cur_freq  则会从  CPU  硬件寄存器中读取  CPU  当前所处的运行频率。

Ø         Governor 在选择合适的运行频率时只会在  scaling_max_freq  和  scaling_min_freq  所确定的频率范围内进行选择

Ø         scaling_cur_freq  返回的是  cpufreq  模块缓存的  CPU  当前运行频率,而不会对  CPU  硬件寄存器进行检查。

Ø         scaling_available_governors  会告诉用户当前有哪些  governors  可供用户使用

Ø           scaling_driver  则会显示该  CPU  所使用的变频驱动程序

Ø         Scaling_governor  则会显示当前的管理策略,往这个上 echo 其他类型会有相应的转变。

Ø         scaling_setspeed :需将 governor 类型切换为 userspace ,才会出现,往这个文件 echo 数值,会切换主频



以下是将 governor 切换为 ondemand 后生成的 ondemand 文件夹下出现的配置文件。( conservative 就不说了,不准备使用)

Ø         sampling_rate :当前使用的采样间隔   ,单位:微秒

Ø         sampling_rate_min :允许使用的最短采样间隔

Ø         sampling_rate_max :允许使用的最长采样间隔

Ø         up_threshold  :表明了系统负载超过什么百分比时  ondemand governor  会自动提高  CPU  的运行频率

Ø         ignore_nice_load : ignore_nice_load  文件可以设置为  0  或  1 ( 0  是默认设置)。当这个参数设置为  1  时,任何具有  “nice” 值的处理器不计入总处理器利用率。在设置为  0  时,所有处理器都计入利用率。

Ø         sampling_down_factor :



n       使用方法:

Ø         cd sys/devices/system/cpu/cpu0/cpufreq/ 目录

echo 32000 > scaling_min_freq  设置最小工作频率 (khz,32000~88000)

// 若想使用 userspace 策略

# echo userspace > scaling_governor 切换工作方式为 userspace

echo 64000 > scaling_setspeed   设置成想要的工作频率 ( khz )

// 若想使用 ondemand 策略

# echo ondemand > scaling_governor 切换工作方式为 ondemand



3. 如何实现?

        首先需要干一些杂活,修改 kconfig makefile 把系统屏蔽的 cpufreq 打开,对于我们来说主要的核心有两部分:

系统相关:主要有 cpu , timer (变了频率一定要更新系统 timer ,否则系统时间就不准了), sdram 等。

主要就是实现下面这个结构体:

static struct cpufreq_driver sep4020_driver =

{

        .flags       = CPUFREQ_STICKY,

        .verify      = sep4020_verify_speed,

        .target      = sep4020_target,

        .get          = sep4020_getspeed,

        .init          = sep4020_cpu_init,

        .name             = "SEP4020 Freq",

};

代码还是很简陋,很多细节都没考虑,所以具体的暂时先不讲了,大家可以先参考 pxa 和 sa1100 的实现。



然后就是收频率影响的驱动:

简单的来说就是:系统在变化 cpu 主频的时候会调用 cpufreq_notify_transition(&freqs, CPUFREQ_POSTCHANGE); 函数,响挂载在这个 cpu 上所有的驱动发出一个信号,驱动接收到这个信号则调用相应的处理函数。

这里把串口部分的实现简化,如下:

#ifdef CONFIG_CPU_FREQ



static int sep4020_serial_cpufreq_transition(struct notifier_block *nb, unsigned long val, void *data)

{

    //       printk("in the serial cpufreq_transition/n");

        int pmcr_pre;

        unsigned long cpu_clk,baud,baudh,baudl;

        pmcr_pre = *(volatile unsigned long*)PMU_PMCR_V;

               if(pmcr_pre > 0x4000)

               cpu_clk = (pmcr_pre-0x4000)*8000000;

        else

               cpu_clk = (pmcr_pre)*4000000;



        baud = cpu_clk/16/115200;      

        baudh = baud >>8;

        baudl = baud&0xff;   



        *(volatile unsigned char*)UART0_LCR_V |= (0x80);

        *(volatile unsigned char*)UART0_DLBL_V    = baudl;

        *(volatile unsigned char*)UART0_DLBH_V    = baudh;

        *(volatile unsigned char*)UART0_LCR_V &= ~(0x80);

        printk("in the serial cpufreq_transition/n");

     return 0;

}



static inline int sep4020_serial_cpufreq_register(void)

{

     sep4020_serial_freq_transition.notifier_call = sep4020_serial_cpufreq_transition;



     return cpufreq_register_notifier(&sep4020_serial_freq_transition,

                      CPUFREQ_TRANSITION_NOTIFIER);

}



static inline void sep4020_serial_cpufreq_deregister(void)

{

     cpufreq_unregister_notifier(&sep4020_serial_freq_transition,

                     CPUFREQ_TRANSITION_NOTIFIER);

}



#else

#endif





30



在这个子目录下名字以 sampling 打头的三个文件分别给出了 ondemand governor 允许使用的最短采样间隔,当前使用的采样间隔以及允许使用的最长采样间隔,三者均以微秒为单位。以笔者的电脑为例, ondemand governor 每隔 80 毫秒进行一次采样。另外比较重要的一个文件是 up_threshold ,它表明了系统负载超过什么百分比时 ondemand governor 会自动提高 CPU 的运行频率。以笔者的电脑为例,这个数值为 30% 。那么这个表明系统负载的百分比数值是如何得到的呢?在支持 Intel 最新的 Enhanced Speedstep 技术的 CPU 中,在处理器硬件中直接提供了两个 MSR 寄存器(Model Specific Register)供 ondemand governor 采样分析系统负载情况使用。这两个 MSR 寄存器的 名字分别为 IA32_MPERF 和 IA32_APERF[5] ,其中 IA32_MPERF MSR 中的 MPERF 代表 Maximum Performance , IA32_APERF MSR 中的 APERF 代表 Actual Performance 。就像这两个 MSR 的名字一样, IA32_MPERF MSR 寄存器是一个当 CPU 处在 ACPI C0 状态下时按照 CPU 硬件支持的最高运行频率每隔一个时钟周期加一的计数器; IA32_APERF MSR 寄存器是一个当 CPU 处在 ACPI C0 状态下时按照 CPU 硬件当前的实际运行频率每隔一个时钟周期加一的计数器。有了这两个寄存器的存在,再考虑上 CPU 处于 ACPI C0 和处于 ACPI C1、C2、C3 三种状态下的时间比例,也就是 CPU 处于工作状态和休眠状态的时间比例, ondemand governor 就可以准确的计算出 CPU 的负载情况了。

得到了 CPU 的负载情况,接下来的问题就是如何选择 CPU 合适的运行频率了。刚刚在前面提到,当系统负载超过 up_threshold 所设定的百分比时, ondemand governor 将会自动提高 CPU 的运行频率,但是具体提高到哪个频率上运行呢?在 ondemand governor 监测到系统负载超过 up_threshold 所设定的百分比时,说明用户当前需要 CPU 提供更强大的处理能力,因此 ondemand governor 会将CPU设置在最高频率上运行,这一点社区中的开发人员和广大用户都没有任何异议。但是当 ondemand governor 监测到系统负载下降,可以降低 CPU 的运行频率时,到底应该降低到哪个频率呢? ondemand governor 的最初实现是在可选的频率范围内调低至下一个可用频率,例如笔者使用的 CPU 支持三个可选频率,分别为 1.67GHz、 1.33GHz 和 1GHz ,如果 CPU 运行在 1.67GHz 时 ondemand governor 发现可以降低运行频率,那么 1.33GHz 将被选作降频的目标频率。这种降频策略的主导思想是尽量减小对系统性能的负面影响,从而不会使得系统性能在短时间内迅速降低以影响用户体验。但是在 ondemand governor 的这种最初实现版本在社区发布后,大量用户的使用结果表明这种担心实际上是多余的, ondemand governor 在降频时对于目标频率的选择完全可以更加激进。因此最新的 ondemand governor 在降频时会在所有可选频率中一次性选择出可以保证 CPU 工作在 80% 以上负荷的频率,当然如果没有任何一个可选频率满足要求的话则会选择 CPU 支持的最低运行频率。大量用户的测试结果表明这种新的算法可以在不影响系统性能的前提下做到更高效的节能。在算法改进后, ondemand governor 的名字并没有改变,而 ondemand governor 最初的实现也保存了下来,并且由于其算法的保守性而得名 conservative 。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值