1.系统管理

2.雪铁龙世嘉改气后多少钱一公里

3.数据挖掘核心算法之一--回归

油价算法什么时候能改过来的_油价算法什么时候能改过来的

由于网站上的石油市场价格历史数据的时间粒度从年一直精确到日,所有的下载靠人工完成是很困难的,而且由于下载到本地之后的表格字段并不规范,所以必须要根据数据库字段的要求对字符串和Excel表格操作,使之规范化后再入库。其难点在于实现石油市场价格的自动抓取完成对数据源的自动下载,数据源的自动更新,与管理平台的无缝链接,以及ActiveX 插件的制作。

5.3.1.1 数据源的自动下载

石油市场价格数据有3个数据源,包括美国能源部能源信息署(EIA)、《华尔街日报》(WJS)和中石油(CNPC)的数据。这些数据源皆为互联网上的。针对3个不同的数据源的特点,用远程自动下载及规范化,以及基于正则表达式的网页数据自动抓取两种不同的技术完成。

(1)远程自动下载及规范化

对于美国能源部网站的油价历史数据,通过设计自动下载引擎,完成对其历史油价数据的自动远程下载,按照指定路径保存到本地,并将每次下载的结果保存到数据库下载日志表;将下载下来的数据进行清洗、转换并上载到中心数据库。

(2)基于正则表达式的网页数据自动抓取技术

由于大部分网页数据并没有提供下载的通道,而且油价数据同股价数据一样更新频率很高。因此需要对网站上的数据进行基于正则表达式网页数据自动抓取。华尔街油价数据、美国能源部上的油价、中石油网页上的油价数据,均需要通过正则表达式的网页自动抓取功能来实现。

网页抓取需要解决的问题:

1)得到需要抓取的网页的地址列表(URL);

2)根据网页的地址去请求,得到网页的内容;

3)分析网页(HTM L)的结构,并提取出需要的内容,即使用网页结构化信息抽取技术或元数据集技术。可以使用基于字符串查找定位和基于DOM(Document Object Model)结构的分析;数据抓取结构体系,如图5.27所示。

图5.27 B/S网页抓取结构体系

正则表达式的网页数据自动抓取技术涉及网页源码数据的本地化操作,装载源码数据控件的选择,相关信息源码的抓取,源代码的去行操作,数据中含有超链接和字体变换的HTML标签元素的去除,应用零款断言和截取子字符串等字符串函数的方法来抓取数据以及数据入库这些操作(图5.28)。

图5.28 基于正则表达式的网页信息抓取过程

5.3.1.2 数据源的自动更新

当完成对历史数据的初始化之后,需要设计监控引擎,监控网站数据源的更新情况,以决策是否执行增量下载任务。其监控引擎用实时监控技术以及周期性检测技术。当执行增量下载任务之后,需要对下载数据的有效性和完整性进行检查,指定的数据源要定格式、定期进行更新。数据源的自动更新,主要依据站点在对数据更新之后系统能及时发现并自动快速地获取更新。从站点上获取更新的手段,涉及数据更新后的更新超链接、按钮变化后的触发网址的变动,分析网址来获得更新等,如:《华尔街日报》的期货油价就是按照将日期写进网址来制作更新的;若是周末或是节日期间网址同样存在只是网页上无相关内容,于是便要考虑此次更新获得的数据是否有效和存在;另外在处理如AJAX 等网址不变的网络站点或者站点的更新不能从网址上得到解释时,使用针对网页的高级字符串操作来获取更新,前述的正则表达式便是最有效的方法之一。

5.3.1.3 与管理平台的无缝链接

管理平台的功能是要使下载、更新的多个任务按照程式的设计,分配到计算机的几个线程中,通过对线程的调度,达到自动下载和更新的有效管理。为此需要设计审核功能、日志功能、重试次数的阈值,以及开启多个Excel进程的功能。通过审核功能,可以查明自动下载过程中的异常,便于进行人工干预;通过日志功能,可以帮助我们依据日志对任务执行中的错误进行追踪和对出错原因进行判断;通过设置重试次数阈值,可以实现任务执行失败后重试;通过开启多个Excel进程的功能,可以实现EIA的Excel数据自动读取和转换。

5.3.1.4 预测程序ActiveX插件的制作

由于油价预测程序是基于C/S架构开发,要将程序发布到B/S架构必须使用插件技术从服务器端向客户端安装预测程序的核心部件,以达到对油价模型更新而不用再单独编写程序的目的,这样就保证了程序的完整性和解决方案之间的良好衔接。

创建ActiveX插件的过程,必须让系统提供一个接口使得插件能够完整地从后台链接到前台。因为工程无法生成tlb文件,没有tlb文件也就意味着注册失败,以及dll文件或ActiveX 控件在客户端无法使用。创建的类就是通过代码的方式将dll文件在客户端注册,生成tlb文件,使得.exe程序能够在B/S体系下进行操作。

系统管理

1、多读书,为思考提供沃土。思维能力差的根本原因是见识少、知识积累不够、视野窄。所以说平时要多读书多学习,增长知识。知识的来源,包括读书、阅历、以及与人的交流等等,其中读书是增长知识较为简单、广泛、且系统的方法,要重视起来。在阅读积累方面,合理运用快速阅读法对提高输入知识的效率是很有帮助的。

2、透过写作,进行思考练习。在阅读学习之后,还要会借助如写作的方式来整理思维,强化理解,让各种知识融会贯通,逐步升级自己的思维。写作等于自我思考的整理,花时间架构出一篇让别人能读懂的文章,其实就是训练自己的思考能力和组织能力。

3、通过提问练习,引导思考。思考是需要引导的,自我提问就是一个很好的方法。向自己发问的时候,不是只问一个问题就结束,而是持续地问下去。在向自己发问的这个过程中,建议实际地把它们写下来(文字或图形都可以),让思考可视化。比如读到一个观点时,就可以这样问自己:作者为什么会从这个角度切入?作者是如何形成这个结论?这个结论有什么缺点?如果我来写如何可以更好?

4、在向他人阐述观点想法的时候,要懂得结构化思维。比如运用PREP的逻辑产出模式,简单来讲就是:先说结论(P),再说支持结论的理由或依据(R),接着说能够支持结论的具体案例(E),之后再重申一下结论(P)。

5、通过“梳理**”来练习思维能力。大部分人都比较喜欢看**,既然如此,我们不妨就在看完**之后,花上一点时间,梳理一下**的情节、主线(悬疑、科幻、罪案类的或书籍效果较好,因为它们都比较考验你的思维,特别是逻辑思维)。

6、学习一些记忆法、记忆术。学习记忆方法的目的不一定是为了记忆,它也可以帮我们锻炼大脑的工具。因为在训练记忆力的过程中,需要我们充分发挥想象、联想的能力,对数字、文字、形象进行来回转化,这对我们的逻辑思维、形象思维都有一定的锻炼作用。比如我刚说到的“精英特速读记忆训练软件”中的“编码定位记忆、牌记忆、思维导图记忆”等训练。有需要,或者是有时间、有兴趣的话,都可以练练。

雪铁龙世嘉改气后多少钱一公里

系统的用户包括普通用户和管理员用户两大类。

对于普通用户,系统需要向其提供只读的访问权限,可以查看系统内预定义好的各类风险GIS展示,风险评价指标体系、评价结果,以及不同评价对象的基本信息,另外还可以对系统内的模型运行结果进行查看。

图5.74增加评价方案页面

图5.75修改评价方案页面

图5.76同级指标审核页面

图5.77批量评价页面

管理员用户则需要为系统各模块的正常运行和系统内各种数据的维护等提供支持,系统管理平台的用户对象仅是系统管理员。

系统管理的开发将主要围绕系统管理平台、数据管理和图库管理3方面展开。系统管理平台主要是对整个网站系统的后台管理和网站设置,即实现该原型系统的后台维护。数据管理主要包括油价数据、管理,以及基础数据管理。另外,图库管理是针对国家、运输等相关风险中所用到的结构图或地图等进行集中管理。

5.4.5.1系统管理平台开发

以B/S形式运行的风险管理系统的管理平台如图5.78所示。依照数据流程的线索将系统整体功能从左到右进行组织,划分为数据准备、数据处理、数据存储和数据应用四大块,每一块中包括了数据流程不同阶段的具体任务。这些任务以多种形式展现在管理平台界面中,包括中心的流程图形式,左侧菜单和顶层菜单,对系统的管理功能提供了多个访问入口,方便系统管理员对系统功能的把握和调用。

接下来,以主界面中的数据流程图为主线,简单介绍该原型系统的逻辑框架。在系统运行管理平台界面的数据准备中,将系统需要获取的数据分为Internet抽取的价格数据和风险评价数据两大类(见图5.63c)。

在数据处理部分,系统提供对油价数据的进一步整理和数据自动抓取过程中的日志查看,保证系统提供准确完整的数据(见图5.63d)。除此以外,系统管理的数据处理部分包含模型运算模块的调用和管理,以及系统对指标体系和对象评价相关数据的管理。

图5.78系统管理主界面

目前主要介绍的是国家风险、市场风险和运输风险3个子功能模块。此外,除了上面所介绍的系统管理主要框架以外,在系统管理平台中,还添加了系统设置和网站操作模块。系统设置和网站操作主要实现整个原型系统的后台界面框架管理。具体主要包含以下几个方面。

1)直接利用取Sharepoint列表功能对网站后台框架进行整体设计,可以进行创建、编辑网页、网站框架设计(图5.79)。

图5.79网站操作

2)更改网站主题。网站后台中有多种网站主题,用户可根据需要选择不同的主题(图5.80)。

3)在每一个系统模块下面,可进行整体页面和架构的设计,同时可以编辑相应的超链接条目(图5.81)。

4)在网站设置主页中,高级用户可以进行权限管理,主题外观设置,系统库的管理以及网站集的管理(图5.82)。当然,上述权限操作仅限于高级用户。

5.4.5.2数据管理的开发

数据管理包括油价数据和管理、基础数据管理等内容。在油价数据和管理中主要完成油价数据和的自动抓取功能,基础数据管理将对各个风险模块评价对象的概况、信息等相关数据进行维护和管理。

(1)油价数据和管理

油价数据和管理的重点是油价和时间数据的获取。系统要求能够实现从Internet中定期自动地抓取数据并存储到系统中心数据库中。

图5.80网站主题更改

图5.81编辑网页

图5.82网站设置

考虑到数据管理和数据库之间的关系比较密切,并且需要不间断地运行,所以对数据管理模块的界面取了C/S的开发形式。

自动抓取模块的开发内容包括:价格数据抓取算法的设计;抓取算法的设计;数据抽取任务控制的整体程序结构确定;任务的自动执行和调度算法的设计;日志功能的使用,要能够依据日志对任务执行中的错误追踪和出错原因进行判断;需要实现任务失败重试,并可以设置重试次数阈值,默认为3次等。

1)调度算法。将抽取代码进行封装,添加调度日志等功能,设计出自动抓取模块流程的整体流程图(图5.83,图5.84)。用于数据管理的管理员界面如图5.85所示。

图5.83自动抓取模块流程图

图5.84自动抓取模块流程图

图5.85数据管理模块界面

2)价格数据抓取算法。自动抓取模块的核心代码是价格数据抓取和抓取算法。价格数据抓取从网页中抓取数据存储到本地中来,包括下载模块和处理转换模块两个子模块。自动抓取模块的核心代码部分自动远程下载价格数据,并按照指定路径保存到本地,并将下载结果计人数据库下载日志表,然后将下载下来的Excel表格数据进行转换,转换成符合数据库所建立的表格形式。

对美国能源部的数据抓取代码流程和表格处理转换流程如图5.86与图5.87所示。

图5.86数据抓取代码流程图

图5.87表格处理转换流程图

价格数据抓取模块的技术难点主要有:所下载的表格中包含的市场名称可能会发生变动,难以预期,导致匹配失败;Excel表格中产品名称、市场名称、价格类型、货币类型这几个字段是合并在一起的,需要将其分别识别出来;原表格中的日期格式直接导入数据库会发生不一致现象,需要对其进行转换处理。这些难点的解决主要依赖与算法的设计,在此不再赘述。

3)数据抓取算法。数据抓取算法要求对美国能源部上关于油品的所有历史进行抓取,并保存进数据库。具体实现算法是从美国能源部指定的网站上将页面的源码下载到本地,然后进行相关字符串抓取、清洗、操作之后进入中心数据库。

抓取算法的技术难点,主要在于是基于页面HTML形式而非链接,另外抓取的要符合数据库规定的形式。解决这些问题的主要方法包括对网页本地化装载的控件进行恰当的选择;在去除页面的HTML标记之后需要附加一些更正性质的处理,比如日期、年份的选择,日期、时间和内容之间没有空格的判断问题等;最后,最主要的就是在抓取中大量使用正则表达式提高效率。页面的呈现,如图5.88所示。

图5.88国际油价

(2)基础数据管理

系统管理平台主要实现基础数据管理。在基础数据管理模块,基于可扩展的数据维护技术,完成了总体架构设计,以国家、运输、市场基础数据为例的基础数据管理功能实现。在基础信息管理下实现了概况、信息、油价、等的添加、编辑、修改、更新一系列操作。

在基础数据管理中,实现了国家数据的概况、基本信息的页面设计;运输数据的港口、航线概况和基本信息的页面设计;市场数据管理的页面设计,并都实现了链库功能。

图5.63d展示的是系统管理的主界面。其中,最主要的功能是实现基础数据管理操作,该模块仅对高级用户(即有权限进行数据维护的用户)开放。

1)国家数据管理。与风险评价页面相类似,基础数据部分根据模块分了“国家数据”“运输数据”等标签,各标签下又有各自模块的细分功能菜单,显示于页面左侧。国家数据的新增国家和概况展示的页面,如图5.89和图5.90所示。

图5.89新增国家页面

图5.90国家基本信息批量展示

2)运输数据管理。运输数据管理模块实现了港口概况、港口信息、航线概况、航线信息的页面设计。现仅以港口信息页面展示为例,如图5.91所示。

5.4.5.3图库管理

在整个风险评价系统中,应用了大量来丰富展现评价对象的相关信息。的应用范围包括:国家对象的地理分布示意以及国家的内部行政划分等;港口对象的标志性,可能是港口的照片或者结构图等;以及其他模块所应用到的。

在图库管理部分,目前考虑的有国家和港口的管理。图库的结构如图5.92所示。

图5.91港口信息维护

图5.92图库管理结构图

图5.93是添加的页面。

图5.94是国家对象图库的显示页面,图5.95是一个具体的对象页面,并且可以在此处删除或者修改。

图5.93图库管理-添加

图5.94图库管理-国家对象图库

图5.95图库管理-国家对象具体显示

数据挖掘核心算法之一--回归

油价这么贵,油改气能省钱吗?mp34:57来自备用轮胎。

油改气确实能省钱,不然这么多出租车也不会换气,但是油改气不适合家用车。

就像每天熬夜苦读一样。确实能提高成绩,但是对身体不好。读完了晕倒在去大学的路上怎么办?

油改气后,使用成本确实更低

虽然天然气不如汽油耐用,但更便宜。

天然气不如汽油耐用。

天然气的主要成分是甲烷,其化学式为CH4。然后和C8H18相比,汽油的主要成分碳和氢要少很多,所以热值不如汽油,说白了就是不耐烧。

那么,天然气的优势就是便宜,这是最大的优势。数据显示,天然气的热值为每立方米3.5X10_焦耳。

那么,汽油大约是每千克4.6X10_焦耳,汽油的密度大约是每升0.73千克。因此,1升汽油的热值是3.3X10_焦耳,这与1立方米的天然气相似。

但价格比汽油便宜三四成。

那么在加气站,每立方米4到5元的天然气价格,比每升7元多的汽油还要便宜。你想,热值差不会太多,价格差30%到40%。

这就像两件衣服。一块布很好,很耐穿。可以穿三年。另外一种面料不是特别好,但是便宜很多。如果3年每年买一件,可能会便宜一点。差不多就是这个意思。

如果前一年加了一万块钱的油,换了气之后,看起来就是六七千块钱。所以单从使用成本来看,油改气确实能省钱。但是油改气应用不广泛,肯定有问题和缺陷吧?

但油改气也有其他副作用

修改成本

首先,油改气需要成本。你本身就是要钱的,不是说你随便在车上放个煤气瓶就行了。

你需要安装天然气储存、供应、控制系统、喷嘴、ECU、点火正时、点火线圈、火花塞、减压阀等。,以及其他许多东西。

就像你打完篮球后去踢足球,如果不是必须一个人去,你需要把篮球鞋换成足球鞋,而且这个护具总是要加的。总而言之,你需要5000元来改变它。

按照刚才的算法,1万公里省了3.4万,要开1.2万到1.6万公里才能把钱要回来。

少开点,一年几千公里,两年左右才赔,不划算。出租车天天“呜呜呜”,一年几十万或者二十万公里吧?

纯气续航里程不长。

另外,单纯靠烧天然气,续航里程是不够的。

天然气虽然是气体,可以压缩,但如果是60升左右,那么一个内压200公斤的煤气罐就能装12000升天然气,也就是我们常说的12立方米。

所以,就像我刚才说的,1立方米天然气的热值和1升石油的热值差不多。

所以容量和油箱差不多的60升的油箱可以装天然气,实际能跑的里程相当于12升汽油。

那么,续航里程只有原来烧油时间的25%左右,一罐油就能跑一两百公里。

嗯,很多车改气后,都是油气混装,但是要想省钱,还是要经常去加油站加油,出行次数太多。

油改气后,功率下降。

除了用起来比汽油麻烦一点,经常要加油吧?改变后,发动机功率将降低。

天然气毕竟是气体,密度比汽油低。

所以燃油本身的体积比较大,会挤出一些本来可以顺利进入气缸的新鲜空气体,导致发动机的充气效率下降,从而导致动力下降。

就像人不能呼吸,自然跑不快,不是吗?显然,你跑得很开心。你戴着面具,你有麻烦了。

一般来说,油改气后,根据发动机型号和使用技术的不同,动力会下降10%到20%左右。

油改气不太适合家用,适合出租车

一般来说,油改气可以降低汽车的使用成本,但是会带来很多不便。如果经常跑加油站,动力大不如前,也要一两年才能回本。所以,家用的话,我不是特别推荐。

但另一方面,对于出租车来说,油改气是一个非常好的选择。动力损失不损失也无所谓,因为燃料的成本大大降低了。我们拉人对吗?

有些车是两班倒,一箱汽油只够司机开一班。完全巧合,对吧?我喝完一罐,下一罐来了,你打开下一罐。

所以很多城市的出租车选择烧天然气来降低成本,毕竟跑的多。

1000元给车装个电子涡轮,真的能省油提升动力吗?

家用油改气看起来不太靠谱。除了油改气还有什么可以省油的?

网上电子涡轮不多,1000多块钱,可以增加动力,降低油耗。是真的吗?

还有一种燃油催化剂,装上可以省油,也可以让95号车用92号油。有这么神奇吗?这到底是什么原理?

我们买了几个用,打开,做成了给你。

关键词:节油

关注“备胎说车”,回复关键词“省油”,即可阅读。

《备胎说车》,等你来玩。

百万购车补贴

数据挖掘核心算法之一--回归

回归,是一个广义的概念,包含的基本概念是用一群变量预测另一个变量的方法,白话就是根据几件事情的相关程度,用其中几件来预测另一件事情发生的概率,最简单的即线性二变量问题(即简单线性),例如下午我老婆要买个包,我没买,那结果就是我肯定没有晚饭吃;复杂一点就是多变量(即多元线性,这里有一点要注意的,因为我最早以前犯过这个错误,就是认为预测变量越多越好,做模型的时候总希望选取几十个指标来预测,但是要知道,一方面,每增加一个变量,就相当于在这个变量上增加了误差,变相的扩大了整体误差,尤其当自变量选择不当的时候,影响更大,另一个方面,当选择的俩个自变量本身就是高度相关而不独立的时候,俩个指标相当于对结果造成了双倍的影响),还是上面那个例子,如果我丈母娘来了,那我老婆就有很大概率做饭;如果在加一个,如果我老丈人也来了,那我老婆肯定会做饭;为什么会有这些判断,因为这些都是以前多次发生的,所以我可以根据这几件事情来预测我老婆会不会做晚饭。

大数据时代的问题当然不能让你用肉眼看出来,不然要海量计算有啥用,所以除了上面那俩种回归,我们经常用的还有多项式回归,即模型的关系是n阶多项式;逻辑回归(类似方法包括决策树),即结果是分类变量的预测;泊松回归,即结果变量代表了频数;非线性回归、时间序列回归、自回归等等,太多了,这里主要讲几种常用的,好解释的(所有的模型我们都要注意一个问题,就是要好解释,不管是参数选择还是变量选择还是结果,因为模型建好了最终用的是业务人员,看结果的是老板,你要给他们解释,如果你说结果就是这样,我也不知道问什么,那升职加薪基本无望了),例如你发现日照时间和某地葡萄销量有正比关系,那你可能还要解释为什么有正比关系,进一步统计发现日照时间和葡萄的含糖量是相关的,即日照时间长葡萄好吃,另外日照时间和产量有关,日照时间长,产量大,价格自然低,结果是又便宜又好吃的葡萄销量肯定大。再举一个例子,某石油产地的咖啡销量增大,国际油价的就会下跌,这俩者有关系,你除了要告诉领导这俩者有关系,你还要去寻找为什么有关系,咖啡是提升工人精力的主要饮料,咖啡销量变大,跟踪发现工人的工作强度变大,石油运输出口增多,油价下跌和咖啡销量的关系就出来了(单纯的例子,不要多想,参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例,感觉不够典型,就换一个,实际油价是人为操控地)。

回归利器--最小二乘法,牛逼数学家高斯用的(另一个法国数学家说自己先创立的,不过没办法,谁让高斯出名呢),这个方法主要就是根据样本数据,找到样本和预测的关系,使得预测和真实值之间的误差和最小;和我上面举的老婆做晚饭的例子类似,不过我那个例子在不确定的方面只说了大概率,但是到底多大概率,就是用最小二乘法把这个关系式写出来的,这里不讲最小二乘法和公式了,使用工具就可以了,基本所有的数据分析工具都提供了这个方法的函数,主要给大家讲一下之前的一个误区,最小二乘法在任何情况下都可以算出来一个等式,因为这个方法只是使误差和最小,所以哪怕是天大的误差,他只要是误差和里面最小的,就是该方法的结果,写到这里大家应该知道我要说什么了,就算自变量和因变量完全没有关系,该方法都会算出来一个结果,所以主要给大家讲一下最小二乘法对数据集的要求:

1、正态性:对于固定的自变量,因变量呈正态性,意思是对于同一个答案,大部分原因是集中的;做回归模型,用的就是大量的Y~X映射样本来回归,如果引起Y的样本很凌乱,那就无法回归

2、独立性:每个样本的Y都是相互独立的,这个很好理解,答案和答案之间不能有联系,就像掷硬币一样,如果第一次是反面,让你预测抛两次有反面的概率,那结果就没必要预测了

3、线性:就是X和Y是相关的,其实世间万物都是相关的,蝴蝶和龙卷风(还是海啸来着)都是有关的嘛,只是直接相关还是间接相关的关系,这里的相关是指自变量和因变量直接相关

4、同方差性:因变量的方差不随自变量的水平不同而变化。方差我在描述性统计量分析里面写过,表示的数据集的变异性,所以这里的要求就是结果的变异性是不变的,举例,脑袋轴了,想不出例子,画个图来说明。(我们希望每一个自变量对应的结果都是在一个尽量小的范围)

我们用回归方法建模,要尽量消除上述几点的影响,下面具体讲一下简单回归的流程(其他的其实都类似,能把这个讲清楚了,其他的也差不多):

first,找指标,找你要预测变量的相关指标(第一步应该是找你要预测什么变量,这个话题有点大,涉及你的业务目标,老板的目的,达到该目的最关键的业务指标等等,我们后续的话题在聊,这里先把方法讲清楚),找相关指标,标准做法是业务专家出一些指标,我们在测试这些指标哪些相关性高,但是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱,没思路,没想法,没意见),所以我的做法是将该业务目的所有相关的指标都拿到(有时候上百个),然后跑一个相关性分析,在来个主成分分析,就过滤的差不多了,然后给业务专家看,这时候他们就有思路了(先要有东西激活他们),会给一些你想不到的指标。预测变量是最重要的,直接关系到你的结果和产出,所以这是一个多轮优化的过程。

第二,找数据,这个就不多说了,要么按照时间轴找(我认为比较好的方式,大部分是有规律的),要么按照横切面的方式,这个就意味横切面的不同点可能波动较大,要小心一点;同时对数据的基本处理要有,包括对极值的处理以及空值的处理。

第三, 建立回归模型,这步是最简单的,所有的挖掘工具都提供了各种回归方法,你的任务就是把前面准备的东西告诉计算机就可以了。

第四,检验和修改,我们用工具计算好的模型,都有各种设检验的系数,你可以马上看到你这个模型的好坏,同时去修改和优化,这里主要就是涉及到一个查准率,表示预测的部分里面,真正正确的所占比例;另一个是查全率,表示了全部真正正确的例子,被预测到的概率;查准率和查全率一般情况下成反比,所以我们要找一个平衡点。

第五,解释,使用,这个就是见证奇迹的时刻了,见证前一般有很久时间,这个时间就是你给老板或者客户解释的时间了,解释为啥有这些变量,解释为啥我们选择这个平衡点(是因为业务力量不足还是其他的),为啥做了这么久出的东西这么差(这个就尴尬了)等等。

回归就先和大家聊这么多,下一轮给大家聊聊主成分分析和相关性分析的研究,然后在聊聊数据挖掘另一个利器--聚类。