推断统计:p值的前生今世

推断统计的核心在于假设检验

Vonng

推断统计的核心在于假设检验。

假设检验的哲学基础

假设检验的基本思想是:小概率反证法。假设检验的假设是关于总体的一个普遍性论断,这个检验是看从样本得出的结论能否推论到总体。

假设检验的基本逻辑是基于科学哲学的一个重要论点:全称命题只能被否证而不能被证明。这个道理很简单,个案当然不足以证明一个全称命题,但是却可以否定全称命题。

我们想证明的结论既然无法通过枚举个案来证明,那么就搞一个与原假设对立的虚无假设。原来的假设称为备择假设,备择假设与虚无假设二者必择其一。所以如果可以否证虚无假设,就曲线救国的证明了我们感兴趣的备择假设成立。

由于抽样的原因,样本并不可能绝对地否证虚无假设。在个案中,小概率事件可以等同于不可能发生的事件。我们在这个意义上去在一定的事先约定的概率水平(α)上去拒绝虚无假设。

统计学基础:描述统计

统计分析分为描述统计与推断统计两个领域,描述统计(Descriptive Statistics)是关于对已有数据进行描述或表征的技术,也是统计学中最基础的部分。

Vonng

1. 统计与科学方法

1.1 认识方法

历史上,人类主要采用:权威,理性主义,直觉与科学方法获取知识

  • 权威(Authority):基于传统或者一些权威人士的意见获取知识
  • 理性主义(rationalism):通过推理获取知识,但是对于判定命题的真假,推理是不够的
  • 直觉(intuition):直觉是突然的顿悟,是涌入意识的突然想法。
  • 科学方法(Scientific Method):使用推理和直觉获取真理,但对于客观评价依靠实验与统计方法

纯PostgreSQL-5分钟实现推荐系统

用PostgreSQL 5分钟实现一个最简单ItemCF推荐系统

Vonng

推荐系统大家都熟悉哈,猜你喜欢,淘宝个性化什么的,前年双十一搞了个大新闻,拿了CEO特别贡献奖。

今天就来说说怎么用PostgreSQL 5分钟实现一个最简单ItemCF推荐系统,以推荐系统最喜闻乐见的movielens数据集为例。

概率论基本概念

概率论基础知识笔记

Vonng

1. 集合论

样本空间和样本点是概率论中无定义的基本概念,如同几何中的点和直线的概念一般。

从/0开始:理解错误与异常

错误是错误,异常是异常。Java程序员可能对此并没有很深的领会。

Vonng

从/0开始:聊聊异常

是的,没有打错,标题中是/0而不是0

那么问题就来了:除以0会发生什么?

限定条件是必须的:在CS领域,*nix | win操作系统下任意编程语言中,整数除法运算中除数为零的情况。

答案并不是固定的,在不同的操作系统,不同的编程语言,甚至不同的编译器下,答案都可能是不同的。

Vonng

UUID: 原理、性质与应用

最近一个项目需要生成业务流水号,需求如下:

  • ID必须是分布式生成的,不能依赖中心节点分配并保证全局唯一。
  • ID必须包含时间戳并尽量依时序递增。(方便阅读,提高索引效率)
  • ID尽量散列。(分片,与HBase日志存储需要)

在造轮子之前,首先要看一下有没有现成的解决方案。

标签分类理论

最近在某业务中需要设计一套标签管理系统。在对现有标签进行整理的过程中,倒腾出了这套理论。

Vonng

标签分类理论

最近在某业务中需要设计一套标签管理系统。在对现有标签进行整理的过程中,倒腾出了这套理论。

0. 标签的定义:标签分类学(Taxonomy)

对于标签(tag),很难列出一个公认的定义,指明这个概念的种差与属概念。 所以为了把握这个概念,就需要采取定义另一种办法:分类枚举

要解决的第一个问题是,有哪些类型的标签?如何对标签进行分类? 首先不妨对“如何分类”本身进行分类:分别从“形式”与“内容”上考察标签的分类。

排序算法通览

排序算法是最基础、应用最广泛、也是面试最常考的算法。

Vonng

排序算法

一个排序算法(Sorting algorithm)是一种能将一串数据依照特定排序方式进行排列的一种算法。其中:

  • 输出结果为递增序列
  • 输出结果是原输入的一种排列或重组

现代编码模型

字符集,编码,这些知识让很多基础不牢的程序员困惑不已。本文阐述了现代编码模型中的核心基本概念,并阐述了Python2中常见的字符编码问题的深层次原因。

Vonng

现代编码模型

字符编码,在计算机导论中经常作为开门的前几个话题来讲,然而很多CS教材对这个话题基本都是走马观花地几页带过。导致了许多人对如此重要且基本的概念认识模糊不清。直到在实际编程中,尤其是遇到多语言、国际化的问题,被虐的死去活来之后才痛下决心去重新钻研。诸如此类极其基础却又容易被人忽视的的知识点还有:大小端表示,浮点数细节,正则表达式,日期时间处理等。本文是系列的第一篇,旨在阐明字符编码这个大坑中许多纠缠不清的概念。

PostgreSQL MongoFDW 编译安装部署

MongoFDW功能比较讨喜,怎奈质量实在捉急,编译确然是一个头大的事情。

Vonng

PostgreSQL MongoFDW 编译安装部署

最近有业务要求通过PostgreSQL FDW去访问MongoDB。开始我觉得这是个很轻松的任务。但接下来的事真是让人恶心的吐了。MongoDB FDW编译起来真是要人命:混乱的依赖,临时下载和Hotpatch,错误的编译参数,以及最过分的是错误的文档。总算,我在生产环境(Linux RHEL7u2)和开发环境(Mac OS X 10.11.5)都编译成功了。赶紧记录下来,省的下次蛋疼。