`
文章列表
小样本,并不是说样本的绝对数量少(实际上,对任何算法来说,更多的样本几乎总是能带来更好的效果),而是说与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。 为什么能处理小样本,因为SVM理论是要寻找出支持向量。     非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也有人叫惩罚变量)和核函数技术来实现,这一部分是SVM的精髓,以后会详细讨论。多说一句,关于文本分类这个问题究竟是不是线性可分的,尚没有定论,因此不能简单的认为它是线性可分的而作简化处理,在水落石出之前,只好先当它是线性不可分的(反正线性可分也不过是线性不可分的一种特例而已,我们向来不怕方 ...
http://acm.hdu.edu.cn/showproblem.php?pid=1203 最终还是没有AC,有个Runtime Error(ACCESS_VIOLATION) 思路应该是正确的 #include <stdio.h> #include <string.h> #include <memory.h> struct Thing { int weight; double value; }; double middle[1000][10000]; struct Thing things[1000]; do ...
http://acm.xmu.edu.cn/JudgeOnline/problem.php?id=1029   #include <stdio.h> #include <memory.h> #include <string.h> unsigned int result[200][200],path[200]; void connie(int data[],int n) { memset(result,-1,sizeof(int)*200*200); memset(path,0,sizeof(int)*200); int ...
5月24日开始在天涯实习,到今天已经正好2周了。      第一周,前三天的时间基本在学习ICM的使用,周四周五,学习了在ICM基础上如何对分类结果进行统计,学习RECALL和Precision的概念,并花了几乎一天半的时间制作了一个辅助统计的SWT小工具。这个小工具在第二周被自己广泛使用。      第二周,用了半天多的时间,把小工具完成。周二到周五,主要做模型调优的工作。由于数据量大,而且需要看很多文本,工作方法也不是很明确,所以浪费了一些时间阅读大量文本。周三、周四感觉到模型调优效果不明显,主要是因为ICM本身分词不理想,导致不能按照传统的思维对模型调优,并且非常希望公司能开始制作 ...
召回率:Recall,又称“查全率”;   准确率:Precision,又称“精度”、“正确率”。      首先他们都是对一个模型中的一个类别来说的。      对于某一个类别X来说      A,被分类器标记为X,并确实属于X   B,被分类器标记为X,但不属于X   C,未被分类器标记为X,但却是属于X   D,未被分类器标记为X,同时也不属于X      Precision=A/(A+B)      Recall=A/(A+C)
JVM有一个默认的文件解码格式,通过System.getProperty("file.encoding")可以查看(大约)    在FileReader读取文件的过程中,FileReader继承了InputStreamReader,但并没有实现父类中带字符集参数的构造函数,所以FileReader只能按系统默认的字符集来解码。用InputStreamReader代替FileReader,InputStreamReader isr=new InputStreamReader(new FileInputStream(fileName),"UTF-8");这样读 ...
STL/C的面试题目 http://www.chinahrlab.com/company/motorola/178118.html 4指针和引用有什么分别;假如传引用比传指针安全,为什么?假如我使用常量指针难道不 行吗? (1) 引用在创建的同时必须初始化,即引用到一个有效的对象;而指针在定义的时候不必初 始化,可以在定义后面的任何地方重新赋值. (2) 不存在NULL引用,引用必须与合法的存储单元关联;而指针则可以是NULL. (3) 引用一旦被初始化为指向一个对象,它就不能被改变为另一个对象的引用;而指针在任 何时候都可以改变为指向另一个对象.给引用赋值并不是改变它和原始对象的绑定 ...
常用的Socket类型有两种:流式Socket(SOCK_STREAM,http,telnet)和数据报式Socket(SOCK_DGRAM)。 建立Socket #include <sys/socket.h> int socket(int domain, int type, int protocol);  domain指明所使用的协议族,通常为AF_INET,表示互联网协议族(TCP/IP协议族);type参数指 定socket的类型:SOCK_STREAM 或SOCK_DGRAM,Socket接口还定义了原始Socket(SOCK_RAW),允许 程序使用 ...
http://www.wuzesheng.com/?p=929     http://hi.baidu.com/luv_resplendent/blog/item/f8d0adf475e9a4e47609d7a6.html 实验证明,实际上它每次执行regexec它找个第一个匹配结果就返回了。不要妄想它一下子把所有的匹配结果都找到把地址放到pmatch数组里。书上的写发很容易让人造成这种误解。因为它每次只匹配一个结果就返回,所以要循环匹配。
C头文件#include <assert.h>//验证程序断言#include <ctype.h>//字符处理 #include <dirent.h>//目录项#include <errno.h>//定义错误码 #include<fcntl.h>//文件控制 #include <float.h>//浮点数处理 #include<ftw.h>//文件树遍历 #include<grp.h>//组文件 #include<limits.h>//实施常数 #include<mat ...
test
线程的实现在类Unix基本上分为内核支持方式和用户空间支持方式,如果线程的上下文切换是在内核中实现的,我们就称之为内核方式实现,但如果线程的切换是在用户空间进行的我们就称之为用户方式实现,内核并不知情,当然还有两种方式的混合方式,用户空间中的多个线程在内核空间有相应的内核线程与之对应(通常我们称此内核线程为LWP-轻级进程)。 linux的线程编程有两个库pthread和pth,对于pthread的实现是内核方式的实现,每个线程在kernel中都有task结构与之对应,也就是说用ps命令行是可以看见多个线程,线程的调度也是由内核中的schedule进行的。   #include <p ...
  【C++】::访问全局变量  【C/C++】 x++效率最高,读取x,自增 x+=1其次,x,x+1,结果赋给x x=x+1最次,读右x,右x+1,读左,给左x赋值  【C/C++】 double←float ↑ long ↑ unsigned ↑ int←char,short 向左的箭头表示必须转换,向上的箭头表示类型不同时转换  【C/C++】 隐式转换发生在如下时间: 1,混合类型的算术表达式 2,赋值 3,函数参数传递 4,函数返回值传递  【C/C++】 两个变量交换 a=a+b;b=a-b;a=a-b;但是a+b可能会越界 ...
题库 http://hi.baidu.com/danforn/blog/item/2cc8067b06a490f60bd18768.html 经验 http://forum.byr.edu.cn/article/ParttimeJob/180401
0524-0528 学习ICM工具,以及接口编程 0531-0604 使用ICM工具调优模型,并开发SWT工具(仅仅给自己使用,后来发现不如excel),写ICM模型调优报告 0607-0611 参加网易有道研发工程师笔试,请假三天 0614-0618 请假一周 0621-0625 WEKA+ICTCLAS+SVMLIB,原型系统,并做测试报告。(以后陈之为DM系统) 0628-0702 开发流程化的DM,把数据导入,清洗,生成vsm模型模块化,并开发并行的StringToVSM方法 0705-0709 TXT文件读入时候的编码问题,多类问题测试(证明关键在于模型),对ICTCLAS ...
Global site tag (gtag.js) - Google Analytics